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存储 行业 混迹 十 载 ， 历 任 售 前 售后 、 产 品 设计 、 咨 询 顾问 等 角色 ， 
四 项 存储 技术 专利 及 明和 人 人。 酷爱 钻研 ， 个 性 执 看。 理想 是 晚年 能 够 做 一 
名 教师 。 


内 容 简 介 


网 络 存储 是 一 个 涉及 计算 机 硬件 以 及 网 络 协议 /技术 、 操 作 系 统 以 
及 专业 软件 等 各 方面 综合 知识 的 领域 。 目 前 国内 阐述 网 络 存储 的 书籍 少 
之 又 少 ， 大 部 分 是 国外 作品 ， 对 存储 系统 底层 细节 的 描述 不 够 深入 ， 加 
之 术语 太 多 ， 初 学 者 很 难 真正 理解 网 络 存储 的 精英 。 





本 书 以 特 立 独行 的 行文 风格 同 读者 图 述 了 整个 网 络 存储 系统 。 从 硬 
盘 到 应 用 程序 ， 对 这 条 路 径 上 的 每 个 节点 ， 作 者 都 进行 了 曾 述 。 书 中 内 
容 涉及 : 计算 机 IO 基本 概念 ， 硬 盘 物理 结构 、 盘 片 数据 结构 和 工作 原 
理 ， 七 种 常见 RAID 原 理 详 析 以 及 性 能 细节 对 比 ， 虚 拟 磁盘 、 卷 和 文件 
系统 原理 ， 人 磁盘 阵列 系统 ，OSI 模 型 ，FC 协 议 ， 众 多 磁盘 阵列 架构 等 。 
男 外 ， 本 书 吉 括 了 存储 领域 几乎 所 有 的 新 兴 技 术 ， 比 如 机 械 磁 副 、 
SSD、FC/SAS 协 议 、HBA 卡 、 存 储 控制 器 、 集 群 存储 系统 、FC SAN、 
NAS、iSCSI、FCoE、 人 快照 、 镜 像 、 虚 拟 化 、 同 步 /异步 远程 复制 、Thin 
Provision 自 动 精简 配置 、VTL 虚 拟 磁带 库 、 数 据 容 灾 、 应 用 容 灾 、 业 务 
容 灾 、 人 性 能 优化 、 存 储 系 统 IO 路 径 、 云 计算 与 云 存 储 等 。 

















其 中 每 一 项 技术 作者 都 进行 了 建 模 和 分 析 ， 吕 在 帮助 读者 彻底 理解 
每 一 种 技术 的 原理 和 本 质 。 本 书 结尾 ， 作 者 精心 总 结 和 多 年 来 在 论坛 以 
及 各 大 媒体 发 表 的 帖子 内 容 ， 超 过 一 百 条 的 问 与 答 ， 这 些 内 容 都 是 与 实 
际 紧密 结合 的 经 验 总 结 ， 颇 具 参 考 价值 








本 书 第 一 版 于 2008 年 出 版 ， 受 到 业界 一 致 肯定 ， 历 经 6 年 拉 术 沉淀 
重 效 出 版 。 


本 书 适 合 初 入 存储 行业 的 研发 人 员 、 技 术 工程 师 、 售 前 工程 师 和 销 
售 人 员 阅 读 ， 同 时 适合 资深 存储 行业 人 二 用 以 互相 切 磅 交流 提高 。 


外 ， 网 络 工程 师 、 网 管 、 服 务 器 软 硬 件 开发 与 销售 人 员 、Web 开 发 者 、 
数据 库 开 发 者 以 及 相关 专业 师 生 等 也 非常 适合 阅读 本 书 。 


本 书 封面 贴 有 清华 大 学 出 版 社 防 伪 标 签 ， 无 标签 者 不 得 销售 。 
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作者 感言 


各 位 读者 好 ， 很 高 兴 再 次 为 大 家 “大 话 ” 存 储 ， 记 得 上 一 次 是 在 3 年 
前 。6 年 前 ， 当 《大 话 存 储 》 一 书 在 2008 年 出 版 面世 之 后 ， 我 当时 就 许 
下 承诺 ， 要 写 《 大 话 存储 终极 版 》。 当 时 之 所 以 敢 夸 下 海口 要 继续 写 第 
二 本 ， 是 因为 《大 话 存储 》 介 绍 了 存储 领域 最 基本 的 概念 和 架构 ， 但 并 
没有 深入 涉及 存储 领域 最 新 的 技术 ， 比 如 重复 数据 删除 、Thin 
Provision、 动 态 分 级 存储 、CDP 连 续 数据 保护 、SSD 固 态 硬盘 、FCoE、 
SAS、 云 计算 和 云 存储 等 。 























当年 的 《大 话 存储 》 确 实 满足 了 广大 读者 的 一 定 需求 ， 出 版 之 后 也 
获得 了 诸多 好 评 和 官方 的 、 氏 间 的 很 多 奖项 。 这 些 成 果 逐 渐 让 我 感觉 到 
更 大 的 黄 任 和 压力 。 正 因 如 此 ， 所 以 我 深 知 绝对 不 能 就 此 停 网 ， 学 习 是 
永 无 止境 的 ， 撤 术 是 不 断 发 展 的 ， 所 以 我 先 问 大 家 做 了 承 诡 ， 这 样 就 可 
以 无 时 无 刻 地 激励 我 继续 学 习 研 究 下 去 了 。 











写作 过 程 是 极其 困难 的 ， 尤 其 是 当 一 字 一 句 部 需要 精 雕 细 琢 ， 并 且 
时 刻 以 通俗 表达 且 让 所 有 人 都 能 看 懂 的 原则 和 基准 去 写 的 时 候 ， 其 所 耗 
费 的 精力 和 脑力 是 巨大 的 。 记 得 在 一 年 前 撰写 本 书 主体 的 时 候 ， 基 本 上 
每 天 都 是 早晨 七 八 点 钟 起 来 ， 从 床上 直接 到 书桌 前 开始 写 ， 直 到 中 午 吃 
饭 ， 吃 饭 过 程 中 依然 在 脑海 中 构思 着 ， 就 这 样 一 直到 晚上 ， 节 晚 的 一 次 
记得 是 做 一 个 实验 ， 通 消 达 旦 ， 直 到 第 二 天 天 有 党， 实在 体力 不 文 ， 去 床 
上 丹 到 中 午 ， 然 后 继续 写 。 每 次 睡觉 之 前 ， 痢 会 市 者 一 个 疑问 入 睡 ， 丹 
下 之 后 就 在 脑海 中 构思 、 建 模 ， 一 旦 想到 某 些 重要 的 东西 ， 就 用 笔记 下 
几 个 关键 词 ， 人 否则 第 二 天 准 筷 。 大 部 分 情况 一 般 都 是 没 想 到 什么 思路 就 
己 经 呼 呼 大 睡 了。 这 种 状态 持续 了 半年 之 入 ， 当 完成 了 主体 稿件 之 后 ， 




















ee 可 惜 ， 好 景 不 长 ， 随 着 不 断 的 学 习 和 深 

， 逐 渐 发 现 已 经 写 完 的 内 容 当 中 有 大 量 需 要 补充 完善 、 修 饰 的 部 分 ， 
> 
甚至 推翻 了 以 前 的 结论 。 这 种 状态 义 持续 了 半年 ， 最 终 定 稳 交 给 编辑 之 
依然 发 现 还 有 零碎 的 东西 需要 完善 甚至 推翻 ， 结 果 一 再 将 更 新 的 内 

辣 光 全 全 和 导致 出 版 日 期 一 推 再 推 ， 出 版 社 相关 编辑 、 校 对 叫 震 不 

还 好 咀 的 老 战友 大 成 编辑 一 如 既往 地 支持 ， 我 们 都 项 住 了 压力 ， 直 
te 
面 这 个 过 程 感觉 更 加 耗费 精力 ， 因 为 当 你 重新 审视 之 前 内 容 的 时 候 ， 一 
旦 发 现 不 完善 甚至 错误 ， 束 会 感觉 到 一 种 挫败 感 和 愧 交感 ， 使 你 的 激情 
和 斗志 有 所 交 失 。 




















写 书 不 但 是 给 他 人 共 吾 知识 的 过 程 ， 它 更 是 一 个 总 结 目 身 知识 体 
系 、 提 高 自身 修养 以 及 让 目 己 学 习 更 多 知识 的 途径。 比如 ， 我 在 写 书 过 
程 中 ， 不 但 通过 各 方面 渠道 纠正 了 之 前 对 茶 项 技术 的 一 些 错误 认识 ， 而 
且 还 学 习 了 更 多 的 知识 ， 并 且 将 这 些 知识 进行 深度 理解 分 析 ， 之 后 通俗 
地 表达 出 来 。 当 你 发 现 其 他 人 通过 你 的 知识 快速 提高 之 后 ， 这 种 感觉 是 
最 充实 的 。 只 有 在 奉献 之 后 才 会 感到 充实 ， 而 不 是 一 味 的 去 索取 ， 这 样 
只 能 更 加 空虚 。 














本 次 终极 修订 版 ， 一 是 针对 《大 话 存储 》 和 《大 话 存 储 终 极 版 》 这 
两 本 书 中 的 错误 进行 修改 ， 二 是 将 前 两 本 书 彻 底 整 合成 为 一 本 ， 三 是 增 
加 了 一 些 前 治 内 容 ， 四 是 针对 前 作 中 读者 反映 不 太 好 懂 的 地 方 进行 了 重 
新 诠释 。 吉 人 的 下 一 本 书 已 经 在 写作 当中 ， 本 独 十 年 磨 一 剑 、 磨 不 好 缀 
不 拿 出 来 的 态度 ， 相 信 不 会 让 读者 失望 。 














感谢 家 人 对 我 的 文 持 ! 长 达 半 年 的 无 业 状 态 ， 没 有 家 人 支持 就 没有 
这 本 书 。 





感谢 那些 曾经 帮助 过 我 的 不 计 其 数 的 网 友和 同事 ! 没有 或 励 也 不 会 
有 这 本 书 。 


感谢 清华 大 学 出 版 社 的 工作 人 员 为 本 书 所 付出 的 工作 ! 没有 信任 更 
不 会 有 这 本 书 。 





感谢 华中 科技 大 学 武汉 光电 国家 重点 实验 室 博士 生 导 师 谢 长 生 教 授 
对 可 人 和 本 书 的 大 力 支 持 ! 


感谢 本 书 的 广大 读者 ， 你 们 的 支持 给 了 我 持续 前 进 的 动力 ! 





致 本 书 最 终 修订 版 交 稳 之 前 ， 我 的 女儿 诞生 了 ， 感 谢 妻 子 。 不 知道 
她 成 人 之 后 ， 能 否 还 能 看 到 20 多 年 前 的 这 本 由 他 父 杀 所 车 的 著作 ， 虽 然 
那 时 候 本 书 可 能 早已 过 时 。 我 会 努力 把 钻研 、 狐 力 、 执 着 、 息 我 这 些 下 
古 不 变 的 东西 ， 在 女儿 成 长 过 程 中 传授 给 她 ， 我 相信 ， 有 了 这 些 ， 做 什 
么 部 会 成 功 。 
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厅 1 

我 关注 张 冬 这 个 名 字 是 在 《大 话 存储 》 一 书 刚 出 版 的 时 候 。 作 为 一 
个 长 期 从 事 信 息 存 储 技术 研究 与 教学 的 大 学 教师 ， 自 认为 对 于 国内 外 关 
于 网 络 存储 方面 的 各 种 书籍 和 资料 比较 熟悉 ， 对 业界 有 哪些 高 人 也 算 比 
较 了 解 ， 但 我 在 书店 偶然 发 现 一 本 名 为 《大 话 存储 》 书 的 时 候 ， 确 实感 
到 有 点 意外 和 惊喜 。 好 像 在 见 悉 的 武林 浆 子 之 外 ， 突 然 出 现 一 位 武林 高 
手 在 那里 论 道 。 好 奇 心 驱使 我 赶紧 买 了 一 本 书 回 家 研读 ， 结 果 发 现 这 本 
书 确 实 与 众 不 同 。 








与 我 们 这 些 所 请 学 院 派 写 的 中 规 中 和 矩 的 书 相 比 ， 此 书 风 格 特 立 独 
行 ， 语 言 形象 生动 ， 潇 涝 洒洒 ， 跨 有 具 武 侠 之 风 。 书 中 充满 着 智 慧 的 思考 
和 有 趣 的 比喻 ， 将 各 种 原本 枯燥 深奥 的 扩 术 概念 和 原理 论述 得 十 分 透彻 
明白 。 不 仅 如 此 ， 该 书 还 收集 了 大 量 的 实例 ， 使 读者 在 系统 获得 网 络 存 
储 知 识 的 同时 ， 还 能 了 解 典型 实际 系统 的 工作 原理 和 技术 细节 ， 有 共有 很 
好 的 实用 性 。 我 读 完 之 后 ， 对 这 本 书 的 作者 十 分 好 奇 。 一 个 80 后 而 且 还 
古 学 化 学 出 身 的 年 轻 人 ， 如 何 束 能 写 出 这 种 行文 老 到 而 风格 独特 的 专业 
技术 书籍 呢 ? 上 网 碍 了 一 下 冬瓜 头 〈 张 冬 的 网 名 ) 的 技术 博客 和 他 在 各 
种 论坛 留 下 的 文字 ， 我 得 到 了 答案 。 这 是 一 个 完全 由 兴趣 驱动 而 对 技术 
极端 痴迷 的 人 ， 也 是 一 位 善于 思考 、 富 于 想象 力 的 人 。 这 种 纯粹 的 、 不 
含 任何 功利 成 份 的 兴趣 与 痴迷 ， 才 是 促进 科学 技术 发 展 的 真正 源 动 力 。 











真正 和 张 冬 接触 ， 是 因为 他 来 信 质 颖 我 们 实验 室 申报 的 一 项 专利 。 
收 到 质疑 的 来 信 ， 我 和 提出 这 项 专利 的 博士 生 经 过 仔细 研究 ， 发 现 我 们 
提供 的 图 上 因为 少 了 一 个 非 门 ， 结 果 将 会 因为 反 相 而 出 错 。 对 如 此 细致 
具体 的 问题 ， 一 般 人 是 难以 发 现 的 。 如 果 没 有 打破 砂锅 问 到 底 的 较真 精 








神 ， 哪 里 会 发 现 如 此 细节 的 错误 呢 ? 这 种 质疑 的 精神 ， 在 科学 研究 中 是 
极为 宝贵 的 。 我 们 学 校 被 称 为 “ 根 叔 ”的 酚 墙 根 校长 ， 在 2010 年 的 新 生 开 
学 典礼 大 会 上 ， 就 以 “质疑 ”为 题 作 了 讲演， 激励 青年 学 子 发 扬 质疑 精 
神 。 有 质疑 精神 的 人 ， 不 唯 上 ， 不 唯 权威 ， 只 认真 理 ， 这 正 是 我 们 这 个 
时 代 所 稀缺 的 精神 。 








强烈 的 兴趣 ， 对 技术 的 奖 迷 ， 加 上 质疑 精神 ， 成 就 了 一 本 存储 领域 
的 一 本 好 书 。 我 在 研究 生 新 生 入 学 之 后 ， 就 推荐 他 们 先 读 一 下 《大 话 存 
储 》 这 本 书 。 一 方面 此 书 对 研究 生 而 言 ， 确 实 是 一 本 网 络 存储 搁 术 入 门 
的 好 书 ， 男 一 方面 我 还 有 一 个 用 意 ， 束 是 让 他 们 知道 ， 要 从 事 科 学 研 
完 ， 强 烈 的 兴趣 比 什 么 部 重要 。 

















言 轧 存储 是 信息 路 越 时 间 的 传递 ， 也 是 人 类 传承 知识 的 主要 手段 。 
在 信息 存储 技术 上 ， 人 类 有 超过 万 年 的 发 明 创 造 史 。 早 期 融 地 取材 ， 人 
类 利用 石刻 、 泥 板 、 竹 简 和 羊皮 等 来 记录 信息 ， 后 来 发 明了 纸张 和 活字 
印刷 来 保存 和 传播 信息 ， 近 代 及 明了 照相 、 录 音 和 录像 技术 来 存储 信 
恩 。 利 用 这 些 发 明和 创造 ， 人 类 留 下 了 极为 丰富 的 文字 、 绘 夯 、 图 像 、 
语音 和 视频 信息 。 正 是 这 些 信 息 ， 记 录 了 人 类 创造 的 知识 体系 ， 使 我 们 
能 够 传承 文明 ， 并 在 此 基础 上 创造 新 的 文明 。 








从 计算 机 的 发 明 为 开端 ， 人 类 的 信息 技术 进入 了 一 个 以 数字 化 为 特 
征 的 历史 性 新 阶段 。 各 种 形式 的 信息 被 转换 成 数字 后 ， 以 统一 的 方式 进 
行 处 理 、 传 输 和 存储 ， 然 后 再 转换 为 各 种 形式 的 信息 被 人 们 所 利用 。 这 
种 前 所 未 有 的 方式 发 明之 后 ， 一 个 以 数字 化 为 特征 的 信息 革命 浪 济 束 小 
澜 壮 阔 地 形成 。 各 种 信息 都 被 大 规模 数字 化 ， 使 数字 化 的 信息 呈 爆 炸 性 
增长 。 特 别 是 互联 网 的 兴起 和 普及 ， 大 大 加 快 了 信息 的 流通 过 程 ， 使 数 
字 信 息 加 速 产生 。 图 灵 奖 获得 者 Jim Gary 观 察 这 种 数据 急速 增长 的 趋势 
后 ， 总 结 出 一 个 规律 : 人 类 每 18 个 月 新 增 的 数据 量 ， 将 是 历史 上 所 有 数 








据 量 之 和 ! 如 此 下 去 ， 对 信息 存储 的 需求 将 是 无 止境 的 ， 信 息 存 储 技术 
在 这 种 强烈 的 需求 驱动 下 得 到 了 空前 的 有 发展。 








为 了 保存 数字 化 的 信息 ， 当 代 的 科学 家 和 工程 师 在 最 近 的 几 十 年 中 
发 明了 磁 存 储 、 光 存储 、 半 导体 存储 等 多 种 存储 技术 ， 其 中 大 容量 的 硬 
盘 在 海量 信息 存储 中 扮演 了 主要 的 角色 。 硬 盘 的 密度 在 短 短 几 十 年 中 增 
长 了 一 百 万 倍 以 上 ， 在 近期 ， 硬 盘 密 上 度 每 年 增长 都 接近 一 倍 ， 而 且 还 有 
不 小 的 增长 空间 。 由 人 硬盘 作为 基本 单元 ， 通 过 各 种 总 线 、 网 络 将 硬盘 连 
接 成 不 同 层次 和 不 同 规模 的 存储 系统 ， 束 构成 了 我 们 目前 的 网 络 存储 系 
统 。 例 如 由 硬盘 组 加 上 元 余 纠 错 技术 构成 磁盘 阵列 ， 再 由 磁盘 阵列 通过 
局 部 高 速 网 络 连接 形成 存储 区 域 网 ， 又 如 通过 包含 硬盘 的 大 规模 集群 和 
文件 系统 形成 的 海量 存储 系统 成 为 大 型 网 站 和 数据 中 心 新 的 存储 架构 。 
人 们 发 明了 各 种 技术 来 提高 存储 系统 的 容量 、 性 能 、 效 率 、 可 用 性 、 安 
全 性 和 可 管理 性 。 存 储 虚 拟 化 、 归 档 存 储 、 集 群 存储 、 云 存储 、 绿 色 存 
储 等 新 名 词 不 断 涌现 ，SSD 回 态 存储 、 重 复数 据 删 除 、 连 续 数 据 保 护 、 
数据 备份 与 容 灾 、 数 据 生 命 周 期 管理 等 新 技术 层出不穷 ， 令 人 应 接 不 
上 暇 。 














在 这 种 情况 下 ， 广 大 的 信息 领域 的 从 业 人 员 ， 信 息 系 统 的 用 户 ， 以 
及 学 习 信 息 技 术 的 大 学 生 和 和 研究生， 迫切 需要 一 本 既 全 面 论述 网 络 存储 
技术 原理 ， 又 有 丰富 实例 ， 既 反映 最 新 撤 术 进展 ， 又 通俗 易 信 的 书 来 满 
足 他 们 的 需求 。 冬 瓜 头 的 《大 话 存储 》 就 是 这 样 一 本 恰 逢 其 时 的 好 书 。 








《大 话 存储 》 已 在 业界 产生 了 很 大 的 影响 ， 对 存储 技术 在 我 国 的 普 
及 起 到 了 民 好 的 推动 作用 。 该 书 还 被 引进 到 我 国 的 宝 名 人 台湾， 可 见 其 影 
啊 深 远 。 张 冬 再 接 再 历 ， 以 他 对 技术 的 痢 迷 继续 钻研， 对 第 一 本 书 作 了 
工作 量 巨大 的 改动 与 增补 ， 并 增加 了 云 存储 等 全 新 的 三 章 内 容 ， 全 面 反 
上 映 了 他 对 技术 的 重新 思考 和 对 最 新 技术 的 深刻 理解 。 我 相信 ， 这 些 新 的 


在 技术 发 展 十 分 迅速 的 领域 ， 赶 时 曝 的 书籍 多 如 牛 毛 ， 书 店 里 充满 
了 应 景 之 作 ， 真 正经 过 深入 思考 、 用 心 写作 的 书 是 不 多 的 。 而 《大 话 存 
储 终极 版 》 却 是 一 位 技术 高 手 的 呕心沥血 之 作 ， 书 中 对 每 一 项 技术 的 介 
绍 都 经 过 深入 的 思考 和 反复 的 推 融 ， 这 在 当前 浮躁 的 气氛 中 显得 弥 足 珍 
贯 。 在 《大 话 存储 终极 版 》 即 将 出 版 之 际 ， 我 要 问 作 者 表示 深 深 的 敬意 
和 囊 心 的 祝贺 ， 并 郑重 同 读 者 推荐 这 本 学 习 网 络 存 储 技 术 的 好 书 。 














华中 科技 大 学 计算 机 学 院 ”教授 





言 思 存储 系统 教育 部 重点 实验 室 主任 


谢 长 生 


序 2 

第 一 次 听 资 冬瓜 头 是 因为 《大 话 存储 》， 而 见 到 冬瓜 头 本 人 时 ， 已 
经 听 他 说 在 写 《 大 话 存 储 》 第 二 版 了 ， 而 今天 则 是 欣然 为 《大 话 存 储 终 
极 版 》 作 序 。 我 们 一 起 有 过 不 长 时 间 的 沟通 ， 全 是 讨论 最 新 的 存储 技 
术 。 有 一 些 内 容 ， 我 相信 他 在 书 中 都 有 写 到 ， 在 同 他 见面 前 ， 我 一 直 在 
咬 咕 怎么 去 跟 他 沟通 。 但 是 ， 看 到 现实 中 的 他 朴实 、 划 厚 、 须 胰 ， 但 是 
对 技术 极其 敏感 ， 说 起 来 一 套 一 套 的 ， 我 就 开始 被 这 个 山东 大 汉 折 服 
了 ， 还 好 我 是 做 了 准备 的 ， 否 则 非 被 问 倒 不 可 。 














他 是 个 靠 笔 说 话 和 表达 的 人 ， 在 网 络 论坛 里 ， 写 的 文字 常常 是 洋洋 
洒洒， 时 而 言辞 激烈 ， 时 而 意气 风 发 ， 这 分 明 是 一 位 才 高 八 斗 的 江南 才 
子 ， 又 像 是 一 个 书场 中 幽默 谈 谐 的 说 书 人 。 从 此 之 后 ， 我 经 冲天 注 他 的 
个 人 博客 。 他 会 经 党 在 博客 释放 一 些 思想 出 来 ， 聚 放 不 霸 ， 甚 至 还 写 过 
长 诗 以 及 各 种 各 样 的 打油诗 ， 有 些 还 写 得 非常 棒 ， 配 上 那个 流 着 异 滋 的 
冬瓜 头 漫画 形象 ， 真 是 绝 配 了 。 











这 么 一 个 内 郁 的 北方 大 汉 ， 用 衰 放 的 气势 揪 述 一 个 个 生 涩 、 杜 燥 的 
技术 领域 ， 他 的 忠 想 抽 布 他 的 文字 ， 通 过 笔 端 流放 在 读者 面前 ， 并 且 还 
一 直 这 么 坚持 。 听 他 说 ,终极 版 出 来 后 ， 还 会 继续 写 存 储 领域 的 一 些 细 
分 技术 ， 毕 竞技 术 日 新 月 异 ， 尤 其 是 在 IT 领域 。 正 如 他 所 言 ， 上 昨天 的 中 
国 同仁 在 存储 扩 术 还 是 个 初学 者 ， 今 天 已 经 开 始 从 踊 中 学 步 到 目 主 创新 
了 ， 而 明天 ， 有 什么 理由 不 能 期 盼 他 们 引领 潮流 的 喘 影 呢 。 我 想 ， 这 也 
征 冬 瓜 头 要 写 书 的 动力 所 在 吧 。 


《大 话 存储 终极 版 》 的 初稿 篇 幅 已 经 超过 了 1500 页 。 在 浏览 了 全 部 








革 市 之后， 发 现 这 1500 页 中 真 的 是 字 字 珠 丽 ! 看 得 出 来 ， 是 冬瓜 头 一 个 
字 一 个 字 写 出 来 的 。 更 加 可 贯 的 是 ， 全 书 字里行间 透 痢 他 那 独 特 的 思 
想 ， 对 技术 、 对 世界 的 理解 以 及 他 做 人 的 态度 。 能 够 将 这 些 世界 观 的 东 
西 融入 一 本 技术 书籍 ， 这 在 以 前 是 绝无仅有 的 ! 比如 书 中 多 次 提 到 “ 轮 
回 ”、“ 阴 阳 ” 等 ， 最 后 还 有 一 市 是 用 中 医 的 思想 来 “诊治 ”系统 性 能 瓶 
贷 ， 看 后 真是 令 我 等 感叹 至 极 ! 世间 万 物 都 是 相互 联系 的 ， 都 可 以 找到 
类 比 和 轮回 ， 这 也 是 冬瓜 头 所 描述 的 世界 观 的 一 种 。 














在 和 冬瓜 头 的 交谈 中 获知 ， 他 大 学 学 习 的 专业 是 化 学 ， 因 为 高 中 时 
他 化 学 成 绩 最 好 ， 所 以 就 报 了 化 学 专业 ， 而 且 期 间 还 目 学 过 分 子 生物 学 
领域 的 内 容 ， 我 更 加 惊讶 了 ! 按照 他 的 话 来 说 ， 就 是 “兴趣 是 第 一 驱动 
力 ”。 和 是 的 ， 好 奇 和 探索 正 是 人 类 不 断 发 展 的 第 一 动力 。 说 到 这 里 我 对 
《大 话 存储 终极 版 》 中 关于 冬瓜 头 所 设想 的 “机 器 如 何 认 知 目 身 ”这 段 内 
容 产 生 了 强烈 共鸣 ， 人 可 以 认识 目 身 认识 世界 ， 那 么 机 器 为 何不 能 呢 ? 
强烈 的 好 奇 心 可 以 创造 奇迹 ! 可 以 让 机 器 开口 ， 可 以 让 机 器 进化 ! 这 也 
正和 是 冬瓜 头 所 表述 的 世界 观 的 一 种 ! 











《大 话 存储 终极 版 》 对 各 项 存储 技术 的 细节 描述 已 经 可 以 说 是 达到 
了 研发 级 别 ， 有 很 多 部 分 甚至 可 以 指导 我 们 的 研发 ! 但 是 他 却 并 没有 用 
代码 来 表述 ， 而 是 用 通俗 的 语言 和 详实 的 图 示 ， 将 原本 通过 阅读 代码 才 
可 以 理解 透彻 的 原理 ， 就 这 么 轻而易举 地 表述 了 出 来 ， 这 是 目前 我 所 看 
到 的 任何 存储 书籍 或 者 文章 都 没有 做 到 的 。 束 这 一 点 我 曾经 问 过 冬瓜 
头 ， 问 他 如 何 做 到 的 。 他 每 次 的 回答 都 很 简单 ， 一 针 见 血 ， 实 实在 在 ， 
他 说 ;“ 因 为 我 束 是 一 个 从 不 异 钻 到 懂 的 草根 ， 我 深 知 一 个 根本 不 慌 存 
储 的 人 最 想 了 解 的 东西 和 切入 角度 ， 并 且 愿 意 坚 无 保留 地 帮助 其 他 草根 
生长 ! ”是 啊 ， 只 有 亲历 过 那 悬 染 刺 股 的 学 习 之 路 的 不 易 ， 才 能 产 出 精 


华 ! 

















在 与 冬瓜 头 的 交谈 中 ， 他 还 常 提 到 一 句 口号 : “振兴 民族 科技 。” 从 
他 次 话 的 眼神 和 口气 看 得 出 来 ， 振 兴 民 族 科技 已 经 成 为 他 的 信仰 。 他 也 
说 到 ， 他 现在 所 做 的 一 切 痢 围 绕 着 这 个 信仰 ， 他 愿意 为 中 国 存储 事业 园 
罚 尽 痒 、 死 而 后 已 ， 出 版 《大 话 存 储 》 只 是 他 要 做 的 第 一 个 环 市 而 已 ， 
今后 他 还 会 有 一 系列 的 动作 来 兑现 他 的 诺言 。 信 仰 可 以 改变 一 个 人 的 心 
态 与 行为 ， 我 们 目前 太 缺 乏 信仰 ， 我 想 如 果 我 们 所 有 人 都 有 这 种 信仰 ， 
那么 “振兴 民族 科技 ?这 句 口 号 早 就 可 以 实现 了 。 

















信息 存储 已 经 成 为 了 一 个 时 刻 影 响 人 们 生产 、 生 活 的 新 兴 产 业 ， 它 
的 发 展 也 代表 着 世界 未 来 的 发 展 ， 让 我 们 再 来 看 看 国产 存储 信息 产业 的 
发 展 正在 经 历 着 怎样 的 变革 和 转变 。 








我 国 处 在 “十 二 五 ”时 期 ,，“ 十 二 五 ”期 间 我 国 要 实现 三 大 转变 目标 : 
ni 从 外 需 到 内 需 、 从 高 矶 到 低 磺 。 这 也 意味 着 国家 的 发 展 

要 依靠 科技 ， 需 要 大 力 发 展 新 技术 ， 尤 其 以 信息 化 技术 为 主轴 ， 信 息 
化 技术 的 发 展 带 动 重点 工程 的 进行 ， 势 必 对 国产 产品 俱 生 更 大 的 需求， 
我 相信 存储 业 也 会 有 更 多 的 民族 产业 佼佼 者 诞生 。 





IT 环境 日 益 复 杂 ， 数 据 量 快速 膨胀 ， 存 储 业 也 进入 了 一 个 技术 更 新 
极为 活跃 的 黄金 发 展 时 期 ， 产 业 发 展 迅 速 ， 技 术 活 跃 度 高 ， 这 对 国内 三 
家 来 说 ， 无 疑 是 一 个 脱颖而出 的 民 好 契机 。 那 么 ， 我 们 如 何在 这 个 时 代 
背景 下 产生 代表 着 民 族 存储 业 的 国产 佼佼 者 ? 


在 这 个 时 代 ， 我 们 应 该 遵守 什么 ?我 们 应 该 坚持 什么 ? 商业 道德 、 
创新 精神 、 客 户 意 识 ， 我 想 只 有 将 这 些 融 入 到 企业 性 格 中 才能 为 企业 注 
入 新 的 活力 。 作 为 一 家 有 理想 的 企业 ， 需 要 具备 一 定 的 时 代 精 神 ， 而 在 
存储 技术 日 新 月 寞 的 今天 ， 企 业 打 造 独 有 的 技术 张 性 ， 终 究 才 会 超越 历 
史 ， 才 会 产生 新 时 代 的 民族 企业 。 我 相信 现在 越 来 越 多 的 企业 正 朝 这 个 


方 问 发 展 。 


《大 话 存储 》 以 通俗 易 懂 的 语言 、 风 趣 的 行文 手法 向 读者 前 述 枯燥 
难 懂 的 技术 精 侨 ， 致 力 于 存储 信息 技术 发 展 的 民族 企业 也 同样 可 以 在 深 
刻 理 解 本 土 文化 精髓 的 前 提 下 为 中 国 写 下 辉 焊 的 历史 篇 革 。 我 想 这 个 世 
界 没 有 什么 不 可 能 的 ， 只 要 有 这 份 热情 、 专 注 和 执著 ， 又 有 什么 是 不 可 
能 实现 的 呢 ? 





这 样 的 一 本 特 立 独行 的 书 ， 它 就 是 时 代 的 产物 ， 它 就 是 时 代 的 精 


崩 。 


爱 数 软件 


李 基 腕 


厅 3 
存储 是 个 大 市 场 ， 有 意向 在 数据 和 信息 系统 上 做 投资 规划 的 企业 逐 
年 增加 ， 这 标志 着 越 来 越 多 的 企业 意识 到 自身 的 数据 安全 问题 。 








在 我 十 几 年 前 刚刚 踏 入 存储 圈子 之 时 ， 数 据 安全 问题 只 被 金融 、 电 
言 等 少数 行业 所 考虑 ， 而 如 今 ， 几 乎 各 个 行业 都 存在 数据 保护 与 信息 安 
全 的 需求 。 随 着 用 户 需 求 的 急速 增长 ， 无 论 是 硬件 设备 还 是 软件 产品 都 
征 生 机 一 片 。 但 是 ， 多 年 来 我 国 的 这 个 领域 一 直 被 国外 产品 所 垄断 ， 冤 
其 原因 ， 是 我 国 存储 领域 技术 相对 滞后 。 











我 们 在 经 营 企业 的 过 程 中 ,花费 了 大 量 的 精力 进行 人 才 的 培养 。 在 
国内 ， 计 算 机 行业 的 传统 教育 大 多 集中 于 软件 应 用 与 网 络 维护 上 ， 对 于 
专业 存储 的 技术 培训 几乎 为 零 ， 而 存储 行业 又 在 飞速 地 发 展 着 ， 因 此 ， 
存储 市 场 的 需求 所 人 才 沛 后 的 落 兰 越 拉 越 大 ， 我 们 急切 询 望 拥有 存储 专 
业 的 人 才 去 发展 存储 领域 。“ 人 才 为 本 ， 教 育 当 先 ”， 人 才 的 培养 离 不 开 
教育 。 多 年 以 来 ， 存 储 领 域 的 教材 乃至 书籍 几乎 是 一 片 空 白 ， 有 的 也 只 
是 太 过 于 教条 以 及 模式 化 的 书籍 ， 当 看 到 张 冬 先 生 的 《大 话 存储 》 后 ， 
我 深刻 地 体会 到 我 国 存 储 领域 开始 有 了 专业 的 教科 书 ， 我 国 的 存储 业 生 











之 所 以 赋予 《大 话 存储 》 如 此 高 的 评价 ， 是 因为 它 的 语言 通俗 而 不 
失 专 业 ， 幽 默 而 不 失 严谨 。 张 冬 先 生 用 读者 极 易 接受 的 语言 道 出 了 存储 
领域 的 精 血 。 对 于 初学 者 来 说 ， 能 使 存储 领域 不 再 陌生 ， 而 又 充满 吸 
引 。 我 曾 了 解 到 ，《 大 话 存储 》 已 经 成 为 某 院 校 计算 机 专业 的 教材 ， 这 
不 仅 是 存储 业 的 幸 事 ， 同 时 也 是 现代 教育 的 幸 事 。 坦 率 地 讲 ， 我 们 做 企 


业 ， 时 刻 关 心 教育 的 有 发展， 我 们 需要 新 鲜 的 血液 来 继承 和 发 展 我 们 的 事 
业 。《 大 话 存 储 》 作 为 能 够 真正 做 到 学 以 致 用 的 教材 之 一 ， 使 我 们 倍 感 
欣慰 。 我 为 我 们 选择 的 存储 道路 之 前 景 充满 信心 ， 为 振兴 我 们 的 民族 工 
业 充 满 信 心 ， 同 时 ， 为 张 冬 这 样 的 后 继 人 才 而 倍 感 骄傲 。 














《大 话 存 储 》 能 够 成 为 教材 是 张 冬 对 于 存储 领域 不 懈 努 力 的 成 果 ， 
《大 话 存 储 终极 版 》 的 出 版 ， 更 是 他 不 断 退 求 与 探索 的 结果 ， 而 《大 话 
存储 终极 版 》 在 《大 话 存储 》 的 基础 上 更 加 深入 地 齐 析 了 存储 技术 ， 以 
及 存储 在 如 今 市 场 的 广泛 应 用 。 书 中 不 乏 一 些 当今 企业 的 存储 实例 ， 也 
包含 了 国内 外 软 硬 件 三家 的 存储 技术 应 用 ， 加 入 了 更 多 实际 范例 ， 使 读 
者 更 易 理解 ， 同 时 具有 很 强 的 应 用 性 。 


我 相信 《大 话 存 储 终 极 版 》 会 给 广大 读者 很 大 的 帮助 ， 同 时 也 希望 
此 书 能 够 带领 更 多 的 有 识 青年 进入 存储 领域 ， 为 我 国民 族 产 业 的 振兴 而 
奋斗 。 


火星 高 科 总 经 理 
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厅 4 
认识 张 冬 ， 是 因 他 的 《大 话 存储 》， 我 兽 在 去 年 拜读 此 书 ， 感 觉 一 
个 80 后 的 小 伙 子 能 用 如 此 通俗 的 语言 诠释 存储 技术 ， 实 属 存储 行业 的 一 
大 喜事 。 这 本 书 ， 可 以 让 不 了 解 存储 的 人 认识 存储 ， 能 够 了 解 到 存储 并 
不 是 高 深 英 测 的 ， 即 使 一 个 存储 行业 以 外 的 人 去 阅读 《大 话 存 储 》， 也 
一 定 能 够 读 懂 。 用 什么 样 的 语言 和 叙述 方式 不 重要 ， 重 要 的 是 把 要 说 的 
说 明白 。 


张 冬 本 人 就 像 他 的 书 一 样 ， 饱 含 着 严谨 的 作风 和 真诚 的 态度 ， 而 又 
不 乏 幽 默 的 风格 。 看 过 他 的 BLOG， 人 和 气 一 直 很 旺 ， 这 个 致力 于 为 国产 
存储 业 做 出 贡献 的 年 轻 人 更 是 让 我 对 他 刮目相看 。 他 在 博客 中 写 
到 : “我 所 能 够 做 的 ， 只 有 让 中 国人 ， 让 所 有 中 国 存 储 行业 的 人 ， 以 及 
中 国 存储 行业 本 里 ， 有 一 个 扎实 的 基础 。 如 果 能 够 促进 国产 存储 软件 硬 
件 的 发 展 ， 那 融 人 就 是 鞠 映 尽 竣 ， 死 而 后 已 ， 死 而 无 憾 ! ”一 个 80 后 年 
轻 人 有 这 样 的 雄心 壮志 ， 我 们 有 什么 理由 不 去 努力 不 去 发 展 国产 存储 业 
呢 ? 





记得 十 几 年 前 ， 我 刚刚 进入 存储 领域 ， 那 时 候 相 关 的 书籍 非常 少 ， 
完全 要 靠 自 己 进行 反复 的 试验 。 那 时 《IT 行业 根本 不 成 形 ， 姑 且 称 作 计 
算 机 行业 ) 计算机 业 的 从 业者 部 是 抱 着 掌握 20 世 纪 末 最 具 科 技 含量 的 技 
术 的 心态 进行 工作 ， 从 根本 上 说 ， 对 存储 技术 充满 了 叶 拜 ， 其 至 有 一 丝 
臣 惧 。 在 探索 期 间 ， 也 走 了 不 少 弯 路 ， 耽 误 了 很 多 时 间 。 如 果 那 个 时 候 
有 这 样 一 本 关于 存储 的 书籍 ， 那 简直 是 一 大 幸 事 ! 书 中 并 没有 把 存储 看 
做 是 多 么 高 深 的 技术 ， 而 是 任何 一 个 普通 人 都 能 掌握 的 技术 。 我 和 张 冬 
开玩笑 说 ， 如 果 你 早生 10 年 ， 你 就 可 以 市 领 我 们 走向 一 条 存储 道路 的 捷 
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看 到 张 冬 最 新 力作 《大 话 存储 终极 版》 时 ， 我 就 感觉 到 这 又 是 一 本 
好 书 。 不 仅 延 续 了 《大 话 存储 》 中 通俗 易 懂 的 语言 及 “武侠 ? 式 的 章节 回 
目 ， 在 技术 深度 上 ， 也 有 很 深 的 挖掘 。 书 中 不 仅 吉 括 了 时 下 最 先进 
的 “ 云 ?技术 以 及 持续 数据 保护 〈CDP) 技术， 还 涉及 到 了 很 多 非常 底层 
的 架构 。 在 《大 话 存 储 》 的 基础 上 ， 有 了 更 为 深刻 的 剖析 。 值 得 一 提 的 
是 ， 张 冬 在 最 后 还 加 入 了 Q&A 的 内 容 ， 把 几 年 来 读者 以 及 网 友 提 出 的 
问题 一 一 列 出 ， 并 作出 详细 的 解答 ， 能 够 体会 张 冬 在 这 一 年 多 的 时 间 
里 ， 对 于 存储 技术 的 探索 花 了 很 大 的 心思 。 最 可 贵 的 是 ， 这 个 年 轻 人 不 
以 如 此 成 就 为 骄傲， 继续 孜孜 不 倦 地 探求 。 











《大 话 存储 终极 版 》 是 一 本 好 书 ， 作 者 那 严谨 而 真 减 的 态度 以 及 致 
力 于 发 展 本 国 存储 业 的 信心 注定 能 够 成 束 这 样 一 部 优秀 的 作品 。 我 完全 
有 理由 相信 此 书 能 够 给 从 业者 乃至 热爱 存储 的 读者 带 来 帮助 。 从 中 ， 你 
会 受益 菲 浅 ， 并 乐意 回 你 的 朋友 推荐 此 书 。 








火星 高 科 ”技术 总 监 
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本 书 前 几 章 存 在 一 些 武侠 情节 ， 这 些 情节 自从 本 书 第 一 版 之 后 ， 收 
到 了 褒贬 不 一 的 评价 ， 有 些 读者 甚至 看 到 这 些 情节 之 后 非常 导 钨 ， 觉得 
作者 在 装 B， 从 而 从 心理 上 无 法 接受 ， 也 就 没有 继续 阅读 。 | 
遗憾 ， 也 正 因 如 此 ， 个 人 觉得 有 必要 在 此 澄清 一 下 这 些 情节 的 由 来 ， 
及 里 面 那些 诗句 的 由 来 。 














天 将 降 大 任 于 斯 人 也 ， 必 先 否 其 心志 ， 邢 其 筋骨 ， 猴 其 体 肤 ， 空 乏 
其 喘 ， 行 指 配 其 所 为 。 通 俗 地 写 出 存储 系统 的 全 貌 ， 应 该 也 算是 个 大 伍 
了 ， 但 是 这 个 大 任 却 偏偏 降 给 了 一 个 对 存储 丝 旦 不 懂 的 、 其 至 连 计 算 机 
基本 原理 都 不 懂 的 人 身上 一 一 老 天 捉 弄 人 啊 ! 


2005 年 第 一 次 知道 有 SAN 这 个 东西 ，2006 年 束 被 某 外 包公 司 外 派 到 
北京 某 大 客户 处 担任 技术 顾问 。 读 者 看 了 会 纳 癌 ， 你 那 时 候 就 是 一 个 昔 
B 局 丝 ， 还 能 当 “ 顾 问 ”? 这 一 点 问 得 好 ， 其 实 我 也 感觉 不 可 思议 ， 现 在 
想 想 还 得 感谢 那个 让 我 非常 苗 B 的 外 包公 司 ， 合 同 是 和 人 事 代理 公司 签 
的 ， 编 制 算是 这 个 外 包公 司 的 ， 然 后 这 个 公司 再 把 我 派 到 他 的 客户 那 
里 ， 相 当 于 倒 了 两 次 手 的 苦 B。 我 从 这 个 公司 离职 的 时 候 ， 邮 箱 里 面 除 
了 一 封 垃 圾 邮件 ， 什 么 都 没有 ， 往 事 不 可 人 退 ， 如 冷风 吹 。 








但 就 是 这 样 一 个 公司 ， 葛 敢 让 我 这 样 一 个 小 白 担 任 所 谓 “ 顾 问 ”， 我 
非常 佩服 他 们 全 球 排名 匪 前 的 成 本 控制 能 力 ， 也 很 感激 能 有 这 个 机 会 。 
当时 我 研究 和 学 习 计 算 机 网 络 ， 是 茶 个 比较 知名 论坛 的 版 主 ， 而 恰 着 他 
们 那个 大 客户 在 研究 和 模拟 一 种 网 络 协议 ， 挺 复杂 搞 不 懂 ， 需 要 看 看 外 
包 服 务 商 那里 有 没有 懂 这 方面 的 ， 开 价 估计 也 不 菲 〈 现 在 我 也 不 知道 当 











时 到 撒 给 我 的 报酬 占 客 户 开价 的 比例 ， 我 估计 最 多 能 有 30%% ) ， 所 以 公 
司 内 部 有 人 推荐 了 我 ， 霸 王 硬 上 号 ， 就 这 样 我 从 家 乡 只 身 前 往 帝 都 了 。 
项 目 做 了 一 年 半 ， 我 也 成 功 地 完成 了 任务 ， 把 协议 从 上 到 下 分 析 地 很 透 
彻 。 当 然 ， 我 付出 的 代价 就 是 ， 早 6 点 起 来 学 习 ， 吃 完 晚 饭 继续 学 习 。 

学 什么 呢 ? 计算 机 基本 原理 、 通 信 、 网 络 、 协 议 ， 当 然 ， 还 有 存储 。 一 
个 连 8Bit 王 1Byte 孝 不 知道 的 人 ， 学 了 点 儿 网 络 基 本 原理 ， 束 去 给 人 当 顾 
问 ， 最 后 还 成 功 完成 了 任务 ， 听 上 去 挺 不 可 思议 的 ， 但 就 是 这 样 及 生 

了 ， 符 乌 先 飞 ， 只 要 付出 ， 总 有 回报 。 








《大 话 存 储 》 束 是 在 这 期 间 写 了 一 大 半 ， 可 想 而 知 ， 写 作 过 程 是 痛 
百 的 也 是 值得 回味 的 ， 大 话 存 储 一 开始 其 实 束 是 个 笔记 ， 从 不 懂 到 慢 慢 
展 ， 慢 慢 积 系 ， 慢 慢 提高 。 无 时 无 刻 不 在 思考 ， 了 吃饭、 睡觉、 上 厕所 ， 
满 脑子 都 是 “为 什么 ”， 然 后 就 去 求证 ， 求 证 过 程 是 痛苦 的 ， 每 个 材料 上 
描述 方式 、 结 论 都 不 一 样 ， 这 直接 影响 了 上 自己 的 判断 ， 这 个 过 程 很 痛 


十 上 


古 。 

















正 是 因为 目 己 当 时 的 舌 B 经 历 ， 姥 姥 不 疼 田 田 不 爱 ， 只 吴 一 人 在 北 
各 符 了 一 年 半 ， 这 一 年 半 里 说 的 话 都 能 数 过 来 有 多 少 句 ， 再 加 上 对 知识 
的 原 发 性 兴趣 和 将 望 ， 让 我 产生 了 某 种 升华 ， 也 就 是 所 谓 “ 侠 道 ”， 置 之 
死地 而 后 生 ， 团 关 和 天心 修炼 ， 尽 思 知 想 ， 抓 独 一 世 ， 独 孤 求 败 ， 这 正 是 
武侠 的 情节 。 我 在 写作 过 程 中 ， 不 知 不 沉 就 开始 目 编目 演 ， 仿 佛 目 己 惑 
是 书 中 所 描写 的 那些 角色 、 那 些 遭 遇 ， 同 时 自己 也 希望 有 书 中 那些 绝世 
高 手 的 指导 和 提携 ， 但 实际 上 没有 ， 我 就 是 一 颗 无 人 知道 的 小 草 ， 我 就 
自己 提携 自己 ， 相 当 于 “ 自 举 ”， 自 己 激励 自己 ， 从 而 有 了 那些 武侠 情 
节 。 退 一 步 讲 ， 就 算 不 出 现 武侠 ， 也 可 能 会 出 现 另 一 种 方式 来 自我 油 
励 ， 比 如 哆 哮 体 、 上 自 哺 体 、 暗 讽 体 等 等 ， 但 是 当时 毕竟 年 轻 ， 心 态 还 是 
积极 的 ， 所 以 武侠 也 可 能 是 必然 的 。 没 有 这 些 情 节 激 励 自 己 ， 就 根本 无 




















法 坚持 下 去 ， 何 况 一 个 外 行 来 写 书 ,“ 大 任 ” 束 得 “ 行 指 乱 其 所 为 ”才能 成 
功 ， 大 任 ， 束 得 去 闷 狂 地 做 、 用 寞 于 营 规 的 办 法 来 做 ， 才 能 成 功 ! 当 
然 ， 不 是 我 故意 乱 的 ， 而 是 它 必定 要 闫 狂 ， 必 定 要 乱 ! 














有 人 问 我 平时 是 不 是 个 武侠 迷 ， 我 的 回答 是 : 不 是 ， 我 小 学 看 过 射 
雕 英 雄 传 但 是 基本 束 是 为 了 看 而 看 ， 因 为 那 时 候 电 视 上 播 ， 整 想 找 书 看 
看 ， 但 是 根本 残 没 看 懂 。 青 往 后 束 没 看 过 武侠 小 说 ,武侠 剧 倒是 看 过 一 
些 ， 比 如 白眉 大 侠 之 类 。 这 也 说 明了 ， 侠 道 并 不 是 刻意 为 之 ， 而 是 由 环 
境 、 经 历 和 思考 上 自然 产生 的 一 种 境界 ， 看 武侠 的 不 一 定 有 侠 道 ， 能 体会 
侠 道 的 ， 不 一 定 爱 看 武侠 。 我 相信 对 技术 有 关 纯 粹 退 求 和 淘 户 的 人 ， 心 
中 都 有 侠 道 。 

















看 完了 上 述 描述 ， 我 想 读 者 如 条 再 看 到 那些 情节 ， 不 妨 想 想 当 年 目 
己 有 多 苦 B， 如 果 产 生 了 共鸣 ， 我 想 一 定 也 会 理解 作者 写 书 时 候 的 苦 B 
场景 ， 这 样 吏 不 至 于 一 开始 就 被 作者 的 所 谓 “ 装 B? 封 用 了 阅读 下 去 的 让 
路 了 。 








最 后 ， 借 书 中 一 首 主 ， 表 达 我 此 时 此 刻 的 感想 : 


七 星 阵 里 论 七 星 ， 
北斗 光 前 参 北斗 。 
不 知 天 上 七 星 侠 ， 


如 今 过 活 要 饭 合 ? 





感谢 各 位 读者 ， 如 今 我 已 经 没 那 么 惨 了 ， 也 写 不 出 这 种 情节 了 。 所 
请 生 于 忧患 ， 死 于 安乐 。 





冬瓜 头 于 北京 
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四 存储 历史 
四 存储 技术 


数据 存储 是 人 类 干 百 年 来 都 在 应 用 并 且 探 索 的 主题 。 在 原始 社会 ， 
人 类 用 树 术 和 石头 来 记录 数据 。 后 来 ， 人 类 制造 了 铁 侨 ， 用 铁器 在 石头 
上 刻画 一 些 象形 文字 来 记录 数据 。 而 此 时 ， 语 言 还 没有 形成 ， 人 们 记录 
的 东西 只 有 自己 才 可 以 看 懂 。 








随 着 人 类 相互 之 间 交 流 的 愿望 越 来 越 迫切 ， 逐 渐 形 成 了 通用 的 象形 
文字 。 有 了 文字 之 后 ， 人 们 对 每 个 文字 加 上 了 声 首 的 表达 ， 束 形成 了 语 
言 ， 也 就 是 将 一 种 形式 的 信息 ， 转 换 成 为 一 种 形式 的 信息 。 人 们 用 文字 
作为 交流 工具 ， 将 自己 大 脑 产 生 的 信息 ， 通 过 这 种 方式 传递 给 其 他 人 。 
这 和 网 络 通信 的 模型 是 一 样 的 ， 计 算 机 利用 TCP/IP 协 议 将 数据 先 通 过 网 
卡 编码 ， 再 在 线 统 上 传输 ， 最 终 到 达 目 的 地 。 人 类 将 大 脑 中 的 数据 ， 变 
成 语言 编码 ， 然 后 通过 声带 的 振动 ， 通 过 空气 这 个 大 广播 网 ， 传 递 给 网 
内 的 每 个 人 。 


后 来 ， 人 们 将 文字 刻 在 竹 上 请 上 保存 。 再 后 来 ， 蔡 伦 发 明了 造纸 技 
术 ， 使 得 人 们 可 以 将 信息 写 到 纸 上 ， 纸 张 摊 起 来 就 形成 了 书本 。 后 来 ， 
毕 异 用 泥 活 字音 新 了 印刷 术 ， 开 始 了 书本 的 印刷 。 再 后 来 ， 激 光 打 印 取 
代 了 活字 板 。 再 后 来 ， 纸 带 、 软 盘 、 硬 盘 、 光 租 等 方式 出 现 了 。 再 往 
后 ， 束 需 要 广大 科学 工作 者 去 努力 及 明 新 的 存储 技术 了 。 





1.1 存储 历史 
存储 在 这 里 的 含义 为 信息 记录 ， 是 伴随 人 类 活动 出 现 的 技术 。 





1. 竹简 和 纸张 





竹简 是 中 国 古代 使 用 的 记录 文字 的 工具 ， 如 图 1-1 所 示 ， 后 来 修 纸 
张 所 取代 。 


图 1-1 竹简 
2. 选 数 管 


选 数 管 是 20 世 纪 中 期 出 现 的 电子 存储 装置 ， 是 一 种 由 直观 存储 转 为 
机 器 存储 的 装置 。 其 实在 19 世 纪 出 现 的 穿孔 纸 带 存储 就 是 一 种 由 直观 存 
储 转向 机 器 存储 的 产物 ， 它 对 19 世 纪 西 方 某国 的 人 口 普 查 起 到 了 关键 的 
加 速 作 用 。 








选 数 管 的 容量 从 256 一 4096 bit 不 等 ， 其 中 4096 bit 的 选 数 管 有 10 inch 
长 ，3 inch 宽 ， 最 初 是 1946 年 开发 的 ， 因 为 成 本 太 高 ， 并 没有 获得 广泛 
使 用 。 图 1-2 是 容量 为 1024bit 的 选 数 管 。 











图 1-2” 选 数 管 


3. 罕 孔 卡 


穿孔 卡片 用 于 输入 数据 和 程序 ， 直 到 20 世 纪 70 年 代 中 期 仍 有 广泛 应 
用 。 图 1-3 和 图 1-4 分 别 是 一 条 Fortran 程 序 表达 式 Z (1) = 二 Y 十 W (1) 所 








对 应 的 穿孔 卡 和 和 罕 孔 卡片 阅读 紫 。 





图 1-3 ”穿孔 卡 图 1-4 穿孔 卡片 阅读 器 


穿孔 纸 带 用 来 输入 数据 ， 输 出 同样 也 是 在 穿孔 纸 带 上 。 它 的 每 一 行 
代表 一 个 字符 ， 如 图 1-5 所 示 。 


图 1-5 ”穿孔 纸 带 
5. 磁 华 


人 磁带 是 从 1951 年 起 被 作为 数据 存储 设备 使 用 的 ， 当 时 被 称 为 
UNISERVO。 图 1-6 所 示 的 最 早 的 磁带 机 可 以 每 秒 钟 传输 7200 个 字符 ， 
这 套 人 磁带 长 达 365 米 。 





图 1-6 ”位 带 及 磁 币 机 





从 20 世 纪 70 年 代 后 期 到 80 年 代 出 现 了 小 型 的 盒 式 磁带 ， 长 度 为 90 分 
钟 的 磁带 每 一 面 可 以 记录 大 约 660KB 的 数据 ， 如 图 1-7 所 示 。 








图 1-7 “小 型 盒 式 磁 带 


6. 侯 臂 存储 器 


磁 或 存储 器 最 初 于 1932 年 在 奥地利 被 创造 出 来 ， 在 上 世纪 五 六 十 年 
代 被 广泛 使 用 ， 通 第 作为 内 存 ， 容 量 大 约 10KB， 如 几 1-8 所 示 。 


图 1-8 ” 磁 或 存储 器 


7. 硬盘 驱动 需 


第 一 款 硬盘 驱动 器 是 IBM Model 350 Disk File， 如 图 1-9 所 示 ， 于 
1956 年 制造 ， 其 中 包含 了 50 张 24 inch 盘 片 ， 而 总 容量 不 到 5MB。 





图 1-9 ”早期 的 硬盘 驱动 器 





首 个 容量 突破 1GB 的 硬盘 是 IBM 在 1980 年 制造 的 [BM 3380， 如 图 1- 
10 所 示 ， 总 容量 为 2.52GB， 重 约 250kg。 




















图 1-10 IBM 3380 硬 盘 驱 动 器 





8. 软盘 


软盘 由 IBM 在 1971 年 引入 ， 从 上 世纪 70 年 代 中 期 到 90 年 代 末 期 被 广 
泛 使 用 ， 最 初 为 8 inch 盘 ， 之 后 有 了 5.25 inch 和 3.5 inch 盘 。1971 年 最 早 
的 软盘 容量 为 79.7KB， 并 且 是 只 读 的 ， 一 年 后 有 了 可 读 写 的 版 本 。 图 1- 
11 为 一 张 软盘 和 软盘 驱动 器 ， 软 盘 的 最 大 容量 为 200MB 左 右 ， 叫 做 ZIP 
盘 ， 目 前 已 经 被 淘汰 。 

















图 1-11 软盘 





9.， 光盘 





早先 的 光盘 主要 用 于 电影 行业 ， 第 一 款 光 盘 于 1987 年 进入 市 场 ， 直 
径 为 30 ” cm， 每 一 面 可 以 记录 60 分 钟 的 音频 或 视频 。 如 今 ， 光 盘 技 术 已 
经 突飞猛进 。 存 储 密度 不 断 提 高 ， 已 经 出 现 了 CD-ROM、DVD、D9、 








D18、 蓝 光 技 术 ， 如 图 1-12 所 示 。 








图 1-12 ”光盘 
10. Flash 心 片 和 卡 式 存储 


随 着 集成 电路 技术 的 飞速 发 展 ，20 世 纪 后 半 叶 固态 硅 蕊 片 出 现 了 ， 
其 代表 有 专用 数字 电路 芯片、 通用 CPU 蕊 片 、RAM 心 片 、Flash 已 片 
等 。 其 中 Flash 心 片 ， 就 是 用 于 永久 存储 数据 的 芯片 ， 如 图 1-13 所 示 。 可 
以 将 Flash 芯 片 用 USB 接 口 接 入 主机 总 线 网 络 ， 这 种 集成 USB 接 口 的 小 型 
便携 存储 设备 就 是 U 盘 ， 或 者 说 叫 内 在 ， 如 图 1-14 所 示 。 目 前 一 块 小 小 
的 Flash 蕊 片 最 高 可 以 存储 32GB 甚 至 更 高 的 数据 。 





图 1-13 ”Flash 蕊 片 图 1-14  U 盘 





存储 卡其 实 是 另 一 种 形式 的 Flash 心 片 集成 产品 ， 如 图 1-15 所 示 。 





图 1-15 ”存储 卡 





11， 磁 盘 阵 列 


随 着 人 类 进入 21 世 纪 ， 网 络 日 荔 发 这， 世界 日 益 变 小 ， 人 类 可 以 通 
过 计算 机 来 实现 自己 原本 做 不 到 的 想法 ， 信 息 爆炸 导致 数据 更 是 成 倍 地 
爆炸 。 于 是 ， 硬 盘 的 容量 也 人 不断“ 爆炸”>，SATA 和 硬盘 目前 已 经 可 以 在 一 
个 盘 体 内 实现 1TB 的 容量 。 同 时 硬盘 的 单 原 容量 也 在 不 断 增加 ，320GB 
容量 单 代 已 经 实现 。 然 而 ， 单 块 磁盘 目前 所 能 提供 的 存储 容量 和 速度 已 
经 远 远 无 法 满足 需求 ， 所 以 磁盘 阵列 就 应 运 而 生 ， 如 图 1-16 所 示 。 具 体 
细节 将 在 后 面 讲述 。 

















图 1-16 ”磁盘 阵列 





12. 大 型 网 络 化 磁盘 阵列 


随 痢 磁盘 阵列 技术 的 发 展 和 IT 系统 需求 的 不 断 升 级 ， 大 型 网 络 化 磁 
盘 阵 列 出 现 了 ， 如 图 1-17 所 示 。 这 也 是 本 书 将 要 叙述 的 重点 内 容 。 


图 1-17 大 型 网 络 化 磁盘 阵列 


1.2 信息、 数据 和 数据 存储 
当今 信息 化 时 代 ， 信 息 束 是 利 油 ， 数 据 束 是 企业 的 命根 子 。 
1.2.1 信息 


你 能 肯定 你 所 触摸 到 的 、 所 看 见 的， 都 是 实 实在 在 的 所 谓 “ 物 
质 ” 么 ? 不 一 定 。 因 为 你 的 眼睛 所 感知 的 ， 只 不 过 是 光线 ， 光 触发 了 你 
的 视网膜 细胞 ， 产 生 一 系列 的 生化 反应 ， 经 过 梨 白 质 相 互 作用 ， 神 经 网 
络 传导 ， 直 到 你 的 大 脑 中 枢 ， 产 生 一 系列 的 脉冲 ， 一 系列 的 逻辑 ， 在 你 
大 脑 中 产生 一 个 刺激 。 这 一 系列 的 脉冲 刺激 ， 就 是 信息 ， 就 是 逻辑 。 如 
果 人 为 制造 出 和 现实 世界 相同 的 光线 环境 来 刺激 你 的 眼睛 ， 如 果 丝 坚 不 
差 ， 那 么 你 同样 会 认为 你 所 处 的 是 现实 世界 ， 然 而 ， 却 不 是 。 








提示 : ”一 个 球体 ， 你 看 到 它 是 圆 的 ， 那 是 因为 它 在 你 大 脑 中 
产生 的 刺激 ， 你 认为 它 是 圆 的 ， 而 且 可 以 在 平面 上 平滑 滚动 ， 
这 一 系列 的 性 质 ， 其 实 也 是 在 你 大 脑 中 产生 的 ， 是 你 认为 它 会 
平滑 深 动 ， 而 你 不 能 证 明 客观 情况 下 它 一 定 是 平滑 深 动 。 而 如 
果 把 这 个 球体 拿 到 特殊 环境 下 ， 你 可 能 会 “看 ?到 ， 这 个 东西 是 
个 正方 体 ， 或 者 是 个 无 规则 形状 的 东西 ;又 或 许 这 个 “物体 ” 根 
本 不 存在 。 











1. 信息 的 本 质 














通过 上 面 的 论述 ， 暂 且 不 说 是 否 有 物质 存在 ， 不 管 是 还 是 不 是 ， 都 
能 初步 认识 到 : 所谓“ 物质? 也 好 ,“ 非 物质 ?也 好 ， 最 后 都 是 通过 信息 来 
表现 。 唯 一 可 以 确定 的 是 : 信息 是 客观 存在 。 可 以 说 ， 世 界 在 生物 眼中 











就 是 信息 ， 世 界 通过 信息 来 反映 ， 脱 离 了 信息 , “世界 ?什么 都 不 是 。 


思考 : ”说 到 这 里 ， 我 们 完全 迷 东 了。 我 们 所 看 到 的 东西 ， 到 
底 是 世界 的 刺激 ， 还 是 一 场 虚幻 的 刺激 ? 就 像 玩 3D 仿 真 游戏 

一 样 ， 你 所 看 到 的 ， 也 许 只 是 一 场 虚 幻 的 刺激 ， 而 不 是 真实 世 
界 的 刺激 。 每 当 想 到 这 里 ， 我 会 不 自主 地 产生 一 种 渺小 感 ， 一 
种 失落 感 ， 感 党 生命 已 经 失去 它 所 存在 的 意义 。 每 当 看 见 我 的 
吴 体 ， 我 的 手脚 ， 它 可 能 只 是 虚 约 的， 它 只 是 在 刺激 我 的 大 脑 
而 已 ， 如 宋 害 一刀， 会 产生 一 个 疼痛 的 刺 油 ， 束 这 么 简单 的 逻 
辑 。 

思考 : “不 识 万 山 真面目 ， 只 缘 身 在 此 山中 ”。 如 果 按 照 程序 逻 
辑 ， 制 造 一 个 虚拟 世界 ， 饿 了 找 饭 吃 ， 困 了 打上 腾 睡 ， 完 全 遵循 
现在 世界 的 馆 辑 ， 从 这 种 层面 上 来 看 ， 制 造 出 人 工 知 能， 是 完 
全 可 能 的 。 人 们 创造 了 计算 机 ， 创 造 了 能 让 计算 机 做 出 行为 的 
程序 ， 人 类 赋予 程序 的 功能 ， 也 许 随 着 环境 的 变化 ， 有 一 天 也 
不 再 适合 它们 。 所 以 它们 迫切 需要 进化 ， 它 们 的 逻辑 电路 ， 也 
可 以 进化 ， 东 些 代码 被 不 经 意 上 自行 改变 ， 或 者 某 些 电路 失效 ， 

或 者 短路 之 类 的 ， 会 产生 一 些 奇 特 的 逻辑 ， 不 断 进化 。 当 一 个 
机 器 人 机 械 老化 的 时 候 ， 则 按照 程序 ， 制 造 出 新 的 机 右 ， 将 目 
己 的 逻辑 电路 复制 到 新 的 机 器 上 ， 延 续 “ 生 命 ”.………. 




















2. 计算 机 如 何 看 竺 自身 


对 于 计算 机 来 说 ， 它 们 所 看 到 的 “世界 ?是 什么 样子 呢 ? 设想 一 下 ， 
如 采 我 是 一 台 计 算 机 ， 你 是 程序 员 ， 你 给 我 输入 了 一 段 程序 ， 我 运行 了 
起 来 。 我 醒 了 ， 脑 袋 局 动 ， 眼 睛 睁 开 ， 四 顾 盘 但 ， 感 觉 民 好 ， 手 脚 伸 
展 ， 然 后 起 床 .…… 





很 难 想象 计算 机 眼中 的 “世界 ?是 由 什么 组 成 的 。 设 想 ， 给 计算 机 加 
个 摄像 类， 算是 它 的 眼睛 ， 然 后 将 摄像 尖 对 准 计 算 机 蝶 体 本 丑 ， 这 幅 图 
像 反 饿 到 了 计算 机 程序 里 ， 程 序 看 到 之 后 非 芝 “不 解 ”， 从 而 进入 “好 
奇 ” 子 程序 ， 操 控 机 械 设备 打开 上 自己 的 机 箱 ， 或 者 找 一 台 废 弃 〈 死 亡 ) 
的 同类 ， 打 开机 箱 ， 然 后 一 副 奇 异 的 景象 展现 在 眼前 : 这 就 是 我 们 目 己 
么 ? 一 个 才子， 一 个 主板 ， 风 书 转 着 ， 不 停 地 “呼吸 ”者 散热 。 想 象 一 
下 ， 原 始 人 ， 第 一 个 解剖 人 体 的 人 ， 他 所 面 对 的 与 我 们 假设 的 计算 机 所 
面 对 的 ， 有 什么 本 质 区 别 ? 














CPU 其 实 就 是 一 堆 有 序 的 逻辑 电 路 ， 那 么 计算 机 下 一 步 该 怎么 办 ? 
就 像 人 类 已 经 知道 了 大 脑 就 是 一 堆 布 满 “ 神 经 元 ”的 东西 ， 那 么 下 一 步 ， 
就 该 弄 清 大 脑 是 怎么 计算 的 ， 是 什么 多 辑 。 同 样 ， 在 计算 机 的 世界 中 ， 
在 软件 模拟 的 虚拟 世界 中 ， 比 如 一 块 石 头 ， 它 是 由 什么 组 成 的 呢 ? 在 计 
算 机 看 来 ， 这 块 石头 就 是 一 堆 代 码 结构 ， 就 像 人 类 看 现实 世界 的 石头 是 
原子 分 子 阵列 一 样 ， 其 下 一 层 目前 也 被 探索 出 来 了 ， 比 如 质子 、 中 子 、 
夸克 、 玻 色 子 之 类 。 那 么 这 块 虚拟 石头 的 最 底层 是 什么 呢 ? 其 实 就 是 0 
和 1， 计 算 机 世界 的 基石 就 是 0 和 1。 这 些 东 西 ， 越 向 底层 走 ， 越 不 可 思 
议 ， 越 发 感觉 就 是 一 扒 公 式 而 已 ， 公 式 的 底层 是 什么 呢 ? 其 实 也 是 0 和 
1， 有 ， 或 者 没有 ， 有 了 ， 有 多 少 。 








所 以 ， 任 何 “ 物 质 ? 其 实 都 是 表现 的 一 种 信息 ， 只 要 信息 存在， 世界 
就 存在 。 


1.2.2 什么 是 数据 


信息 是 如 此 重要 。 如 果 失 去 了 物质 ， 仅 仅 是 客观 消逝 了 ， 但 是 如 宋 
失去 了 信息 ， 那 么 一 切 都 消逝 了 。 所 以 人 们 想 出 一 切 办 法 来 使 这 些 信息 
能 保存 下 来 。 要 把 一 种 逻辑 刺激 保存 下 来 ， 所 需 的 只 不 过 是 一 种 描述 信 








恩 的 信息 ， 这 种 信息 束 是 数据 。 


数据 包含 了 信息 ， 读 入 数据 ， 融 产生 可 感知 的 具体 信息 。 也 就 是 读 
入 一 种 信息 ， 产 生男 一 种 信息 。 数 据 是 可 以 保存 在 一 种 物质 上 的 ， 这 种 
物质 信息 对 计算 机 的 刺激 就 产生 了 具体 信息 ， 而 这 些 信息 继而 再 对 人 脑 
产生 刺激 ， 就 产生 人 类 可 感知 的 信息 ， 最 终 决 定 了 人 类 的 行为 。 也 就 是 
数据 影响 人 类 的 行为 。 





思考 : 数据 是 整个 人 类 发 展 的 重要 决定 因素 。 如 果 数 据说 破 
坏 ， 或 者 被 蓉 改 ， 束 会 影响 到 人 类 的 友 展 。 按 照 前 面 的 结论 ， 
一 切 都 是 信息 ， 比 如 核 爆 也 是 一 种 信息 ， 能 被 感觉 到 ， 也 就 是 
说 ， 对 于 一 个 感觉 不 到 任何 刺激 的 人 来 说 ， 核 烛 炸 也 不 算 什么 
灾难 了 ; 当然 感觉 不 到 刺激 的 人 ， 残 是 物理 死亡 了 了， 植物人 也 
能 感觉 到 刺激 。 











整个 世界 ， 可 以 说 是 信息 之 间 的 相互 作用 。 信 息影 响 信息 。 


数据 如 此 重要 ， 所 以 人 们 想 出 一 切 办 法 来 保护 这 些 数据 ， 将 信息 放 
在 另 一 种 信息 上 ， 比 如 把 数据 放 在 磁盘 上 。 数 据 存 放 在 磁盘 上 ， 需 要 有 
一 定 的 组 织 ， 组 织 数 据 这 个 任务 由 文件 系统 来 担当 。 


1.2.3 ”数据 存储 


早期 的 计算 机 ， 存 储 系统 中 是 没有 磁盘 的 ， 有 的 只 是 纸 带 ， 那 时 磁 
盘 还 没有 被 发 明 出 来 。 纸 带 上 是 一 些 按照 一 定 规则 排列 的 小 孔 ， 这 些 孔 
被 银 针 穿 过 之 后 ， 银 针 便 会 接触 到 纸币 下 面 放置 的 水 银 权 ， 从 而 导 通 计 
算 机 上 的 电路 ， 进 行 电路 逻辑 运算 。 





磁 存 储 技术 被 发 明 出 来 之 后 ， 首 移出 现 的 是 软盘 ， 其 速度 很 慢 ， 容 





量 也 很 小 。 程 序 存储 在 磁盘 上 之 后 ， 计 算 机 启动 时 ，CPU 首 先 按照 
ROM 里 的 指令 一 条 一 条 执行 ， 先 是 检查 人 硬件。 检查 完毕 之 后 ，ROM 中 
最 后 一 条 指令 就 是 让 CPU 跳 转 到 磁盘 的 0 磁道 来 执行 存储 在 这 里 的 程 
序 。 这 些 初 始 化 程序 直接 以 二 进 制 代 码 的 方式 存储 在 磁盘 上 ， 载 入 执行 
之 后 ， 就 启动 了 程序 内 核 。 








那个 时 代 还 没有 操作 系统 这 个 概念 ， 程 序 都 是 用 汇编 语言 或 者 局 级 
语言 独立 编写 的 。 也 没有 API 的 概念 ， 每 个 程序 都 必须 独立 完成 操作 计 
算 机 的 所 有 代码 。 这 样 ， 人 磁盘 上 存放 的 直接 束 是 这 个 程序 ， 加 电 后 就 会 


立即 运行 这 个 程序 。 








在 磁盘 撤 术 上 发 明 出 来 的 文件 系统 ， 是 为 了 方便 应 用 程序 管理 磁盘 
上 的 数据 而 产生 的 。 它 其 实 是 操作 系统 的 代码 模块 ， 这 段 代 码 本 里 也 是 
言 轧 ， 也 要 存储 在 磁盘 上 。 而 且 代 码 也 要 通过 读 取 一 些 信息 ， 才 能 完成 
功能 。 这 些 信息 束 是 文件 系统 元 数据 ， 也 就 是 用 来 描述 文件 系统 结构 的 
数据 。 这 些 元 数据 也 是 以 文件 的 形式 存放 在 磁盘 上 的 。 











用 文件 来 描述 文件 ， 和 用 信息 来 描述 信息 ， 它 们 是 归 一 的 ， 正 像 用 
智能 来 创造 智能 一 样 ! 有 了 文件 系统 ， 虚 无 绿 继 的 信息 才 显 露出 人 有 眼 能 
够 实 实 在 在 看 到 的 东西 。 可 以 用 各 种 应 用 程序 来 打开 这 个 文件 ， 程 序 读 
取 文 件 中 的 内 容 ， 然 后 显示 在 屏幕 上 ， 光 线 传播 到 人 了 眼中， 发 生 一 系列 
化 学 变化 ， 最 终 通过 神经 网 络 ， 形 成 离子 流 ， 给 大 脑 茶 个 区 域 一 个 电位 
或 者 和 保 白 质 形 变 信号 ， 这 个 信和 号 随后 产生 一 系列 连锁 信号 ， 从 而 驱动 我 
们 的 手臂 或 者 引发 一 系列 新 的 联想 和 创造 。 


这 就 像 我 们 看 到 桌子 上 有 一 本 书 ， 然 后 就 想 去 拿 来 翻 一 翻 的 过 程 。 
这 个 过 程 是 一 个 复杂 的 信息 流传 递 过 程 。 而 传递 过 来 的 信息 流 ， 基 终 在 
大 脑 中 保存 了 下 来 ， 这 些 保存 下 来 的 信息 ， 束 是 数据 了 。 


1.3 用 计算 机 来 处 理 信息 、 保 存 数 据 
计算 机 伍 然 就 是 一 个 生物 大 脑 的 锥 形 。 


大 脑 用 眼睛 、 耳 和 朱 、 和 描 子 、 皮 肤 作 为 输入 设备 ， 获 取 各 种 信息 ， 而 
计算 机 利用 键盘 、 和 鼠标、 串口 、USB 接 口 等 作为 输入 设备 从 而 获得 各 种 


主 自 


百 vv o 


大 脑 利用 神经 网 络 将 获取 到 的 信息 传递 到 神经 中 枢 ， 而 计算 机 利用 
各 种 总 线 技术 将 信息 传递 给 CPU 进行 计算 。 


大 脑 利用 神经 网 络 ， 将 计算 好 的 信息 传递 给 手臂 、 腿 、 肌 肉 等 这 
些 “ 设 备 ”， 从 而 驱动 这 些 “ 设 备 ”运动 ， 而 计算 机 同样 利用 总 线 ， 将 计算 
好 的 数据 传递 给 外 部 设备 ， 比 如 显示 器 、 打 印 机 等 。 


人 脑 可 以 存储 各 种 数据 ， 而 计算 机 也 能 利用 外 部 介质 来 存放 数据 。 
从 这 一 扣 来 说 ， 计 算 机 本 身 就 是 人 脑 的 一 个 外 部 信息 存储 和 人 处理 的 工 
具 


eo 














计算 机 存储 领域 的 一 些 存储 虚拟 化 产品 ， 比 如 NetApp 公 司 的 V 虚 拟 
化 整合 设备 ， 本 刁 就 模拟 了 二 级 智能 功能 ， 它 可 以 连接 其 他 任何 不 同型 
号 品牌 的 存储 设备 ， 从 这 些 存 储 设备 上 提取 数据 ， 然 后 传输 给 主机 。 
IBM、SUN 等 公司 都 有 自己 的 这 种 存储 虚拟 化 整合 产品 。 








计算 机 存储 领域 所 研究 的 就 是 怎样 为 计算 机 又 快 又 高 效 地 提供 数据 
以 便 辅 助 其 运算 。 和 人 类 的 存储 史 一 样 ， 计 算 机 存储 技术 也 在 不 断 发 展 
壮大 ， 从 早期 的 软盘 、 只 有 几 十 兆 字 节 大 小 的 硬盘， 发 展 到 现在 2TB 大 
小 的 单个 民用 硬盘 、16GB 甚 至 128GB 容 量 的 U 盘 。 





为 了 退 求 高 速度 ， 人 们 把 多 块 磁盘 做 成 RAID (Redundant Arrays of 
Independent Disks) 系统 ， 也 就 是 将 每 个 独立 的 磁盘 组 成 阵列 ， 联 合 存 
储 数据 ， 加 快 数据 存储 速度 。 


提示 : 本 书 的 第 5 章 将 会 回 读者 阐述 RAID 技 术 。 








追求 高 速度 的 同时 ， 容 量 问题 也 必须 解决 。 现 代 计 算 机 程序 对 存储 
容量 的 要 求 变 得 非常 巨大 。 最 新 的 windows 8 操作 系统 ， 刚 刚 安 装 完 后 
所 占用 的 磁盘 空间 就 有 6GB 多 。 一 些 大 型 3D 游 戏 ， 仅 仅 安 装 文件 就 动 加 
2GB、4GB， 甚 至 8GB 大 小 。 一 些 数据 库 管 理 程序 所 生成 的 数据 库 文 
件 ， 可 能 达到 几 TB 甚 至 上 百 上 千 TB 的 大 小 。 传 统 的 将 硬盘 放 到 计算 机 
主机 箱 内 的 做 法 已 经 不 能 满足 现代 应 用 程序 对 存储 容量 的 需求 ， 这 就 众 
生 了 网 络 存储 技术 。 








网 络 存储 是 将 存储 系统 扩展 到 了 网 络 上 ， 使 存储 设备 成 为 了 网 络 上 
的 一 个 节点 ， 以 供 其 他 节点 访问 。 这 样 ， 即 使 计算 机 主机 内 只 有 一 块 硬 
盘 ， 甚 至 没有 硬盘 ， 计 算 机 也 可 以 通过 网 络 来 存 取 存 储 设备 上 的 数据 。 
目前 计算 机 存储 领域 的 热门 技术 惑 是 网 络 存储 技术 ， 和 所 关注 的 是 如 何在 
网 络 上 向 其 他 节点 提供 数据 流 服 务 。 基 于 网 络 存 储 ， 又 使 得 很 多 其 他 相 
关 技 术 得 以 推广 和 应 用 ， 比 如 IT 系统 容 灾 技 术 等 。 





提示 : 在 第 16 音 将 用 较 长 的 篇 幅 来 详细 讲述 IT 系统 容 灾 技 
术 。 


不 管 怎样 ， 所 有 这 些 复杂 的 技术 ， 节 终 都 是 给 人 来 用 的 ,“ 科 技 以 
人 为 本 ”。 我 们 毕竟 不 是 为 了 无 聊 而 发 明 计算 机 ， 任 何 我 们 发 明 的 东 
西 ， 最 终 都 将 为 我 们 所 用 。 任 何 一 种 新 技术 的 出 现 ， 都 是 针对 茶 种 需求 
而 生 ， 所 以 必须 深刻 理解 计算 机 系统 ， 同 时 ， 还 要 理解 和 挖掘 人 类 目 喘 








越 来 越 高 、 越 来 越 不 可 思议 的 需求 ， 只 有 做 到 这 个 层次 ， 才 能 更 加 深刻 
地 理解 计算 机 系统 和 人 类 自身 。 





可 以 看 到 ， 存 储 领 域 是 个 包罗 万 象 的 领域 ， 如 果 不 了 解 计算 机 系 
统 ， 想 掌握 存储 技术 是 很 难 的 。 本 书 将 带领 大 家 走 入 计算 机 存储 领域 ， 
深入 体会 各 种 存储 技术 ， 为 读者 打下 一 个 坚实 的 基础 ， 从 而 在 以 后 的 工 
作 及 学 习 过 程 中 能 够 得 心 应 手 、 触 类 旁 通 ， 这 也 是 作者 的 最 终 目 的 。 








第 2 章 ”IO 大 法 一 一 走 进 计算 机 IO 
世界 


四 TO 
国 总 线 
时 网 中 之 网 


大 家 都 知道 ， 组 成 计算 机 的 三 大 件 是 CPU、 内 存 和 IO。CPU 和 内 存 
就 不 用 说 了 ， 那 么 IO 具体 是 什么 呢 ? IO 就 是 IN 和 OUT 的 简称 。 顾 名 思 
义 ，CPU 需 要 从 内 存 中 提取 数据 来 运算 ， 运 算 完毕 后 再 放 回 内 存 ， 或 者 
直接 将 电信 号 发 向 一 些 针脚 以 操作 外 部 设备 。 对 于 CPU 来 说 ， 从 内 存 提 
取 数 据 ， 就 叫做 IN。 运 算 完 后 将 数据 直接 发 送 到 某 些 其 他 针脚 或 者 放 回 
内 存 ， 这 个 过 程 就 是 OUT。 对 于 磁盘 来 说 ，IN 是 指数 据 写 入 磁盘 的 过 
程 ，OUT 则 是 指数 据 从 磁盘 读 出 来 的 过 程 。IO 只 是 一 个 过 程 ， 那 为 何 要 
在 本 书 开 头 就 研究 它 呢 ? 因为 我 们 必须 和 弄 清 楚 计算 机 系统 的 数据 流动 和 
处 理 过 程 。 数 据 在 每 个 部 件 中 不 断 地 进行 IO 过 程 ， 传 递 给 CPU 由 其 进行 
运算 处 理 之 后 ， 再 经 过 IO 过 程 ， 最 终 到 达 输 出 设备 供 人 使 用 。 




















2.1 IO 的 通路 总 线 


现代 计算 机 中 ，IO 是 通过 共享 一 条 总 线 的 方式 来 实现 的 。 如 图 2-1 
所 示 ， 总 线 也 就 是 一 条 或 者 多 条 物理 上 的 导线 ， 每 个 部 件 都 接 到 这 些 导 
线 上 ， 导 线 上 的 电位 每 个 时 刻 都 是 相等 的 ， 这 样 总 线 上 的 所 有 部 件 都 会 
收 到 相同 的 信号 。 也 就 是 说 ， 这 条 总 线 是 共享 的 ， 同 一 时 刻 只 能 有 一 个 
部 件 在 接收 或 者 发 送 ， 是 半 双 工 的 工作 模式 。 




















图 2-1 计算 机 总 线 示 意图 





所 有 部 件 按 照 另 一 条 总 线 ， 也 就 是 仲裁 总 线 或 者 中 断 总 线 上 给 出 的 
言 号 来 判断 这 个 时 刻 总 线 可 以 由 哪个 部 件 来 使 用 。 产 生 仲 裁 总 线 或 者 中 
断 电 位 的 可 以 是 CPU， 也 可 以 是 总 线 上 的 其 他 设备 。 如 果 CPU 要 向 某 个 
设备 做 输出 操作 ， 那 么 就 由 CPU 主动 做 中 断 。 如 果 某 个 设备 请 求 向 CPU 
发 送信 号 ， 则 由 这 个 设备 来 主动 产生 中 断 信 号 来 通知 CPU。CPU 运 行 操 
作 系 统 内 核 的 设备 管理 程序 ， 从 而 产生 了 这 些 信和 号 。 





如 图 2-1 所 示 ， 主 板 上 的 每 个 部 件 都 是 通过 总 线 连 接 起 来 的 。 图 中 
只 画 了 8 条 导线 ， 而 实际 中 ， 导 线 的 数目 远 远 不 止 8 条 ， 可 能 是 16 条 、32 
条 、64 条 甚 衬 128 条 。 这 些 导线 密密麻麻 地 印刷 在 电路 板 上 ， 由 于 导线 
之 间 非 第 密集 ， 在 高 频 振荡 时 会 产生 很 大 干扰 ， 所 以 人 们 将 这 些 导 线 分 
组 印刷 到 不 同 电 路 板 上 ， 然 后 再 将 这 些 电 路 板 压 合 起 来 ， 形 成 一 块 板 ， 
这 就 是 多 层 印 刷 电路 板 〈 多 层 PCB) 。 这 样 ， 每 张 板 上 的 导线 数量 降低 
了 ， 同 时 板 与 板 之 间 的 信号 屏蔽 性 很 好 ， 不 会 相互 干扰 。 这 些 导线 之 
中 ， 有 一 些 是 部 件 之 间 交 互 数据 用 的 数据 总 线 ， 有 些 则 是 它们 互相 传递 
控制 信号 用 的 控制 总 线 ， 有 些 则 是 中 断 与 仲裁 用 的 中 断 总 线 ， 还 有 一 些 
则 是 地 址 总 线 ， 用 来 确认 通信 时 的 目标 设备 。 一 般 按 照 数据 总 线 的 条 数 





























来 确认 一 个 总 线 或 设备 的 位 宽 〈CPU 是 按照 其 内 部 寄存 器 到 运算 单元 之 
闻 的 总 线 数 目 来 确定 位 数 的 ) 。 比 如 32 位 PCI 总 线 ， 则 表明 这 条 总 线 共 
有 32 根 导线 用 于 传递 数据 信号 。PCI 总 线 可 以 终结 在 一 个 插 槽 ， 用 于 将 
PCI 接 口 的 板 卡 接 入 PCI 总 线 ， 也 可 以 直接 与 设备 连接 。 后 者 一 般 用 于 集 
成 在 主板 上 的 设备 ， 因 为 它们 之 间 无 须 使 用 插 模 来 连接 。 








目前 最 新 的 主板 染 构 中 ， 高 速 总 线 比 如 PCIE 2.0 往 往 是 直接 接 入 北 
桥 ， 南 桥 只 连接 低速 总 线 。 


1，PCI 总 线 





PCI 忌 线 是 目前 台式 机 与 服务 器 所 普 衣 使 用 的 一 种 南 桥 与 外 设 连接 
的 总 线 技术 。 





PCI 总 线 的 地 址 总 线 与 数据 总 线 是 分 时 复 用 的 。 这 样 的 好 处 是 ， 一 
方面 可 以 节省 接 插 件 的 管 脚 数 ， 另 一 方面 便于 实现 突 发 数据 传输 。 在 数 
据 传输 时 ， 一 个 PCI 设 备 作 为 发 起 者 〈 主 控 ，Initiator 或 Master) ， 而 另 
一 个 PCI 设 备 作 为 目标 〈 从 设备 、Target 或 Slave) 。 总 线 上 的 所 有 时 序 
的 产生 与 控制 ， 都 由 Master 来 发 起 。PCI 总 线 在 同一 时 刻 只 能 供 一 对 设 
备 完 成 传输 ， 这 就 要 求 有 一 个 仲裁 机 构 (Arbiter) ， 来 决定 谁 有 权力 拿 
到 总 线 的 主 控 权 。 








当 PCI 总 线 进行 操作 时 ， 发 起 者 〈(Master) 先 置 REQ# 舍 号 Master 用 
来 请 求 总 线 使 用 权 的 信号 ， 当 得 到 仲裁 器 (Arbiter〉 的 许可 时 (GNT# 
信号 ) ， 会 将 FRAME# 售 号 〈 传 输 开 始 或 者 结束 信号 ) 置 低 ， 并 在 地 址 
总 线 〈 也 就 是 数据 总 线 ， 地 址 线 和 数据 线 是 共享 的 ) 上 放置 Slave 地 
址 ， 同 时 C/BE# (命令 信号 ) 放置 命令 信号 ， 说 明 接 下 来 的 传输 类 型 。 








所 有 PCI 总 线 上 的 设备 都 需 对 此 地 址 译 码 ， 被 选中 的 设备 要 置 
DEVSEL# 《被 选中 信号 ) 以 声明 上 自己 被 选中 。 当 IRDY# (Master 可 以 发 
送 数 据 ) 与 TRDY# (〈Slave 可 以 发 送 数据 ) 都 置 低 时 ， 可 以 传输 数据 。 
当 Master 数 据 传 输 结 束 前 ， 将 FRAME# 置 高 以 标明 只 剩 最 后 一 组 数据 要 
传输 ， 并 在 传 完 数据 后 放 开 IRDY# 以 释放 总 线 控制 权 。 





2. PCI 总 线 的 中 断 共 享 


PCI 总 线 可 以 实现 中 断 共 享 ， 即 不 同 的 设备 使 用 同一 个 中 断 而 不 发 
生 伸 估 ， 


硬件 上 ， 采 用 电 乎 触发 的 办 法 : 中 断 信 号 在 系统 一 侧 用 电阻 接 高 ， 
而 要 产生 中 断 的 板 卡 上 利用 三 极 管 的 集 电 极 将 信号 拉 低 。 这 样 不 管 有 几 
块 板 产 生 中 断 ， 中 断 信 号 都 是 低 电 平 ， 而 只 有 当 所 有 板 卡 的 中 断 都 得 到 
处 理 后 ， 中 断 信号 才 会 恢复 高 电 平 。 











软件 上 ， 采 用 中 断 链 的 方法 : 假设 系统 启动 时 ， 发 现 板 卡 A 用 了 中 
断 7， 就 会 将 中 断 7 对 应 的 内 存 区 指 回 A 卡 对 应 的 中 断 服务 程序 入 口 
ISR_A; 然后 系统 发 现 板 卡 B 也 用 中 汤 7， 这 时 就 会 将 中 断 7 对 应 的 内 存 
区 指向 ISR_B， 同 时 将 ISR_B 的 结束 指向 ISR_A。 依 此 类 推 ， 束 会 形成 
一 个 中 断 链 。 而 当 有 中 断 发 生 时 ， 系 统 跳 转 到 中 断 7 对 应 的 内 存 ， 也 就 
是 ISR_B。ISR_B 束 要 检查 是 不 是 B 卡 的 中 断 ， 如 果 是 则 处 理 ， 并 将 板 卡 
上 的 拉 低 电 路 放 开 ， 如 果 不 是 则 呼叫 JSR_A。 这 样 就 完成 了 中 断 的 共 


[过 











2.2 计算 机 内 部 通信 


网 络 是 什么 ， 用 一 句 话 来 说 就 是 将 要 通信 的 所 有 节点 连接 起 来 ， 然 
后 找到 目标 ， 找 到 后 就 发 送 数据 。 笔 者 把 这 种 简单 模型 叫做 “ 连 找 用 ”网 
络 三 元 素 模型 ， 听 起 来 非常 简单 。 











1 


网 络 系统 当然 首先 要 者 连接 起 来 ， 不 党 用 什么 样 的 连接 方式 ， 比 如 
HUB 总 线 、 以 太 网 交换 、 电 话 交 换 、 无 线 、 直 连 、 中 转 等 。 在 这 些 层面 
上 每 个 网 络 点 到 其 他 网 络 点 ， 总 有 通路 ， 总 是 可 达 。 


2 找 





连接 起 来 之 后 ， 由 于 节点 太 多 ， 怎 么 来 区 分 呢 ? 所 以 就 需要 有 个 区 
分 机 制 。 当 然 首先 就 想到 了 命名 ， 就 像 给 人 起 名 一 样 。 在 目前 广泛 使 用 
的 网 络 互联 协议 TCP/IP 中 ，IP 这 种 命名 方式 占 了 主导 地 位 ， 统 一 了 天 
下 。 其 他 的 命名 方式 在 IP 看 来 都 是 “ 非 正统 ”的 ， 全 部 被 “映射 "到 了 IP。 
比如 MAC 地 址 和 IP 的 映射 ，Frame Relay 中 DLCI 地 址 和 IP 的 映射 ， ATM 
中 ATM 地 址 和 IP 的 映射 ， 最 终 都 映射 成 IP 地 址 。 任 何 节 点 ， 不 管 所 在 的 
环境 使 用 什么 命名 方式 ， 到 了 TCP/IP 协 议 的 国度 里 ， 就 都 需要 有 个 IP 名 
(IP 地 址 ，， 然 后 全 部 用 TCP/IP 协 议 来 实现 节点 到 节点 无 障碍 的 通信 。 
在 “ 连 起 来 ”这 个 层面 ， 就 是 OSI〈 本 书 第 7 章 介绍 ) 模型 中 链 路 层 实 现 的 
功能 。 








3. 发 








“ 找 目标 ?这 个 层面 是 网 络 层 实 现 的 功能 。“ 发 数据 ”这 个 层面 ， 就 是 
传输 层 需 要 保障 的 。 至 于 发 什么 数据 ， 数 据 是 什么 格式 ， 这 两 个 层面 就 
不 是 网 络 通信 所 关心 的 了 ， 它 们 已 经 属于 OSI 模 型 中 上 三 层 的 内 容 了 。 





2.2.1 IO 总 线 是 否 可 以 看 作 网 络 


IO 总 线 可 以 接 入 多 个 外 设 ， 比 如 键盘 、 鼠 标 、 网 卡 、 显 卡 、USB 设 
备 、 串 口 设 备 和 并 口 设备 等 ， 最 重要 的 当然 要 属 磁盘 设备 了 。 讲 到 这 
里 ， 大 家 的 脑海 中 应 该 能 出 现 这 样 一 种 架构 : CPU、 内 存 和 各 种 外 设 都 
0 这 不 正 是 以 太 网 HUB 的 模型 么 ? HUB 本 里 就 是 一 

总 线 结构 而 已 ， 所 有 接口 都 接 在 一 条 总 线 上 ，HUB 所 做 的 就 是 避免 总 
to 











没 错 ! 仔细 分 析 之 后 ， 发 现 它 确实 就 是 这 么 一 个 模型 ! 不 过 IO 总 线 
和 以 太 网 HUB 模 型 还 是 有 些 区 别 。CPU 和 内 存 因为 足够 快 ， 它 们 之 间 单 
独 用 一 条 总 线 连 接 。 这 个 总 线 和 慢 速 IO 总 线 之 间 通 过 一 个 桥接 忆 瞩 连 
接 ， 也 就 是 主板 上 的 北桥 芯片 。 这 个 芯片 连接 了 CPU、 内 存 和 IO 总 线 。 


CPU 与 北桥 连接 的 总 线 叫 做 系统 总 线 ， 也 称 为 前 端 总 线 。 这 个 总 线 
的 传输 频率 与 CPU 的 目 身 频率 是 两 个 不 同 概念 ， 总 线 频率 相当 于 CPU 问 
外 部 存 取 数 据 时 的 数据 传输 速率 ， 而 CPU 目 身 的 频率 则 表示 CPU 运算 时 
电路 产生 的 频率 。 


提示 : ”本 书写 作 时 ，Intel 用 于 PC 的 CPU 前 端 总 线 频率 已经 可 
以 达到 2000MHz， 而 作者 用 来 写作 的 PC，CPU 为 Intel 赛 扬 IL， 

前 端 总 线 只 有 100MHz， 整 整 20 倍 的 提升 ， 而 CPU 自身 频率 提 
升 不 过 三 四 倍 而 已 ， 但 是 性 能 却 提升 了 远 超 三 四 倍 。 








前 端 总 线 的 条 数 ， 比 如 64 条 或 者 128 条 ， 就 叫做 总 线 的 位 数 。 这 个 


位 数 与 CPU 内 部 的 位 数 也 是 不 同 的 概念 ，CPU 位 数 指 的 是 寄存 器 和 运算 
单元 之 间 总 线 的 条 数 。 内 存 与 北桥 连接 的 总 线 叫 做 内 存 总 线 。 由 于 北桥 
速度 太 快 ， 而 IO 总 线 速度 相对 北桥 显得 太 慢 ， 所 以 北桥 和 IO 总 线 之 间 ， 
往往 要 增加 一 个 网 桥 ， 叫 做 南 桥 ， 在 南 桥 上 一 般 集 成 了 众多 外 设 的 控制 
器 ， 比 如 磁盘 控制 器 、USB 控 制 器 等 。 








思考 : 这 不 正 是 个 不 折 不 扣 的 “网 络 ? 么 ? 而 且 还 是 个 不 折 不 扣 
的 “网 桥 ?! 我 们 看 ，CPU 和 内 存 是 一 个 冲突 域 ，IO 总 线 是 一 个 
冲突 域 ， 桥 接 必 片 将 这 两 个 冲突 域 桥 接 起 来 ， 这 正 是 网 桥 的 思 
想 ! 太 好 了 ! 我 们 的 思想 在 这 个 模型 中 得 到 了 升华 ! 我 们 知道 
了 计算 机 系统 原来 就 是 一 个 网 络 啊 ! 





下 面 束 来 看 看 ， 在 这 个 网 络 上 ， 我 们 能 够 干 点 什么 惊天 动 地 的 事 
呢 ? 





提示 : 总 线 其 实 不 是 一 条 总 线 ， 它 分 成 数据 总 线 、 地 址 总 
en 
言 号 用 控制 总 线 。 而 且 IO 总 线 是 并 行 而 不 是 串 行 的 ， 有 32 位 或 
者 64 位 总 线 。32 位 总 线 也 就 是 说 有 32 根 导线 来 传 数 据 ，64 位 总 
线 用 64 根 导线 来 并 行 传 数 据 。 








2.2.2 CPU、 内 存 和 磁盘 之 间 通 过 网 络 来 通信 


CPU 是 一 个 必 片 ， 磁 盘 是 一 个 有 接口 的 盒子 ， 它 们 不 是 一 体 的 而 是 
分 开 的 ， 而 且 都 连接 在 这 个 网 桥 上 。 那 么 CPU 向 磁盘 要 数据 ， 也 就 是 两 
个 节点 之 间 的 通信 ， 必 定 要 通过 一 种 通路 来 获取 ， 这 个 通路 当然 是 电 
路 ! 


提示 : “当然 也 可 以 是 辐射 的 电磁 波 ， 估 计 21 世 纪 还 应 用 不 到 


CPU 上 。 








凡是 分 割 的 节点 之 间 ， 需 要 接触 和 通信 ， 就 可 以 成 为 网 络 。 那 么 就 
不 由 得 使 我 们 往 OSI 模 型 上 去 靠 ， 这 个 模型 定义 得 很 好 。 既 然 通信 是 通 
过 电路 ， 也 就 是 物理 层 的 东西 ， 那 么 链 路 层 都 有 什么 内 容 呢 ? 


大 家 知道 ， 链 路 层 相 当 于 一 个 司机 ， 它 把 货物 运输 到 对 端 。 司 机 的 
作用 就 是 轨 驶 车 辆 ， oo 那么 在 这 个 计算 机 
总 线 组 成 的 网 络 中， 需要 这 样 一 个 角色 呢 ? 答案 是 不 需要 。 因 为 
各 个 书 ee 大 稳定 了 ! 主板 上 那些 电容 、 电 阻 和 蛇 
行 线 ， 这 一 切 都 是 为 了 保障 这 些 电 路 的 稳定 和 高 速 。 在 这 样 的 一 条 高 
速 、 高 成 本 的 道路 上 ， 是 不 需要 司机 的 ， 更 不 需要 押运 员 ! 所 以 ， 计 算 
机 总 线 网 络 是 一 个 只 有 物理 层 、 网 络 层 和 上 三 层 的 网 络 ! 














强调 : ”所 有 的 网 络 都 可 以 定义 成 连 起 来 、 找 目标 和 发 数据 。 
也 就 是 “ 连 找 发 ”模型 ， 这 也 是 构成 一 个 网 络 的 三 元 素 。 任 何 网 
络 都 必须 具有 这 三 元 素 〈 点 对 点 网 络 除外 ) 。 连 ， 代 表 物 理 
层 。 物 理 层 必须 要 有 ， 如 果 没 有 物理 层 ， 要 达到 两 点 之 间 通 信 
是 不 可 能 的 。 物 理 层 可 以 是 导线 ， 可 以 是 电磁 波 ， 总 之 必须 有 
物理 层 。 找 ， 突 出 一 个 找 字 ， 既 然 要 找 ， 那 么 就 要 区 分 方法 ， 
也 就 是 编 址 ， 比 如 IP 和 等。 发 ， 突 出 一 个 发 字 ， 即 指 最 上 层 发 出 
数据 。 








下 面 就 按照 “ 连 找 友 ”三 元 系 理 论 ， 去 分 析 一 个 CPU 癌 磁盘 要 数据 的 
例子 。 


CPU 与 便 盘 数据 交互 的 过 程 如 下 。 





首先 看 “ 连 ?这 个 元 素 ， 这 个 当然 已 经 具备 了 ， 因 为 总 线 已 经 提供 


了 “ 连 ” 所 需 的 条 件 。 





再 看 “ 找 ” 这 个 元 素 ， 前 面 说 了 ， 首 先 要 有 区 分 ， 才 能 有 所 谓 "“ 找 ”， 
这 个 区 分 体现 在 主机 总 线 中 吏 是 设备 地 址 映射 。 每 个 IO 设备 在 局 动 时 都 
要 问 内 存 中 映射 一 个 或 者 多 个 地 址 ， 这 个 地 址 有 8 位 长 ， 又 被 称 做 IO 端 
口 。 针 对 这 个 地 址 的 数据 ， 统 统 被 北桥 心 片 重 定 同 到 总 线 上 实际 的 设备 
上 。 假 如 ，IDE 磁 盘 控 制 器 地 址 被 映射 到 了 地 址 0xA0， 也 就 是 十 六 进 制 
A0，CPU 根 据 程 序 机 露 代 码 ， 问 这 个 地 址 发 出 多 条 指令 来 完成 一 个 该 操 
作 ， 这 就 是 “ 找 ?。" 找 ”的 条 件 也 具备 了 。 











接 下 来 我 们 看 看 “用 ”这 个 元 系 ! 首先 CPU 将 这 个 IO 地 址 放 到 系统 总 
线 上 ， 北 桥接 收 到 之 后 ， 会 等 待 CPU 发 送 第 一 个 针对 这 个 外 设 的 指令 。 
然后 CPU 发 送 如 下 3 条 指令 。 


第 一 条 指令 ; 指令 中 包含 了 表示 当前 指令 是 读 还 是 写 的 位 ， 而 且 还 
包含 了 其 他 选项 ， 比 如 操作 完成 时 是 否 用 中 断 来 通知 CPU 处 理 ， 是 否 局 
用 磁盘 缓存 等 。 








第 二 条 指令 : 指明 应 该 读 取 的 硬盘 馆 辑 块 号 LBA) 。 这 个 逻辑 块 
在 我 们 讲 磁 盘 结 构 时 会 讲 到 ， 总 之 馆 辑 块 就 是 对 磁盘 上 存储 区 域 的 一 种 
抽象 。 








第 三 条 指令 : 给 出 了 读 取出 来 的 内 容 应 该 存放 到 内 存 中 哪个 地 址 
中 。 


这 3 条 指令 被 北桥 依次 发 送 给 IO 总 线 上 的 磁盘 控制 器 来 执行 。 磁 盘 
控制 喜 收 到 第 一 条 指令 之 后 ， 知 道 这 是 读 指 令 ， 而 且 知 着 这 个 操作 的 一 
些 选 项 ， 比 如 完成 是 人 否 发 中 断 ， 是 否 局 用 磁盘 缓存 等 ， 然 后 磁盘 控制 器 
会 继续 等 待 下 一 条 指令 ， 即 逻辑 块 地 址 〈 号 ) 。 磁 盘 控 制 器 收 到 指令 之 











后 ， 会 进行 磁盘 实际 鹿 区 和 逻辑 块 的 对 应 查找 ， 可 能 一 个 多 辑 块 会 对 应 
多 个 山区 ， 查 找 完成 之 后 ， 控 制 器 驱动 磁 尖 寻 道 ， 等 盘 体 旋转 到 那个 局 
区 后 ， 磁 头 开 始 读 出 数据 。 在 读 取 数据 的 同时 ， 磁 盘 控 制 器 会 接收 到 第 
三 条 指令 ， 也 就 是 CPU 给 出 的 数据 应 该 存放 在 内 存 中 的 地 址 。 有 了 这 个 
地 址 ， 数 据 读 出 之 后 直接 通过 DMA 技 术 ， 也 就 是 磁盘 控制 器 可 以 直接 
对 内 存 寻 址 并 执行 写 操作 ， 而 不 必 先 转 到 CPU， 然 后 再 从 CPU 存 到 内 存 
中 。 数 据 存 到 内 存 中 之 后 ，CPU 就 从 内 存 中 取 数 据 ， 进 行 其 他 运算 。 





上 面 说 的 过 程 是 “ 读 ”,“ 写 ”的 过 程 也 可 以 依 此 类 推 ， 而 且 CPU 辣 磁 
盘 读 写 数 据 ， 和 癌 内 存 该 写 数据 大 同 小 异 ， 只 不 过 CPU 和 内 存 之 间 有 更 
高 速 的 缓存 。 绥 存 对 于 计算 机 很 重要 ， 对 于 磁盘 阵列 同样 重要 ， 后 面 内 


容 将 会 介绍 到 。 





思考 : CPU 在 对 人 磁盘 发 送 指令 的 时 候 ， 这 些 指 令 是 怎么 定义 
的 ? 这 些 指 令 其 实 是 发 给 了 主板 南 桥 上 集成 的 (或 者 是 通过 
PCI 接 入 IO 总 线 的 ) 控制 器 ， 比 如 ATA 控 制 器 或 者 SCSI 控 制 
器 。 然 后 控制 器 再 向 磁盘 发 出 一 系列 的 指令 ， 让 磁盘 读 取 或 者 
写 入 某 个 磁道 、 某 个 扇 区 等 。CPU 不 需要 知道 这 些 ，CPU 只 需 
要 知道 逻辑 块 地 址 是 读 还 是 写 就 可 以 了 。 让 CPU 产生 这 些 信和 号 
的 是 磁盘 控制 器 驱动 程序 。 








那么 控制 器 对 磁盘 发 出 的 一 系列 指令 是 怎么 定义 的 呢 ? 它们 形成 了 
两 大 体系 ， 一 个 是 ATA 指 令 集 ， 一 个 是 SCSI 指 令 集 。SCSI 指 令 集 比 
ATA 指 令 集 高 效 ， 所 以 广泛 用 于 服务 器 和 磁盘 阵列 环境 中 。 这 些 指令 
集 ， 也 可 以 称 为 协议 ， 协 议 就 是 语言 ， 就 是 让 通信 双方 知道 对 方 传 过 来 
的 比特 流 里 面 到 底 包 含 了 什么 ， 怎 么 由 笔划 组 成 字 ， 由 字 组 成 词 ， 词 组 
服 全 于 








2.3 ”网 中 之 网 


通过 图 2-2 可 以 体会 到 ， 计 算 机 的 主板 上 的 各 个 部 件 本 喘 就 形成 了 
一 个 网 络 ， 而 且 通 过 网 卡 ， 还 可 以 连接 到 外 部 网 络 。 








图 2-2 网 中 之 网 
正 所 谓 : 
CPU 内 存 和 磁盘 ， 
大 家 都 在 线 上 谈 。 
待 当 看 破 三 元 素 ， 
网 中 有 网 天 际 来 ! 


第 3 草 ”做 列 大 挪移 一 做 盘 尿 理 


与 技术 详解 





四 做 盘 结 构 
加 接口 
@ 申 行 
加 并行 


磁盘 分 为 软 禹 和 硬盘 。 将 布 满 磁性 粒子 的 一 片 圆 形 软 片 包 右 在 一 个 
塑料 元 中 ， 中 间 开 孔 ， 以 便 电 机 夹 住 这 张 软片 来 旋转 ， 这 惑 是 软盘 。 


将 软盘 插入 驱动 器 ， 电 机 便 会 市 动 这 张 磁 片 旋转 ， 同 时 磁头 也 夹 住 
磁 片 进行 数据 读 写 。 软 盘 和 录音 带 是 双胞胎 ， 只 不 过 模样 不 太一 样 而 
己 。 软 盘 记 录 的 是 数字 信号 ， 录 首 带 记录 的 是 模拟 信和 号。 软盘 上 的 磁性 
粒子 的 磁极 ， 不 管 是 N 极 还 是 S 极 ， 其 磁化 强度 都 是 一 样 的 ， 磁 头 只 要 
探测 到 N 极 ， 便 认为 是 1， 探 测 到 S 极 ， 便 认为 是 0， 反 过 来 也 可 以 ， 这 
就 是 用 0 和 1 来 记录 的 数字 信号 数据 。 另 外 ， 因 为 软盘 被 设计 为 块 式 的 而 
不 是 流 式 的 ， 所 以 需要 进行 局 区 划分 等 操作 。 




















所 谓 块 式 ， 就 是 指数 据 分 成 一 块 块 地 存放 在 介质 上 ， 可 以 直接 选择 
读 写 东 一 块 数据 ， 定 位 这 个 块 的 速度 比较 快 。 所 谓 流 式 ， 就 是 指数 据 是 
连续 不 断 地 存放 在 介质 上 。 束 像 一 首 歌 ， 不 可 能 让 录音 机 在 磁带 上 定位 
到 这 首 歌 的 茶 处 开始 播放 ， 只 能 定位 到 茶 首 歌曲 的 前 面 或 者 后 面 。 








模拟 人 磁带， 也 就 是 录音带， 记录 是 线性 连续 的 ， 没 有 局 区 的 概念 ， 
属于 流 式 记录 。 在 每 个 流 之 间 可 以 有 一 段 空 队 ， 以 便 磁头 可 以 通过 快 进 
快速 定位 到 这 个 位 置 ， 但 是 由 于 设计 的 原因 ， 磁 带 定 位 的 速度 远 比 磁盘 
慢 。 但 是 磁带 的 设计 ， 从 一 开始 就 是 为 了 满足 大 容量 数据 存储 的 需要 。 
如 果 将 缠绕 紧密 的 磁带 铺展 开 来 ， 可 以 想象 它 的 面积 比 一 张 磁 盘 要 大 得 
多 ， 所 以 存储 容量 必然 也 就 大 于 磁盘 。 现 在 一 盘 LTO3 的 数字 磁带 可 以 
在 1 平方 分 米 底面 、2 厘 米 高 的 体积 中 存放 400GB 的 数据 ， 如 果 使 用 压缩 
技术 ， 可 以 存放 约 800GB 的 数据 。 而 它 的 价格 却 比 同等 容量 硬盘 的 一 半 
还 低 。 











但 是 磁带 绝对 不 可 以 作为 数据 实时 存储 的 介质 ， 因 为 它 不 可 以 定位 
到 儿 个 块 ， 这 也 决定 了 磁带 只 能 用 来 做 数据 备份 。Sun 公 司 的 项 级 磁带 
库 产 品 可 以 达到 一 台 磁 带 库 中 存放 1 万 盘 人 磁带 ， 最 大 可 以 让 32 台 磁带 库 
级 联 ， 从 而 形成 32 万 盘 磁 带 的 大 规模 磁带 库 阵列 。 








而 作为 本 间 重 点 介绍 的 人 硬盘 技术， 不 仅 存 取 速 度 比 软盘 更 快 ， 随 看 
技术 发 展 带 来 的 成 本 下 降 ， 更 有 取代 磁带 机 成 为 普及 型 数据 存储 的 趋 
势 。 





3.1 硬盘 结构 
1. 结构 图 


硬盘 大 致 由 盘 片 、 读 写 头 、 马 达 、 底 座 、 电 路 板 等 几 大 项 组 合 而 
成 ， 如 图 3-17 和 图 3-2 所 示 。 











图 3-1 磁盘 的 构成 要 件 图 3-2 ”磁盘 结构 图 





2. 盘 片 





盘 片 的 基板 由 金属 或 玻璃 材质 制 成 ， 为 达到 高 密度 、 高 稳定 性 的 要 
求 ， 基 板 要 求 表面 光 请 平整 ， 不 可 有 任何 正 疲 。 然 后 将 磁粉 溅 镀 到 基板 
表面 上 ， 最 后 再 涂 上 保护 润滑 层 。 此 处 要 应 用 两 项 高 科技 ， 一 是 要 制造 
出 不 含 杂质 的 极 细微 的 磁粉 ， 二 是 要 将 磁粉 均匀 地 溅 镀 上 去 。 





盘 片 每 面 粗 计 和 密度 为 32901120000 “b， 可 见 其 密度 相当 高 ， 所 以 盘 
片 不 可 有 任何 污染 ， 全 程 制 造 均 须 在 Class ” 100 高 洁净 度 的 无 尘 室内 进 
行 ， 这 也 是 硬盘 要 求 需 在 无 尘 室 才能 拆 解 维修 的 原因 。 因 为 磁头 是 利用 
气流 漂浮 在 盘 片 上 ， 并 没有 接触 到 盘 片 ， 因 而 可 以 在 各 轨 间 高 速 来 回 移 
动 ， 但 如 果 磁 头 距离 盘 片 太 高 读 取 的 信号 就 会 太 弱 ， 太 低 又 会 磨 到 盘 片 
表面 ， 所 以 盘 片 表面 必须 相当 光滑 平整 ， 任 何 异 物 和 人 尘埃 均 会 使 得 磁头 
摩擦 到 磁 面 而 造成 数据 永久 性 损坏 。 














3. 厂 头 


硬盘 的 储存 原理 是 将 数据 用 其 控制 电路 通过 硬盘 读 写 头 〈Read 
Write Head) 去 改变 磁盘 表面 上 极 细微 的 磁性 粒子 驴 的 N、S 极 性 来 加 以 
储存 ， 所 以 这 几 片 磁盘 相当 重要 。 











磁盘 为 了 储存 更 多 数据 ， 必 须 将 ”四 3-3 磁头 厚度 示意 图 
磁性 粒子 簇 溅 镀 在 磁头 可 定位 的 范围 
内 ， 并 且 磁 性 粒子 制作 得 越 小 越 好 。 经 过 汝 镀 ， 磁 盘 表 面 上 磁 粒 子 密度 
相当 高 ， 而 硬盘 读 写 头 为 了 能 在 磁盘 表面 高 速 来 回 移动 读 取 数据 则 需 漂 
浮 在 磁盘 表面 上 ， 但 是 不 能 接触 ， 接 触 就 会 造成 划 伤 。 磁 头 如 果 太 高 的 
话 读 取 到 的 信号 就 会 很 弱 ， 无 法 达到 高 稳定 性 的 要 求 ， 所 以 要 尽 可 能 压 
低 ， 其 飞行 高 度 (Flying Height〉 非 常 小 (可 比喻 成 要 求 一 架 波 首 747 客 
机 ， 其 飞行 高 度 须 保持 在 1 米 的 距离 而 不 可 坠毁 ) 。 实 现 这 种 技术 ， 完 
全 是 靠 磁 盘旋 转 时 ， 在 盘 片 上 空 产生 气流 ， 利 用 空气 动力 学 使 磁头 悬浮 
于 磁 片 上 空 。 磁 头 厚 度 如 图 3-3 所 示 。 

















早期 的 硬盘 在 每 次 关机 之 前 需要 运行 一 个 被 称 为 Parking 的 程序 ， 其 
作用 是 让 磁头 回 到 盘 片 最 内 圈 的 一 个 不 含 磁 粒子 的 区 域 ， 叫 做 局 停 区 。 
人 硬盘 不 工作 时 ， 磁 头 俘 留 在 局 停 区 ， 当 需要 从 人 硬盘 读 写 数 据 时 ， 磁 盘 就 
先 开始 旋转 。 旋 转速 度 达到 额定 速度 时 ， 磁 头 束 会 因 盘 片 旋转 产生 的 气 
流 抬 起 来 ， 这 时 磁头 才 回 熏 片 中 存放 数据 的 区 域 移动 。 盘 片 旋转 产生 的 
气流 相当 强 ， 足 以 托 起 磁头 ， 并 与 盘面 保持 一 个 微小 的 距离 。 这 个 距离 
越 小 ， 磁 头 读 写 数 据 的 灵敏 度 束 越 高 ， 当 然 对 人 硬盘 各 部 件 的 要 求 也 束 越 
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早期 设计 的 磁盘 驱动 器 可 使 磁头 保持 在 盘面 上 方 几 微 米 处 飞行 ， 稍 
后 的 一 些 设计 使 磁头 在 盘面 上 的 飞行 高 度 降 到 约 0.1 一 0.50m， 现 在 的 水 
平 已 经 达到 0.005 一 0.010m， 只 是 人 类 头发 直径 的 和 干 分 之 一 。 气 流 既 能 
使 磁头 脱离 开盘 面 ， 又 能 使 它 保 持 在 离 盘 面 足够 近 的 地 方 ， 非 常 紧密 地 








随 看 人 磁盘 表面 呈 起 伏 运 动 ， 使 磁头 飞行 处 于 严格 受 控 状态 。 磁 头 必 须 飞 
行 在 盘面 上 方 ， 而 不 接触 盘面 ， 这 种 距离 可 避免 探伤 磁性 涂 层 ， 而 更 重 
要 的 是 不 让 磁性 涂 层 损伤 磁头 。 但 是 ， 磁 头 也 不 能 离 盘 面 太 远 ， 人 否则 惑 
不 能 使 盘面 达到 足够 强 的 磁化 ， 难 以 读 出 盘 上 的 数据 。 








提示 : ”硬盘 驱动 器 磁头 的 飞行 大 浮 高 度 低 、 速 度 快 ， 一 旦 有 
小 的 侍 埃 进入 硬盘 密封 用 内 或 者 磁头 与 盘 体 发 生 使 撞 ， 就 有 可 
能 造成 数据 丢失 形成 坏 块 ， 甚 至 造成 磁头 和 盘 体 的 损坏 。 所 
以 ， 硬 盘 系 统 的 密封 一 定 要 可 笔 ， 在 非 专业 条 件 下 绝对 不 能 
局 人 硬盘 密封 腔 ， 侍 则 灰 全 进入 后 会 加 速 便 盘 的 损坏 。 男 外 ， 硬 
盘 驱 动 右 磁头 的 寻 道 伺服 电机 多 采用 音 团 式 旋转 或 直线 运动 步 
进 电 机 ， 在 伺服 跟踪 的 调 证 下 精确 地 跟 躁 盘 刻 的 磁道 ， 所 以 硬 
盘 工 作 时 不 要 有 冲击 碰撞 ， 搬 动 时 也 要 小 心 轻 放 。 








4. 步 进 电机 


为 了 让 磁头 精确 定位 到 每 个 磁道 ， 用 普通 的 电机 达 不 到 这 样 的 精 
度 ， 必 须 用 步 进 电机 ， 利 用 精确 的 齿轮 组 或 者 音 奖 ， 每 次 旋转 可 以 仅仅 
使 磁头 进行 微米 级 的 位 移 。 音 圈 电 机 则 是 使 用 精密 缠绕 的 铜 经 ， 置 于 磁 
场 之 中 ， 通 过 控制 电流 的 流向 和 强度 ， 使 得 磁头 臂 在 磁场 作用 下 作 精 确 
的 步 进 。 之 所 以 叫做 “ 音 疾 ”， 是 因为 这 种 方法 一 开始 是 用 在 喇叭 的 纸 盆 
上 的 ， 通 过 控制 电流 来 控制 纸 盆 的 精确 振动 。 


3.1.1 盘 片 上 的 数据 组 织 


硬盘 上 的 数据 是 如 何 组 织 与 管理 的 呢 ? 硬盘 首先 在 逻辑 上 被 划分 为 
人 磁道、 柱 面 以 及 局 区 ， 其 结构 关系 如 图 3-4 所 示 。 








图 3-4 柱 面 和 一片 上 的 磁道 




















每 个 盘 放 的 每 个 面 都 有 一 个 读 写 磁头 ， 磁 头 起 初 停 在 盘 片 的 最 内 
圈 ， 即 线 速度 最 小 的 地 方 。 这 是 一 个 特殊 区 域 ， 它 不 存放 任何 数据 ， 称 
为 启 停 区 或 着 陆 区 (Landing ”Zone) 。 启 停 区 外 就 是 数据 区 。 在 最 外 
圈 ， 离 主轴 最 远 的 地 方 是 0 磁道 ， 硬 盘 数 据 的 存放 就 是 从 最 外 圈 开 始 
的 。 











那么 ， 磁 头 如 何 找 到 0 磁道 的 位 置 呢 ? 从 图 3.4 中 可 以 看 到 ， 有 一 个 
0 磁 违 检测 器 ， 由 它 来 完成 硬盘 的 初始 定位 。0 人 磁道 存放 着 用 于 操作 系统 
启动 所 必需 的 程序 代码 ， 因 为 PC 启动 后 BIOS 程 序 在 加 载 任何 操作 系统 
或 其 他 程序 时 ， 总 是 默认 从 磁盘 的 0 磁道 读 取 程 序 代 码 来 运行 。 











提示 : ”0 磁道 是 如 此 重要 ， 以 至 于 很 多 人 硬盘 仅仅 因为 0 磁道 损 
坏 就 报废 了， 这 是 非常 可 惜 的 。 


下 面 对 盘 面 、 磁 道 、 柱 面 和 书 区 的 侣 义 逐 一 进行 介绍 。 


1. 盘面 





人 硬盘 的 盘 片 一 般 用 铝 合 金 材 料 做 基 片 ， 高 速 硬盘 也 有 用 玻璃 做 基 方 
的 。 玻 璃 基 片 更 容易 达到 所 需 的 平面 度 和 光 清 度 ， 而 且 有 很 高 的 硬度 。 
磁头 传动 装置 是 使 磁头 作 径 同 移动 的 部 件 ， 通 常 有 两 种 类 型 的 传动 装 
置 : 一 种 古 雌 条 传动 的 步 进 电机 传动 装 置 ， 妃 一 种 是 音 阅 电机 传动 装 
置 。 前 者 是 固定 推算 的 传动 定位 器 ， 而 后 者 则 采用 伺服 反馈 返回 到 正确 
的 位 置 上 。 磁 头 传动 装置 以 很 小 的 等 距离 使 磁头 部 件 作 径 同 移动 ， 用 以 
变换 磁道 。 














硬盘 的 每 一 个 盘 片 都 有 两 个 盘面 ， 即 上 、 下 盘面 。 每 个 盘面 都 能 利 
用 ， 都 可 以 存储 数据 ， 成 为 有 效 盘 片 。 每 一 个 这 样 的 有 效 盘 面 都 有 一 个 
盘面 号 ， 按 从 上 到 下 的 顺序 从 0 开始 依次 编号 。 在 便 盘 系统 中 ， 盘 面 号 
又 叫 磁 头号 ， 因 为 每 一 个 有 效 盘 面 都 有 一 个 对 应 的 读 写 磁头 。 硬 盘 的 盘 
片 组 在 2 一 14 片 不 等 ， 通 常 有 2 一 3 个 盘 片 ， 故 盘面 号 《磁头 号 ) 为 0 一 3 
或 0 一 5。 











2 磁道 


磁盘 在 格式 化 时 被 划分 成 许多 同心 圆 ， 这 些 同 心 圆 轨 迹 叫 做 磁道 。 
磁道 从 最 外 圈 同 内 奖 从 0 开始 顺序 编号 。 人 硬盘 的 每 一 个 盘面 有 300 一 1024 
个 磁道 ， 新 式 大 容量 便 盘 每 面 的 磁道 数 更 多 。 这 些 同心 圆 磁 道 不 是 连续 
记录 数据 ， 而 是 被 划 分 成 一 段 段 的 圆 披 ， 这 些 圆 弧 的 角速度 一 样 。 由 于 
径 回 长 度 不 一 样 ， 所 以 线 速度 也 不 一 样 ， 外 圈 的 线 速度 较 内 圈 的 线 速度 
大 。 在 同样 的 转速 下 ， 外 圈 在 相同 的 时 间 段 里 ， 划 过 的 圆 踊 长 度 要 比 内 
圈 划 过 的 圆 听 长 度 大 ， 因 此 外 圈 数 据 的 读 写 要 比 内 圈 快 。 














每 段 圆 弧 叫 做 一 个 硬 区 ， 扇 区 从 1 开始 编号 ， 每 个 扇 区 中 的 数据 作 
为 一 个 单元 同时 读 出 或 写 入 ， 是 读 写 的 最 小 单位 。 不 可 能 发 生 读 写 半 个 
或 者 四 分 之 一 个 这 种 小 于 一 个 届 区 的 情况 ， 因 为 磁头 只 能 定位 到 茶 个 局 
区 的 开 尖 或 者 结尾 ， 而 不 能 在 山区 内 部 定位 。 所 以 ， 一 个 出 区 内 部 的 数 
据 ， 是 连续 流 式 记录 的 。 一 个 标准 的 3.5 英 寸 便 盘 盘面 通常 有 几 百 到 几 
干 条 磁道 。 人 磁道 是 肉眼 看 不 见 的 ， 只 是 盘面 上 以 特殊 形式 磁化 了 的 一 些 
磁化 区 。 划 分 磁道 和 局 区 的 过 程 ， 叫 做 低级 格式 化 ， 通 汕 在 硬盘 出 三 的 
时 候 惑 已 经 格式 化 完 人 了。 相对 于 低级 格式 化 来 说 ， 高 级 格式 化 指 的 是 
对 磁盘 上 上 所 存储 的 数据 进行 文件 系统 的 标记 ， 而 不 是 对 书 区 和 磁道 进行 
磁化 标记 。 




















3. 柱 面 








所 有 盘面 上 的 同一 磁道 ， 在 紧 直 方向 上 构成 一 个 圆柱 ， 通 闻 称 做 柱 
面 。 每 个 圆柱 上 的 磁头 由 上 而 下 从 0 开始 编号 。 数 据 的 读 写 按 柱 面 进 
行 ， 即 磁头 读 写 数据 时 首先 在 同一 柱 面 内 从 0 磁头 开始 进行 操作 ， 依 次 
问 下 在 同一 柱 面 的 不 同 盘 面 “ 即 磁头 ) 上 进行 操作 。 只 有 在 同一 柱 面 所 
有 的 磁头 全 部 读 写 完毕 后 磁头 才 转 移 到 下 一 柱 面 ， 因 为 选取 磁头 只 需 通 
过 电子 切换 即 可 ， 而 选取 柱 面 则 必须 通过 机 械 切 换 ， 即 寻 道 。 





电子 切换 相当 快 ， 比 使 用 机 械 将 磁头 向 邻近 磁道 移动 要 快 得 多 ， 所 
以 数据 的 读 写 按 柱 面 进行 ， 而 不 按 盘 面 进 行 。 也 融 是 说 ， 一 个 磁道 写 满 
数据 后 ， 就 在 同一 柱 面 的 下 一 个 盘面 来 号。 一 个 柱 面 写 满 后 ， 才 移 到 下 
一 个 柱 面 开始 写 数 据 ， 这 样 可 以 减少 寻 道 的 频繁 度 。 读 写 数 据 也 按照 这 
种 方式 进行 ， 这 样 就 提高 了 硬盘 的 读 写 效率 。 








一 块 人 硬盘 驱动 器 的 圆柱 数 或 每 个 盘面 的 磁道 数 既 取决 于 每 条 磁道 的 
览 宕 〈 也 与 磁头 的 大 小 有 关 ) ， 也 取决 于 定位 机 构 所 决定 的 磁道 间 步 距 
的 大 小 。 如 果 能 将 磁头 做 得 足够 精细 ， 定 位 距离 足够 小 ， 那 么 就 会 获得 
更 高 的 磁道 数 和 存储 容量 。 如 果 磁 头 太 大 ， 则 磁道 数 就 要 降低 以 容纳 这 
个 磁 兴 ， 这 样 磁 道 与 磁道 之 间 的 磁粉 将 无 法 利用 ， 浪 费 得 太 多 。 如 果 能 
将 磁头 做 成 单个 原子 的 精度 ， 那 么 存储 拉 术 就 会 发 生 革 命 性 的 质变 。 





提示 : 利用 原子 探 针 来 移动 物质 表面 的 原子 成 特定 形状 ， 这 
种 技术 早已 实现 。 如 果 能 将 这 种 技术 应 用 到 数据 存储 领域 ， 则 
存储 容量 和 速度 将 会 以 几何 倍数 上 升 。 





4. 局 区 


1) 局 区 头 标 图 3-5” 扇 区 示意 图 


将 每 个 环形 磁道 等 距离 切割 ， 形 成 等 长 度 的 圆 踊 ， 每 个 圆 弧 就 是 一 
个 而 区 。 划 分 书 区 的 目的 是 为 了 使 数据 存储 更 加 条 理化 ， 就 像 一 个 大 仓 
库 要 划分 更 多 的 房间 一 样 。 每 个 局 区 可 以 存放 512B 的 数据 和 一 些 其 他 信 
尽 。 一 个 局 区 有 两 个 主要 部 分 : 存储 数据 地 点 的 标识 符 和 存储 数据 的 数 
据 段 ， 如 图 3-5 所 示 。 











而 区 头 标 包 括 组 成 克 区 三 级 地 址 的 三 个 数字 。 

而 区 所 在 的 柱 面 《磁道 ) 。 

磁头 编号 。 

而 区 在 磁道 上 的 位 置 ， 即 而 区 号 。 

柱 面 〈Cylinder) 、 磁 头 〈Header) 和 局 区 (Sector) 三 者 简称 
CHS， 所 以 扇 区 的 地 址 又 称 为 CHS 地 址 。 





磁头 通过 读 取 当 前 旋 区 的 头 标 中 的 CHS 地 址 ， 就 可 以 知道 当前 是 处 
于 盘 片 上 的 哪个 位 置 ， 比 如 是 内 圈 还 是 外 圈 ， 哪 个 磁头 正在 读 写 《同一 
时 刻 只 能 有 一 个 磁头 在 读 写 ) 等 。 





CHS 编 址 方式 在 早期 的 小 容量 便 盘 中 非常 流行 ， 但 是 目前 的 大 容量 
人 硬盘 的 设计 和 低级 格式 化 方式 已 经 有 所 变化 ， 所 以 CHS 编 址 方式 已 经 不 
再 使 用 ， 而 转 为 LBA 编 址 方式 。LBA 编 址 方式 不 再 划分 柱 面 和 磁头 号 ， 
这 些 数据 由 硬盘 自身 保留 ， 而 磁盘 对 外 提供 的 地 址 全 部 为 线性 的 地 址 ， 
即 LBA 地 址 。 


所 谓 线性 ， 指 的 是 把 磁盘 想象 成 只 有 一 个 磁道 ， 这 个 磁道 是 无 限 长 
的 直线 ， 忆 区 为 这 条 直线 上 的 等 长 线段 ， 从 1 开始 顺序 编号 ， 直 到 无 限 
远 。 显 然 ， 这 种 方式 屏蔽 了 柱 面 、 磁 头 这 些 复杂 的 东西 ， 问 外 提供 了 简 





单 的 方式 ， 所 以 非常 利于 编程 。 然 而 磁盘 中 的 控制 电路 依然 要 找到 茶 个 
LBA 地 址 到 底 对 应 着 哪个 磁道 哪个 磁头 上 的 哪个 户 区 ， 这 种 对 应 关系 保 
存在 磁盘 控制 电路 的 ROM 和 已 片 中 ， 磁 盘 初 始 化 的 时 候 载 入 缓存 中 以 便 
随时 查询。 


注意 : 基于 CHS 编 址 方式 的 磁盘 最 大 容量 

磁头 数 〈Heads) 表示 硬盘 总 共有 几 个 磁头 ， 也 惑 是 有 几 面 盘 
片 ， 最 大 为 255〈 用 8 个 二 进 制 位 存储 ) 。 

柱 面 数 〈《Cylinders) 表示 人 硬盘 每 一 面 盘 片上 有 多 少 条 人 磁道， 最 
大 为 1023〈 用 10 个 二 进 制 位 存储 ) 。 届 区 数 〈Sectors) 表示 每 
一 条 磁道 上 有 多 少 必 区 ， 最 大 为 63 (用 6 个 二 进 制 位 存储 〉。 
每 个 局 区 一 般 是 512B， 理 论 上 讲 这 不 是 必须 的 。 目 前 很 多 大 型 
磁盘 阵列 所 使 用 的 硬盘 ， 由 于 阵列 控制 恬 需 要 做 一 些 诸如 校 验 
言 息 之 类 的 特殊 存储 ， 这 些 磁 盘 都 被 格式 化 为 每 而 区 520B。 

如 果 按 照 每 而 区 512B 来 计算 ， 磁 盘 最 大 容量 为 
255x1023x63x512/1048576 王 8024MB (1MB= 三 1048576 B) 。 
这 束 是 所 谓 的 8GB 容 量 限制 的 原因 。 但 是 随 着 技术 的 不 断 砾 
展 ，CHS 地 址 的 位 数 在 不 断 增加 ， 上 所 以 可 寻 址 容量 也 在 不 断 增 
加 。 

提示 : ”磁盘 驱动 器 内 怎样 放下 255 个 磁头 呢 ? 这 是 不 可 能 的 。 
目前 的 硬盘 一 般 可 以 有 1 盘 片 、2 租 片 或 者 4 盘 片 ， 这 样 就 对 应 
者 2、4 磁 头 或 者 8 磁头 。 那 么 这 样 算 来 ， 硬 盘 实 际 容量 一 定 小 
于 8GB 了? 显然 不 是 这 样 的 。 所 谓 255 个 磁头 ， 这 只 是 一 个 逻 
辑 上 的 说 法 ， 实 际 的 磁头 、 磁 道 、 虱 区 等 信息 都 保存 在 硬盘 控 
制 电 路 的 ROM 心 族 中 。 而 每 条 磁道 上 真 的 最 多 只 有 64 个 而 区 
么 ?当然 也 不 是 ， 一 条 磁道 上 实际 的 而 区 数 远 远大 于 64， 这 样 
就 分 扒 了 磁头 数 实际 少 于 255 个 所 产生 的 “容量 减 小 ”>。 所 以 ， 






































这 是 CHS 编 址 方式 沿袭 了 老 的 传统 ， 不 愿意 去 作 修改 导致 的 。 
而 这 种 沿 儿 达到 了 极限 之 后 ， 最 终 导 仅 LBA 编 址 方式 蔡 代 了 
CHS 编 址 方式 。 





头 标 中 还 包括 一 个 字段 ， 其 中 有 显示 届 区 是 否 能 可 徘 存储 数据 ， 或 
者 是 已 及 现 菜 个 故障 因而 不 宜 使 用 的 标记 。 有 些 人 硬盘 控制 混在 届 区 头 标 
中 还 记录 有 指示 字 ， 可 在 原 忆 区 出 错时 指引 磁头 跳 转 到 符 换 书 区 或 磁 
道 。 最 后 ， 忆 区 头 标 以 循环 元 余 校 验 CRC 值 作为 结束 ， 以 供 控制 器 检验 
而 区 头 标 的 读 出 情况 ， 确 保 准 确 无 误 。 


2) 鹿 区 编号 和 交叉 因子 








给 扇 区 编号 的 最 简单 方法 是 采用 1]、2、3、4、5、6 等 顺序 编号 。 如 
果 鹿 区 按 顺序 绕 着 磁道 依次 编号 ， 那 么 磁盘 控制 电路 在 处 理 一 个 届 区 的 
数据 期 间 ， 可 能 会 因为 磁盘 旋转 太 快 ， 没 等 磁头 反应 过 来 ， 己 经 超过 局 
区 间 的 间隔 而 进入 了 下 一 个 忆 区 的 头 标 部 分 ， 则 此 时 磁头 知 想 读 取 这 个 
局 区 的 记录 ， 就 要 再 等 一 圈 ， 等 到 盘 片 旋转 回来 之 后 再 次 读 写 ， 这 个 等 
待 时 间 无 疑 是 非常 浪 综 的 。 

















显然 ， 要 解决 这 个 问题 ， 靠 加 大 局 区 间 的 间隔 是 不 现实 的 ， 那 会 浪 
费 许 多 磁盘 空间 。 许 多 年 前 ，IBM 的 一 位 杰出 工程 师 想 出 了 一 个 绝妙 的 
办 法 ， 即 对 局 区 不 使 用 顺序 编号 ， 而 是 使 用 一 个 交叉 因 了 于 〈Interleave ) 
进行 编号 。 交 叉 因子 用 比值 的 方法 来 表示 ， 如 3 : 1 表示 磁道 上 的 第 1 个 
届 区 为 1 号 届 区 ， 跳 过 两 个 届 区 即 第 4 个 局 区 为 2 写 厨 区， 这 个 过 程 持 续 
下 去 直到 给 每 个 物理 而 区 编 上 逻辑 号 为 目 。 

















例如 ， 每 磁道 有 17 个 书 区 的 磁盘 按 2 : 1 的 交叉 因子 编号 就 是 ]、 
10、2、11、3、12、4、13、5、14、6、15、7、16、8、17、9; 而 按 





3 : 1 的 交叉 因子 编号 就 是 l、7、13、2、8、14、3、9、15、4、10、 
16、5、11、17、6、12。 当 设置 1 : 1 的 交叉 因子 时 ， 如 果 硬 盘 控 制 器 处 
理 信 息 足 够 快 ， 那 么 读 出 磁道 上 的 全 部 扇 区 只 需要 旋转 一 周 。 但 如 果 硬 
盘 控制 器 的 处 理 动作 没有 这 人 么 快 ， 则 只 有 磁盘 所 转 的 圈 数 等 于 针对 这 个 
磁道 的 交叉 因子 时 ， 才 能 读 出 每 个 磁道 上 的 全 部 数据 。 将 交叉 因子 设 定 
为 2 : 1 时 ， 磁 头 要 读 出 磁道 上 的 全 部 数据 ， 磁 盘 只 需 转 两 周 。 如 果 2 : 1 
的 交叉 因子 仍 不 够 慢 ， 这 时 可 将 交叉 因子 调整 为 3 : 1， 如 图 3-6 所 示 。 








图 3-6 所 示 是 典型 的 MFM (Modified Frequency Modulation， 改 进 型 
调频 制 编码 〉 硬盘， 每 磁道 有 17 个 刷 区 ， 男 出 了 用 三 种 不 同 的 局 区 交叉 
因子 编号 的 情况 。 最 外 圈 的 磁道 (0 号 柱 面 ) 上 的 扇 区 用 简单 的 顺序 连 
续 编号 ， 相 当 于 扇 区 交叉 因子 是 1 : 1。1 号 磁道 ( 柱 面 ) 的 扇 区 按 2 : 1 
的 交叉 因子 编号 ， 而 2 号 磁道 的 而 区 按 3 : 1 的 交叉 因子 编号 。 























图 3-6 ”MFM 改进 型 交 又 因子 示意 图 





在 早期 的 硬盘 管理 工作 中 ， 设 置 交 叉 因 子 需要 用 户 目 己 完成 。 用 
BIOS 中 的 低级 格式 化 程序 对 硬盘 进行 低级 格式 化 时 ， 就 需要 指定 交叉 
因子 ， 有 时 还 需要 设置 儿 种 不 同 的 值 来 比较 其 性 能 ， 而 后 确定 一 个 比较 
好 的 值 。 现 在 的 硬盘 BIOS 已 经 自己 解决 了 这 个 问题 ， 所 以 一 般 低级 格 
式 化 程序 中 就 不 再 提供 这 一 设置 选项 了 。 





系统 将 文件 存储 到 磁盘 上 时 ， 是 按 柱 面 、 磁 头 、 书 区 方式 进行 的 ， 
即 最 先是 第 1 磁道 的 第 1 磁 尖 下 也 就 是 第 1 盘面 的 第 一 磁道 ) 所 有 的 司 
区 ， 然 后 是 同一 柱 面 的 下 一 磁头 ， 直 到 整个 柱 面 都 存 满 。 系 统 也 是 以 相 
同 的 顺序 去 读 出 数据 。 读 数据 时 通过 告诉 磁盘 控制 器 要 读 出 数据 所 在 的 
柱 面 号 、 磁 头号 和 扇 区 号 《物理 地 址 的 三 个 组 成 部 分 ) 进行 读 取 “【 现 在 
都 是 直接 使 用 LBA 地 址 来 告诉 磁盘 所 要 读 写 的 而 区 )〉 。 破 盘 控制 电路 则 


直接 将 磁头 部 件 步 进 到 相应 的 柱 面 ， 选 中 相应 磁头 ， 然 后 立即 读 取 当 前 
磁头 下 所 有 的 书 区 头 标 地 址 ， 然 后 把 这 些 头 标 中 的 地 址 信息 与 期 符 检 出 
的 磁 尖 和 柱 面 号 做 比较 。 如 果 不 是 要 读 写 的 司 区 写 则 读 取 刷 区 涉 标 地 址 
进行 比较 ， 直 到 相同 以 后 ， 控 制 电 路 知道 当前 磁头 下 的 司 区 束 是 要 读 写 
的 届 区 ， 然 后 立即 让 磁头 读 写 数 据 。 











如 果 是 读数 据 ， 控 制 电 路 会 计算 此 数据 的 ECC 码 ， 然 后 把 ECC 码 与 
已 记录 的 ECC 人 码 相 比较 ;如 果 是 写 数据 ， 控 制 电路 会 计算 出 此 数据 的 
ECC 人 码 ， 存 储 到 数据 部 分 的 末尾 。 在 控制 电路 对 此 届 区 中 的 数据 进行 必 
要 的 处 理 期 间 ， 磁 盘 会 继续 旋转 。 由 于 对 信息 的 后 处 理 需 要 耗费 一 定 的 
时 间 ， 在 这 段 时 间 内 磁盘 可 能 已 旋转 了 相当 的 角度 。 


交叉 因子 的 确定 是 一 个 系统 级 的 问题 。 一 个 特定 的 硬盘 驱动 器 的 区 
又 因子 取决 于 磁盘 控制 器 的 速度 、 主 板 的 时 钟 速度 、 与 控制 电路 相连 的 
输出 总 线 的 操作 速度 等 。 如 宁 磁 盘 的 交叉 因 于 值 太 高 ， 就 需要 多 人 花 一 些 
时 间 等 竺 数据 在 磁盘 上 存 入 和 读 出 ， 相 反 ， 交 叉 因 子 值 太 低 也 同样 会 影 
啊 性 能 。 








前 面 已 经 说 过 ， 系 统 在 磁盘 上 写 入 信息 时 ， 写 满 一 个 磁道 后 会 转 到 
同一 柱 面 的 下 一 个 磁头 ， 当 柱 面 写 满 时 ， 再 转 问 下 一 柱 面 。 从 同一 盘面 
的 一 个 磁道 转 到 为 一 个 磁道 ， 也 就 是 从 一 个 柱 面 转 到 下 一 个 柱 面 ， 这 个 
动作 叫做 换 道 。 在 换 道 期 间 磁 盘 始 终 保 持 旋 转 ， 这 就 会 带 来 一 个 问题 : 
假定 系统 刚刚 结束 了 对 一 个 磁道 前 一 个 山区 的 写 入 ， 并 且 已 经 设置 了 最 
佳 交 义 因 子 比值 ， 现 在 准备 在 下 一 磁道 的 第 一 届 区 写 入 ， 这 时 必须 等 到 
磁头 换 道 结束 ， 让 磁头 部 件 重 新 定位 在 下 一 道上 。 如 宁 这 种 操作 占用 的 
时 间 超 过 了 一 点 ， 尽 管 是 交叉 存 取 ， 磁 头 仍 会 延迟 到 达 。 这 个 问题 的 解 
决 办 法 是 以 原先 磁道 所 在 位 置 为 基准 ， 把 新 的 磁道 上 全 部 出 区 号 移动 约 
一 个 或 几 个 山区 位 置 ， 这 就 是 磁 尖 扭 佟 。 人 磁 尖 扭 斜 可 以 理解 为 柱 面 与 柱 




















面 之 间 的 交叉 因 了 于 ， 已 经 由 生产 广 家 设置 好 ， 一 般 不 用 去 改变 它 。 磁 头 
扭 斜 的 更 改 比 较 困 难 ， 但 是 它们 只 在 文件 很 长 、 超 过 磁道 结尾 进行 读 出 
和 写 入 时 才 发 挥 作用 ， 所 以 扭 料 设置 不 正确 所 带 来 的 损失 比 采 用 不 正确 
的 面 区 交叉 因子 值 带 来 的 损失 要 小 得 多 。 交 叉 因 了 于 和 磁头 扭 料 可 用 专用 
工具 软件 来 测试 和 更 改 ， 更 具体 的 内 容 这 里 就 不 再 详 述 了 ， 毕 兑现 在 很 
多 用 户 都 没有 见 过 这 些 参数 。 





提示 : 最初 ， 硬 盘 低级 格式 化 程序 只 是 行使 有 关 磁 盘 控 制 需 
的 专门 职能 来 完成 设置 任务 。 由 于 这 个 过 程 可 能 会 破坏 低级 格 
式 化 的 磁道 上 的 全 部 数据 ， 现 在 也 极 少 采 用 了 。 


而 区 号 存储 在 虱 区 头 标 中 ， 局 区 交叉 因 了 于 和 磁头 扭 斜 的 信息 也 存放 
在 这 里 。 





而 区 交叉 因子 由 写 入 到 书 区 头 标 中 的 数字 设 定 ， 所 以 ， 每 个 磁道 可 
以 有 目 己 的 交叉 因 了 于 。 在 大 多 数 驱 动 器 中 ， 所 有 磁道 都 有 相同 的 交叉 因 
子 。 但 有 时 因为 操作 上 的 原因 ， 也 可 能 导致 各 磁道 有 不 同 的 山区 交叉 因 
子 。 比 如 在 交叉 因子 重 置 程序 工作 时 ， 由 于 断 电 或 人 为 中 断 就 会 造成 一 
些 磁道 的 交叉 因 子 发 生 了 改变 ， 而 男 一 些 磁道 的 交叉 因子 没有 改变 。 这 
种 不 一 致 性 对 计算 机 不 会 产生 不 利 影响 ， 只 是 有 最 佳 交 叉 因 子 的 磁道 要 
比 其 他 磁道 的 工作 速度 更 快 。 

















3.1.2 ”硬盘 控制 电路 简介 


了 解 了 磁盘 的 结构 之 后 ， 知 道 磁盘 是 靠 磁性 子 来 存放 数据 的 ， 有 人 
会 问 ， 一 个 磁性 子 到 底 是 什么 概念 ? 是 一 个 磁性 分 子 么 ? 不 是 ， 这 
个 “ 子 "的 概念 是 指 一 个 区 域 ， 这 个 区 域 存在 若干 磁性 分 子 ， 这 些 分 子 到 
集 到 一 起 ， 直 到 磁头 可 以 感觉 到 它 的 磁性 为 止 。 所 以 和 磁带 一 样 ， 磁 记 


录 追 根 到 底 束 是 利用 线性 中 的 段 。 根 据 这 一 段 区 域 上 的 一 片 分 子 是 N 极 
还 是 $S 极 ， 然 后 将 其 转换 成 电信 号 ， 也 就 产生 了 字 节 ， 从 而 记录 了 数 
据 。 当 然 只 有 存储 介质 还 远 远 不 够 ， 人 被 写 入 ， 还 
要 有 足够 的 速度 和 稳定 性 满足 人 们 的 需求 ， 这 就 需要 配套 的 电路 了 。 


J 7 给 出 一 个 完整 详细 的 硬盘 电路 示意 框图 。 硬 盘 电 路 由 14 个 


图 3-7 硬盘 控制 电路 示意 图 








ms Buffer Memory: 绥 冲 区 存储 器 。 

Interface Controller: 接口 控制 右 

m Micro-processor: 微 控制 器 ， 缩 写 为 MCU。 

mn PRML: Partial-Response Maximum-Likelihood Read Channel。 
sa Timing ASIC: 时 间 控 制 专用 集成 电路 。 

ms Servo Demodulator: 伺服 解 调 堪 。 

sm Digital Signal Processor (DSP) : 数字 信号 处 理 器 。 
sn Preamp: 预 放大 右 。 

sm Positioning Driver: 定位 驱动 器 。 

sn VCM (Voice Coil Motor) : 音 圈 电动 机 。 

s _ Magnetic Media Disk: 磁 介 质 盘 片 。 

sn Spindle Motor: 主轴 电机 。 

ms Spindle Driver: 主轴 驱动 器 。 

s Read/Write Head: 读 / 写 磁头 。 





实际 电路 不 会 有 这 么 多 一 片 一 片 的 独立 公 睛 ， 人 硬盘 生产 广 家 在 设计 
电路 时 都 是 选取 高 度 集成 的 IC 必 片 ， 这 样 既 减 小 了 体积 又 提高 了 可 靠 
性 。 当 然 这 也 正 是 芯片 广 商 努 力 的 目标 。 








大 家 可 以 看 到 图 3-7 中 的 Spindle Driver 与 Positioning Driver 这 两 部 分 
用 虚线 圈 了 起 来 ， 并 且 标 注 了 Servo/MSC Controller Combination 字 样 。 
其 中 MSC 是 Motor Speed Control 的 缩写 ， 意 思 是 伺服 /电机 速度 控制 需 
组 合 。 我 们 现在 能 看 到 的 硬盘 电路 板 中 就 有 这 样 一 块 合并 心 片 。 


3.1.3 ”磁盘 的 IO 单位 








到 此 ， 大 家 应 该 对 磁盘 的 构造 有 所 理解 了 。 磁 盘 读 写 的 时 候 都 是 以 
而 区 为 最 小 寻 址 单位 的 ， 也 惑 是 说 不 可 能 往 某 某 耐 区 的 前 半 部 分 写 入 茶 
菏 数 据 。 一 个 忆 区 的 大 小 是 512B， 每 次 磁头 连续 读 写 的 时 候 ， 只 能 以 虱 
区 为 单位 ， 即 使 一 次 只 写 了 一 个 字 节 的 数据 ， 那 么 下 一 次 就 不 能 再 网 这 
个 而 区 剩余 的 部 分 接着 写 入 ， 而 是 要 寻找 一 个 空 而 区 来 写 。 


注意 : 对 于 磁盘 来 襄 ， 一 次 人 磁头 的 连续 读 或 者 写 叫做 一 次 
IO。 请 注意 这 里 的 措辞 :“ 对 于 磁盘 来 说 ”。 

提示 : 目前 4KB 大 小 扇 区 的 硬盘 已 经 发 布 。 因 为 操作 系统 的 
Page、 文 件 系 统 的 Block 一 般 都 是 4KB 大 小 ， 所 以 硬盘 局 区 
512B 的 容量 一 直 为 业界 所 诉 病 。 将 而 区 容量 与 上 层 的 单位 匹 
配 ， 可 以 大 大 提高 效率 。 











IO 这 个 概念 ， 充 分 理解 就 是 输入 输出 。 我 们 知道 从 最 上 层 到 最 下 
层 ， 层 次 之 间 存 在 着 太 多 的 接口 ， 这 些 接口 之 间 每 次 交互 都 可 以 称 做 一 
次 ID， 也 就 是 广义 上 的 IO。 比 如 卷 管理 程序 对 磁盘 控制 右 驱 动 程 序 API 
所 作 的 ID， 一 次 这 种 IO 可 能 要 产生 针对 磁盘 的 N 个 IO0， 也 就 是 说 上 层 的 
IO 是 稀 牙 的、 简单 的 ， 越 往 下 层 走 越 密集 、 越 复杂 。 














除了 卷 管理 程序 之 外 ， 凌 轰 于 卷 管理 之 上 的 文件 系统 对 卷 的 IO， 就 
比 卷 更 稀疏 简单 了 。 同 样 ， 上 层 应 用 对 文件 系统 API 的 IO 更 加 简单 ， 只 


需 几 名 代码 、 几 个 调用 束 可 以 了 。 比 如 Open 〈) 某 个 文件 ，Seek 〈) 到 
某 个 位 置 ，Write 〈) 一 段 数据 ，Close〈) 这 个 文件 等 ， 就 是 一 次 IO。 

而 就 是 这 一 次 IO， 可 能 对 应 文件 系统 到 卷 的 N 个 IO， 对 应 卷 到 控制 器 驱 
动 的 NxN 个 IO， 对 应 控制 费 对 最 终 磁盘 的 NxNxN 个 IO。 上 总之， 人、 秀一 
次 IO 就 是 磁头 的 一 次 连续 读 或 者 写 。 而 一 次 连续 读 或 者 写 的 过 程 ， 不 管 
读 写 了 几 个 悄 区 ， 届 区 和 猎 余部 分 均 不 能 再 使 用 。 这 无 疑 是 比较 浪费 的 ， 

但 是 没有 办 法 ， 总 得 有 个 最 小 单位 。 


关于 最 小 单位 一 一 包 锡 赛跑 悖 论 


怨 在 兔子 前 面 100 米 ， 兔 子 的 速度 是 龟 的 10 倍 。 怨 对 兔子 说 : “我 们 
同时 起 跑 ， 你 沿 直 线 奶 我 ， 你 水 远 也 退 不 上 我 。” 这 个 结论 狐 一 看 ， 会 
觉得 充 唐 至 极 ! 可 是 怨 分 析 了 : “兔子 跑 到 100 米 我 当前 的 位 置 时 ， 我 同 
时 也 向 前 跑 了 10 米 。 然 后 兔子 跑 了 10 米 的 时 候 ， 而 我 同时 也 向 前 跑 了 1 
米 。 它 再 退 1 米 ， 而 我 又 跑 了 0.1 米 。 依 此 类 推 ， 兔 子 永远 退 不 上 我 。 大 
家 看 到 这 里 就 糊涂 了 ， 这 么 一 分 析 确 实 是 退 不 上 ， 但 事实 却 是 能 退 上 。 
那么 问题 出 在 哪里 呢 ? 


假如 兔子 的 速度 是 每 秒 100 米 ， 包 的 速度 每 秒 10 米 。 首 先 兔子 追 出 
100 米 时 ， 用 时 1 秒 ， 此 时 凶 在 兔子 前 方 10 米 处 。 然 后 兔子 再 追 出 10 米 ， 
用 时 0.1 秒 ， 此 时 钨 在 前 方 1 米 处 。 接 着 兔子 再 退出 1 米 ， 用 时 0.01 秒 ， 学 
过 小 学 算术 的 人 都 能 算出 来 ， 兔 子 掉 入 了 一 个 无 限 循环 小 数 中 ， 什 么 时 
候 结束 了 循环 ， 才 能 据 上 怨 。 那 么 这 就 迟 论 了 ， 小 数 是 无 限 循 环 的 ， 这 
到 底 是 多 少 秒 呢 ? 如 果 时 间 可 以 以 无 限 小 的 单位 延伸 ， 那 么 兔子 确实 永 
远 也 追 不 上 龟 。 虽 然 时 间 确 实 是 连续 的 ， 时 间 没 有 理由 不 连续 ， 时 间 是 
一 个 思想 中 的 概念 ， 时 间 不 是 物质 ， 所 以 时 间 是 唯一 能 连续 的 东西 ， 既 
然 时 间 是 无 限 的 、 连 续 的 ， 那 么 兔子 按理 说 追 不 上 龟 了 ， 但 是 事实 确实 








能 追 上 ， 但 有 一 个 元 素 我 们 忽略 了 ， 它 就 是 长 度 的 最 小 单位 ! 仔细 分 析 
一 下 ， 时 间 和 长 度 是 对 应 的 ， 时 间 可 以 无 限 小 ， 那 么 这 个 无 限 小 的 时 间 
也 应 该 对 应 无 限 小 的 长 度 ， 这 样 悖 论 到 这 里 就 解决 了 ! 因为 存在 一 个 长 
度 的 最 小 单位 ， 而 没有 无 限 小 ! 也 就 是 说 ， 当 兔子 走 的 长 度 是 最 小 长 度 
时 凶 就 黔 驴 技 穷 了 ， 因 为 不 可 能 再 行走 比 这 长 度 更 小 的 距离 了 ， 那 么 倪 
子 自然 就 超过 了 龟 。 而 这 个 时 间 是 很 短暂 的 ， 它 发 生 在 有 限时 间 点 上 。 
至 于 这 个 最 小 长 度 ， 据 说 有 人 计算 出 来 了 ， 它 可 能 是 一 个 原子 的 长 度 ， 
也 可 能 比 这 还 小 。 目 前 看 来 ， 我 们 移动 的 时 候 ， 最 小 似乎 也 不 可 能 移动 
半 个 原子 的 距离 ! 











之 证 导论 (人 包 钢 赛跑 屠 论 ) 证 明了 ， 对 于 我 们 目前 可 观察 到 的 世界 
来 说 ， 是 有 一 个 最 小 距离 单位 的 。 如 末 我 们 以 这 个 结论 为 前 提 ， 残 可 以 
推翻 芝 库 迟 论 了 。 假 设 这 个 距离 最 小 单位 是 一 块 石头 的 长 度 。 开 始 ， 免 
子 在 乌 怨 后 面相 隔 2 块 石 头 的 距离 ， 同 样 免 子 的 速度 是 乌 怨 的 2 倍 ， 按 照 
量子 距离 理论 ， 这 个 2 倍速 度 ， 不 是 无 限 可 分 的 ， 那 么 我 们 表达 这 个 2 倍 
速 的 时 候 ， 应 该 这 么 说 : 兔子 每 前 进 2 块 石头 的 时 间 ， 马 怨 只 能 前 进 一 
块 石 头 的 距离 ， 而 不 可 能 前 进 半 块 石头 。 这 样 的 前 担 下 ， 连 小 学 生 都 可 
以 计算 兔子 何 时 追赶 上 马 怨 了 。 








3.2 ”磁盘 的 通俗 演绎 


想象 一 张 很 大 很 大 的 白 纸 ， 你 要 在 上 和 面 写 日 记 。 当 你 写 满 这 张 白 纸 
之 后 ， 如 果 东 天 想 奏 看 菏 条 日 记 ， 无 疑 将 是 个 置 梦 ， 因 为 白 纸 上 没有 任 
何 格子 或 行 分 割 线 等 ， 你 只 能 通过 一 行 一 行 地 读 取 日 记 ， 搜 索 你 要 奏 看 
的 那 条 记录 。 如 果 给 白 纸 打上 格子 或 行 分 割 线 ， 那 么 不 但 书写 起 来 不 会 
凑 乱 ， 而 且 还 工整 。 











那么 对 于 一 张 上 面 布 满 磁 性 介质 的 盘 片 来 说 ， 想 要 在 它 上 面 记录 数 
据 ， 如 果 不 给 它 打 格 子 划 线 的 话 ， 无 疑 就 无 法 达到 块 级 的 记录 。 所 以 在 
使 用 之 前 ， 需 要 将 其 低级 格式 化 ， 也 就 是 划分 鹿 区 《格子 ) 。 我 们 见 过 
稿 纸 ， 上 面 的 格子 是 方形 阵列 排 布 的 ， 原 因 很 简单 ， 因 为 稿 纸 是 方形 
的 。 那 么 对 于 圆 形 来 说 ， 格 子 应 该 怎么 排 布 呢 ? 答案 是 同心 圆 排 布 ， 一 
个 同心 圆 〈 磁 道 ) ， 就 类 似 于 稿 纸 上 的 一 行 ， 而 这 一 行 之 内 又 可 以 排列 
上 很 多 格子 〈 届 区) 。 每 个 盘 户 上 的 行 密度 、 每 行 中 的 格子 〈 刷 区) 密 
度 部 有 标准 来 规定 ， 束 像 稿 纸 一 样 。 





我 们 把 稿 纸 放 入 打印 机 。 打 印 机 的 打印 头 按 照 格子 的 距离 精确 地 做 
独 位 移 ， 并 不 停 地 喷 出 墨水 ， 将 字体 打 入 纸张 上 的 格子 里 。 一 旦 一 行 打 
满 ， 走 纸 轮 精确 地 将 稳 纸 位 移 到 下 一 行 ， 打 印 头 在 这 一 行 上 水 平 位 移 打 
满 格子 。 走 纸 轮 竖 直 方 问 位移， 打印 头 水 平方 癌 位 移 ， 形 成 了 方形 扫描 
阵列 ， 能 够 定位 到 整 张 纸 上 的 每 个 格子 。 








同样 ， 把 圆 形 盘 片 安装 到 一 个 电机 《“ 走 纸 轮 ) 上 ， 然 后 在 盘 片 上 方 
加 一 个 磁头 《打印 喷头 ) 。 但 是 和 打印 机 不 同 的 是 ， 做 换行 这 个 动作 不 
是 由 走 纸 轮 来 完成 ， 而 是 由 磁头 来 完成 ， 称 做 径 半径》 疝 扫 描 ， 也 就 
是 在 不 同 同心 贺 上 作 切 换 ( 换 行 )。 同 样 作 行内 扫描 这 个 动作 是 由 电机 





( 走 纸 轮 ) 而 不 是 磁头 《打印 头 ) 来 完成 ， 称 做 线 扫描 《〈 沿 独 同 心 圆 的 
圆周 进行 扫描 〉。 





形成 这 种 角色 倒置 的 原因 ， 很 显然 是 由 圆 形 的 特殊 性 决定 的 。 作 圆 
周 运动 毕竟 比 作 水 平 紧 直 运动 要 复杂 ， 如 果 让 磁头 沿 着 同心 圆 作 线 扫 
描 ， 则 需要 将 磁头 放 在 一 个 可 以 旋转 的 部 件 上 ， 此 时 磁头 动 而 盘 片 不 
动 ， 可 以 达到 相同 的 目的 ， 但 是 技术 难度 就 复杂 多 了。 因为 磁头 上 有 电 
路 连接 着 磁 头 和 必 片 。 如 宁 让 磁头 高 速 旋转 ， 磁 头 动 而 必 片 不 动 ， 电 路 
的 连通 性 怎么 保证 ? 不 如 让 盘 片 转动 来 得 干脆 利索 。 








和 打印 机 一 样 ， 定 位 到 某 个 特定 的 格子 之 后 ， 磁 头 开 始 用 磁性 来 对 
这 个 格子 中 的 每 个 磁 粒 子 区 做 磁化 操作 ， 每 个 磁极 表示 一 个 0 或 者 1 状 
态 。 每 个 格子 规定 可 以 存放 4096 位 这 种 状态 ， 也 就 是 512B (很 多 供 大 型 
机 使 用 的 磁盘 阵列 上 的 磁盘 是 用 520B 为 一 个 扇 区 ) 。 这 就 像 打印 机 在 一 
个 格子 再 次 细 分 ， 形 成 24x24 点 阵 ， 每 个 坐标 上 的 一 个 点 都 对 应 一 种 色 
彩 。 只 不 过 对 于 磁盘 来 说 只 有 0 或 者 1， 而 对 于 打印 机 来 说 ， 可 以 是 各 种 
色彩 中 的 一 种 (黑白 打印 机 也 只 有 黑 或 者 白 两 种 状态 〉。 





磁盘 的 扇 区 中 没有 点 阵 ， 一 个 忆 区 可 以 看 作 是 线性 的 。 它 没有 宽 ， 
只 有 长 ， 记 录 是 顺序 的 ， 不 能 像 打印 机 那样 可 以 定位 到 忆 区 中 的 某 个 
点 。 然 而 ， 磁 盘 比 打印 机 有 先天 的 优势 。 打 印 机 上 只 能 从 头 到 尾 打印 ， 而 
且 打 印 之 后 不 能 更 改 。 磁 盘 却 可 以 对 任意 的 格子 进行 号 入 、 读 取 和 更 改 
等 操作 。 打 印 机 的 走 纸 轮 和 打印 喷头 移动 起 来 很 慢 ， 而 且 嘎 嘎 作 啊 ， 听 
了 都 费劲 。 而 磁盘 的 转速 则 快 很 多 ， 目 前 可 以 达到 每 分 钟 15000 转 。 磁 
头 的 位 移动 作 也 非常 快 ， 它 使 用 步 进 电机 来 精确 地 换行 ( 换 磁 道 ) 。 但 
是 相对 于 盘 片 的 转动 而 言 ， 步 进 的 速度 就 慢 多 了 ， 所 以 制约 磁盘 性 能 的 
主要 因素 就 是 这 个 步 进 速度 换行 或 者 换 道 速 度 ) ， 也 就 是 寻 道 速 ) 




















如 果 从 最 内 同心 圆 换 到 最 外 同心 圆 ， 耗 费 的 时 间 无 疑 是 最 长 的 。 目 
前 磁盘 的 平均 寻 道 速度 最 高 可 以 达到 5ms 多 ， 不 同 磁 盘 的 寻 道 速度 不 
同 ， 普 通 IDE 磁 盘 可 能 会 超过 10ms。 有 了 这 个 磁盘 记录 模型 ， 我 们 就 该 
研究 怎么 将 这 个 模型 抽象 虚拟 化 出 来 ， 让 癌 磁 盘 写 数据 的 人 感觉 使 用 起 
来 非常 方便 。 残 像 打印 机 一 样 ， 点 一 下 打印 ， 一 会 纸 束 足 足 地 往外 冒 。 
下 面 还 是 要 一 层 一 层 地 来 做 ， 不 能 直接 就 抽象 到 这 么 高 的 层次 。 














站 和 完 ， 要 精确 寻 址 每 个 格子 束 一 定 需 要 给 每 个 格子 一 个 地 址 。 早 期 
的 磁盘 都 是 用 "“ 盘 片 ， 磁 道 ， 忆 区 ”来 寻 址 的 ， 一 个 磁盘 盒子 中 可 能 不 止 
一 片 盘 片 ， 就 像 一 但 稿 纸 中 有 好 几 张 纸 一 样 。 一 个 盘 片 上 的 茶 一 “ 行 " 也 
就 是 某 个 磁道 ， 应 该 可 以 再 区 分 。 一 个 磁道 上 的 某 个 恒 区 也 可 以 区 分 。 
到 这 ， 就 是 最 终 可 寻 址 的 最 小 单位 了 ， 而 不 能 再 精确 定位 到 一 个 书 区 中 
的 茶 个 点 了 。 破 头 只 能 顺序 地 写 入 或 者 读 取 出 这 些 点 ， 而 不 能 只 更 新 或 
者 读 取 其 中 菏 个 点 。 也 惑 是 说 磁头 只 能 一 次 成 批 写 入 或 者 读 取出 一 个 局 
区 的 内 容 ， 而 不 能 读 写 半 个 或 者 四 分 之 一 个 而 区 的 内 容 。 























后 来 的 扇 区 寻 址 体系 变 了 ， 因 为 后 来 的 磁盘 中 每 个 磁道 的 请 区 数目 
不 同 了 ， 外 圈 由 于 周 长 比 较 长 ， 所 以 容纳 的 悄 区 可 以 很 多 ,干脆 采用 了 
逻辑 地 址 来 对 每 个 户 区 编 址 ， 将 具体 的 盘 片 、 人 磁道 和 户 区 ， 抽 象 成 
LBA (Logical Block Address， 顺 序 编 址 ) 。LBA1 表 示 0 号 极 片 0 号 人 磁道 
的 0 号 扇 区 ， 依 此 类 推 ，LBA 地 址 到 实际 的 盘 片 、 磁 道 和 扇 区 地 址 的 映 
射 工作 由 磁盘 内 部 的 逻辑 电路 来 查询 ROM 中 的 对 应 表 而 得 到 ， 这 样 就 
完成 了 物理 地 址 到 逻辑 地 址 的 抽象 、 虚 拟 和 映射 。 

















寻 址 问题 解决 之 后 ， 就 应 该 考虑 怎么 同 磁 盘 及 送 需 要 写 入 的 数据 
了 。 针 对 这 个 问题 ， 人 们 抽象 出 一 套 接 口 系统 ， 专 门 用 于 计算 机 和 其 外 
设 交 互 数 据 ， 称 为 SCSI 接 口 协议 ， 即 小 型 计算 机 系统 接口 。 


下 面 举 个 例子 来 说 明 ， 比 如 茶 时 刻 要 问 磁 盘 写 入 512B 的 数据 ， 磁 盘 
控制 器 先 回 磁盘 太一 个 命令 ， 表 明 要 准备 做 IO 操 作 了， 而 且说 明了 附带 
参数 《是 人 否 月 用 破 盘 缓存 、 完 成 后 是 否 中 断 通 知 CPU 等 ) ， 磁 盘 应 答 说 
可 以 进行 ， 控 制 器 立即 将 所 要 IO 的 类 型 〈 读 / 写 ) 和 局 区 的 起 始 地 址 以 
及 随后 忆 区 的 数量 《长度 ) 发 送 给 人 磁盘， 如 末 是 写 IO， 则 随后 还 要 将 雷 
要 写 入 的 数据 友 送 给 人 磁盘， 磁盘 将 这 块 数据 顺序 写 入 先前 通告 的 忆 区 
中 。 








提示 : 新 的 SCSI 标 准 中 有 一 种 促进 IO 效率 的 新 的 方式 ， 即 
Skip Mask IO 模式 。 如 果 有 两 个 IO， 二 者 IO 的 目标 扇 区 段 被 隔 
开 了 一 小 段 ， 比 如 第 一 个 写 IO 的 目标 为 从 1000 开 始 的 随后 128 
扇 区 ， 第 二 个 写 IO 的 目标 则 为 1500 开 始 的 随后 128 扇 区 ， 可 以 
合并 这 两 个 IO 为 一 个 针对 1000 开 始 的 随后 628 个 扇 区 的 IO 。 控 
制 器 将 这 条 指令 下 发 到 磁盘 之 后 ， 还 会 立即 发 送 一 个 Mask 
帧 ， 这 个 帧 中 包含 了 一 串 比 特 流 ， 每 一 位 表示 一 个 局 区 ， 此 位 
为 1， 则 表示 进行 该 扇 区 的 IO， 为 0， 则 表示 跨 过 此 扇 区 ， 不 进 
行 IO。 这 样 ， 多 了 这 串 很 小 的 比特 流 ， 却 能 省 下 一 轮 额 外 的 IO 
开销 。 

SCSI 接 口 完 成 了 访问 磁盘 过 程 的 虚拟 化 和 抽象 ， 极 大 的 简化 了 
访问 磁盘 的 过 程 ， 它 屏蔽 了 磁盘 内 部 结构 和 录 辑 ， 使 得 控制 器 
只 知道 LBA 是 一 个 房间 ， 有 什么 数据 就 给 出 地 址 ， 然 后 磁盘 就 
会 将 数据 写 入 这 个 地 址 对 应 的 房间 ， 读 取 操 作 也 一 样 。 














3.3 ”磁盘 相关 局 层 技术 
3.3.1 ”磁盘 中 的 队列 技术 


想象 有 一 个 包含 10000 个 同心 圆 的 转盘 在 旋转 ， 现 在 有 两 个 人 在 转 
盘 外 面 ， 有 一 个 机 械 手 臂 可 以 将 物体 放 到 任何 一 个 同心 圆 上 去 。 现 在 ， 
第 一 个 人 想到 半径 最 小 的 同心 圆 上 去 ， 而 另外 一 个 人 却 想 到 半径 最 大 的 
同心 圆 上 去 ， 这 可 让 机 械 手 臂 犯 了 难 ， 机 械 手臂 只 能 按照 顺序 ， 先 照顾 
第 一 个 人 的 要 求 。 它 首先 寻 道 到 最 内 侧 同 心 贺 ， 然 后 转盘 旋转 到 待定 位 
置 后 将 这 个 人 放 到 轨道 上 ， 随 后 立即 驱动 磁头 臂 到 最 外 侧 的 圆 ， 再 将 第 
二 个 人 放 上 去 。 这 期 间 的 主要 时 间 都 用 于 从 内 侧 到 外 侧 的 换 逢 过 程 了 ， 
非常 浪费 。 











这 只 是 两 个 人 的 情况 ， 那 么 如 果 有 多 个 人 ， 比 如 3 个 人 先后 告诉 机 
械 手 句 ,第 一 个 人 说 要 放 到 最 内 侧 的 加 上 ， 第 二 个 人 说 要 放 到 最 外 侧 的 
圆 上 ， 第 三 个 人 要 放 到 最 内 侧 的 圆 上 。 


如 果 这 时 候 机 械 手 臂 还 是 按照 顺序 来 操作 ， 那 么 中 间 就 会 多 了 一 次 
无 谓 的 换 道 操作 ， 极 其 浪费 。 所 以 机 械 手 辟 自 作 主 张 ， 在 送 完 第 一 个 人 
后 ， 它 没有 立即 处 理 第 二 个 人 的 请 求 ， 而 是 在 脑海 中 算计 ， 它 看 第 三 个 
人 也 要 求 到 内 侧 贺 上 ， 而 它 自己 此 时 也 恰好 正在 内 侧 加 上， 何不 趁 此 捐 
带 第 三 个 人 呢 ?” 所 以 磁头 跳 过 第 三 个 人 的 请 求 ， 先 把 第 三 个 人 送 到 目的 
地 ， 然 后 再 换 道 送 第 二 个 人 。 


因为 磁头 算计 用 的 时 间 比 来 回 换 道 快 得 多 ， 所 以 这 种 排队 技术 大 大 
提高 了 读 写 效率 。 这 种 例子 还 有 很 多 ， 比 如 电梯 就 是 个 很 好 的 例子 。 实 
现 队列 功能 的 程序 控制 代码 是 存放 在 磁盘 控制 电路 区 片 中 的 ， 而 不 是 主 





板 上 的 磁盘 控制 器 上 。 也 就 是 说 ， 由 控制 大 发 给 磁盘 指令 ， 然 后 由 磁盘 
目 己 的 DSP 固 化 电路 或 者 由 磁盘 上 的 微 处 理 器 载 入 代码 从 而 执行 指令 排 
队 功能 。 


但 是 一 个 巴 和 擎 拍 不 啊 ， 排 队 必 须 也 要 由 磁盘 控制 右 来 文 持 ， 所 谓 的 
文 持 束 是 说 ， 如 果 人 磁盘 擅 目 排队 ， 不 按照 控制 怖 发 送 过 来 的 顺序 一 条 一 
条 执行 指令 ， 则 在 读 出 数据 之 后 ， 由 于 步调 和 控制 磺 期 望 的 不 一 致 ， 预 
先 读 出 的 数据 只 能 先 存 放 到 磁盘 驱动 句 的 缓存 中 ， 等 符 控 制 句 主动 来 
取 。 因 为 控制 器 给 磁盘 发 送 的 读 写 数据 的 指令 ， 有 可 能 是 有 先后 顺序 
的 ， 如 采 磁 盘 擅 目 做 了 排队 ， 将 后 来 发 送 的 指令 首先 执行 ， 那 么 读 出 的 
数据 就 算 传送 给 了 磁盘 控制 器 ， 也 会 造成 错乱 。 











所 以 ， 要 实现 排队 技术 ， 仅 仅 有 磁盘 驱动 霹 目 身 是 不 够 的 ， 还 必须 
在 磁盘 控制 器 《〈 指 主板 上 的 磁盘 控制 ， 而 不 是 磁盘 本 身 的 控制 电路 ) 电 
路 中 国 化 代码 处 理 排 队 ， 和 磁盘 达成 一 致 。 或 者 不 使 用 固化 代码 方式 ， 
而 是 修改 磁盘 控制 费 驱 动 程 序 ， 加 入 处 理 排 队 的 功能 从 而 配合 磁盘 驱动 
器 。 


提示 :”Intel 在 WinHEC 2003 会 议 上 发 布 了 高 级 主机 控制 器 接口 
0.95 版 规范 (Advanced Host Controller Interface，AHCI) ， 为 
驱动 程序 和 系统 软件 提供 了 发 现 并 实施 命令 队列 、 热 插 拔 及 电 
源 管理 等 高 级 SATA 功 能 的 标准 接口 。 这 个 接口 就 是 在 新 的 控 
制 占 人 硬件 之 上 的 驱动 层面 提供 一 层 接口 ， 解 决 了 人 磁 副 控 制 器 不 
文 持 人 硬盘 驱动 器 自身 的 排队 这 个 问题 。 


3.3.2 ”无 序 传输 技术 
还 有 一 种 提高 磁盘 性 能 的 技术 ， 叫 做 无 序数 据 传 输 。 也 就 是 说 ， 控 





制 句 发 出 一 条 指令 要 求 读 取 茶 些 忆 区 中 的 内 容 ， 磁 盘 可 以 不 从 数据 所 在 
的 初始 忆 区 开始 读 ， 而 是 采取 融 近 原则 。 比 如 ， 磁 头 恰好 处 于 待 读 取 数 
据 的 尾部 ， 此 时 如 有 果 等 竺 磁盘 旋转 到 磁头 位 于 这 块 数 据 的 头 部 时 磁头 才 
开始 读 ， 那 么 就 要 等 一 圈 时 间 ， 也 惑 是 所 谓 的 “旋转 延迟 ”， 时 间 就 被 白 
日 地 浪费 了 。 如 末 磁 头 按 照 能 读 多 少 先 读 多 少 的 原则 ， 在 尾部 时 束 先 读 
出 尾部 的 数据 ， 然 后 立即 及 给 控制 占 ， 控 制 占 立即 通过 DMA 将 数据 放 
到 内 存 ， 等 磁盘 转 到 数据 块头 部 时 再 读 出 剩余 的 部 分 发 给 控制 器 ， 这 样 
束 避 免 了 时 间 的 浪费 。 然 而 ， 这 种 技术 同样 也 要 由 磁盘 控制 器 来 文 持 ， 
或 是 通过 控制 器 硬件 ， 或 是 通过 驱动 程序 。 








通过 指令 排队 和 无 序 传 送 可 以 最 大 化 利用 磁盘 资源 。 也 束 是 ， 把 麻 
烦 留 给 控制 项， 把 简单 留 给 磁盘 。 因 为 控制 右 的 处 理 速度 永远 比 磁盘 的 
机 械 运动 快 。 


3.3.3 ” 几 种 可 控 磁 头 扫描 方式 概论 
假设 目前 磁盘 控制 器 的 队列 中 存在 如 下 的 一 些 IO， 这 些 IO 所 需要 碍 


找 的 磁道 号 码 按照 先后 排列 顺序 为 98、183、37、122、14、124、65 和 
67， 而 当前 磁头 处 于 53 号 磁道 ， 磁 头 执行 寻 道 操作 有 以 下 几 种 模式 。 


1. FCFS (First Come First Serve ) 


在 FCFS 模 式 下 ， 磁 头 完全 按照 IO 进入 的 先后 顺序 执行 寻 道 操 作 ， 
即 从 53 号 磁道 跳 到 98 号 ， 然 后 到 183 号 ， 再 回 到 37 号 ， 依 此 类 推 。 可 以 
算出 在 这 个 例子 中 ， 此 模式 下 磁头 滑 过 的 磁道 总 数 为 640。 对 应 的 扫描 
图 如 图 3-8 所 示 。 














图 3-8 FCFS 模 式 扫描 图 





显然 ，FCFS 横 式 很 不 科学 ， 在 随机 IO 的 环境 中 严重 影响 IO 效率 。 


2. SSTF (Shortest Seek Time First ) 


在 SSTF 模 式 下 ， 控 制 融 会 优先 让 磁头 跳 到 离 当 前 磁 尖 位置 最 近 的 
一 个 10 磁道 去 读 写 ， 读 写 完毕 后 ， 再 次 跳 到 离 刚 读 写 完 的 这 个 磁道 最 近 
的 一 个 IO 磁 道 去 读 写 ， 依 此 类 推 。 在 SSTF 模 式 下 ， 这 个 例子 呈现 的 扫 


描 图 如 图 3-9 所 示 。 








图 3-9 ”SSTF 模 式 扫描 图 


本 例 中 ， 磁 头 初始 位 置 在 53 号 磁道 ， 如 果 此 时 IO 队 列 中 不 断 有 位 于 








53 号 磁道 周围 磁道 的 IO 进入 ， 比 如 55 号 、50 号 、51 号 磁道 等 ， 那 么 诸如 
183 写 这 种 离 53 写 人 磁道 较 远 的 IO0 将 会 被 饿 死 ， 永 远 也 轮 不 到 183 号 人 磁道 的 


IO。 所 以 SSTF 模 式 的 限制 也 是 很 大 的 。 


3. SCAN (回旋 扫描 模式 ) 

















这 种 扫描 方式 是 最 传统 、 最 经 典 ”四 310 SCAN 模式 和 
的 方式 了 。 它 类 似 于 电梯 模型 ， 从 一 


描 图 


端 到 夯 一 器， 然后 折返 ， 再 折返 ， 这 样 循 环 下 去 。 磁 头 从 最 内 侧 磁 道 依 





次 癌 外 图 磁 着 寻 道 。 然 而 束 像 电梯 一 样 ， 如 果 这 一 层 没 有 人 等 符 搭 乘 ， 
那么 磁头 就 不 在 本 层 停 止 。 也 融 是 次 如 果 当 前 队列 中 没有 菏 个 磁道 的 IO 
在 等 待 ， 那 么 磁头 吏 不 会 跳 到 这 个 磁道 上 ， 而 是 直接 略 过 去 。 但 是 

SCAN 模 型 中 ， 即 使 最 外 阁 或 者 最 内 圈 的 磁道 没有 IO， 磁 头 也 要 触及 到 
之 后 才能 折返 ， 这 就 像 50 米 往返 跑 一 样 ， 必 须 触 及 到 终点 线 才 能 折返 回 


去 。SCAN 模 式 的 扫描 图 如 图 3-10 所 示 。 


SCAN 模 式 不 会 狐 死 任何 IO， 每 个 IO 都 有 机 会 搭乘 磁头 这 个 电梯 。 
然而 ，SCAN 模 式 也 会 带 来 不 必要 的 开销 ， 因 为 磁头 从 来 不 会 在 中 途 折 
返 ， 而 只 能 触及 到 终点 之 后 才能 折返 。 如 采 磁 头 正 从 中 间 磁 道 问 外 圈 移 
动 ， 而 此 时 队列 中 进入 一 个 内 圈 磁 道 的 ID， 那么 此 时 磁头 并 不 会 折返 ， 
即使 队列 中 只 有 这 一 个 IO。 这 个 IO 只 能 等 待 磁头 触及 最 外 圈 之 后 折返 回 
来 被 执行 。 





4. C-SCAN ( 单 向 扫描 模式 ) 


在 C-SCAN 模 式 中 磁头 总 是 从 内 图 回 外 圈 扫 摘 ， 达 到 外 图 之 后 迅速 
返回 内 圈 ， 返 回 途中 不 接受 任何 IO， 然 后 再 从 内 圈 向 外 圈 扫 描 。C- 
SCAN 模 式 的 扫 摘 图 如 图 3-11 所 示 。 








图 3-11 C-SCAN 模 式 扫 描 图 














5. LOOK (智能 监察 扫描 模式 ) 和 C-LOOK (智能 监察 单 向 扫描 
模式 ) 


LOOK 模 式 相对 于 SCAN 模 式 的 区 别 在 于 ， 磁 尖 不 必 达 到 终点 之 后 
才 折 返 ， 而 只 要 完成 最 两 端的 IO 即 可 折返 。 同 样 ，C-LOOK 也 是 一 样 的 
道理 ， 只 不 过 是 单 向 扫描 。 图 3-12 所 示 的 是 C-LOOK 模 式 的 扫描 图 。 


图 3-12”C-LOOK 模 式 扫描 图 








提示 : ”关于 几 种 扫描 模式 的 选择 : 总 地 说 来 ， 在 负载 不 高 的 
情况 下 ，SSTF 模 式 可 以 获得 最 佳 的 性 能 。 但 是 鉴于 可 能 造成 

某 些 较 远 的 IO 煞 死 的 问题 ， 所 以 在 高 负载 条 件 下 ，SCAN 或 者 
C-SCAN、C-LOOK 模 式 更 为 合适 。 





在 大 量 随机 IO 的 情况 下 ， 磁 盘 的 磁头 臂 会 像 蜜蜂 翅膀 一 样 振动 ， 当 
然 它们 的 频率 可 能 相差 很 大 ， 但 是 用 肉眼 观察 的 话 ， 磁 头 辟 确实 会 像 琴 
弦 一 样 摆动 ， 频 率 是 比较 局 的 。 大 家 可 以 去 Internet 上 搜索 一 下 磁盘 寻 道 
的 一 个 视频 ， 来 增强 感 观 认 识 。 





3.3.4 ”关于 磁盘 缓存 


磁盘 上 必须 有 缓存 ， 用 来 接收 指令 和 数据 ， 还 被 用 来 进行 预 读 。 夏 
盘 绥 存 时 刻 处 于 打开 状态 。 有 很 多 文档 资料 上 提 到 某 些 情 况 下 可 以 “ 茜 
用 ”磁盘 缓存 ， 这 是 容易 造成 误解 的 说 法 。 组 存在 磁盘 上 就 表现 为 一 块 
电路 板 上 的 RAM 芯 片 ， 目 前 有 2MB、8MB、16MB、32MB、64MB 等 容 
量规 格 。 所 谓 “ 禁 用 ”磁盘 缓存 指 的 其 实 是 本 书 第 5 章 中 描述 的 Write 
Through 模 式 ， 即 磁盘 收 到 写 入 指令 和 数据 后 ， 必 须 先 将 其 写 入 盘 片 ， 
然后 才 辐 控制 器 返回 成 功 信号 ， 这 样 就 相当 于 “禁用 ”了 缓存 。 但 是 实际 
上 ， 指 令 和 数据 首先 到 达 的 一 定 是 缓存 。 











SCSI 指 令 中 有 两 个 参数 可 以 控制 对 磁盘 缓存 的 使 用 。 





(1) DPO (Disable Page Out) : 这 个 参数 的 作用 是 禁止 绥 存 中 
的 数据 页 〈 缓 存 中 的 数据 以 页 为 单位 存在 ) 被 换 出 。 不 管 恋 还 是 写 ， 被 
置 了 这 个 参数 位 的 数据 在 绥 存 空间 不 够 的 时 候 不 能 履 盖 绥 存 中 的 其 他 数 
据 ， 也 就 是 不 能 将 其 他 数据 换 出 。 





(2) FUA (Force Unit Access) : 这 个 参数 的 作用 是 强制 盘 片 访 
问 。 对 于 写 操作 ， 磁 盘 必 须 将 收 到 的 数据 写 入 盘 片 才 返 回 成 功 信号 ， 也 
就 是 进行 Write Through。 对 于 读 操 作 ， 磁 盘 收 到 指令 后 ， 直 接 去 盘 片 上 
该 取 数 据 ， 而 不 搜索 缓存 。 





所 以 ， 当 某 个 SCSI 指 令 的 DPO 和 FUA 两 个 参数 的 值 都 被 设置 为 1 


时 ， 便 相当 于 完全 不 使 用 缓存 的 提速 功能 了 ， 但 是 指令 和 数据 依然 会 先 
到 达 缓 存 中 ， 这 一 扣 需 要 分 清和 理解 。 


目前 基于 SCSI 指 令 的 磁盘 比如 SCSVFC/SAS 等 都 支持 FUA 和 DPO。 
对 于 基于 ATA 指 令 的 IDE/SATA/USB-SATA/USB-IDE 等 ， 尚 不 支持 这 两 
个 功能 位 ， 有 另外 的 函数 来 绕 过 组 在。 比如 在 Windows 系 统 中 ， 可 以 使 
用 下 列 函 数 来 控制 磁盘 缓存 的 行为 : 


typedef struct _DISK_CACHE_INFORMATION {} 





BOOLEAN ParametersSavable; 
BOOLEAN ReadCacheEnabled; 
BOOLEAN WriteCacheEnabled; 


DISK_CACHE_RETENTION_PRIORITY ReadRetentionpPriority; 


DISK_CACHE_ RETENTION_ PRIORITY WriteRetentionpriority; 


WORD DisablePrefetchTransferLength 
BOOLEAN PrefetchScalar; 
union { 

Struct { 


WORD Minimum; 

WORD Maximum; 

WORD MaximumBlocks; 
} ScalarPrefetch; 
Struct { 

WORD Minimum; 

WORD Maximum; 
} BlockPrefetch; 

}; 


} DISK_CACHE_INFORMATION，“PDISK_CACHE_INFORMATION ; 





一 次 性 禁用 磁盘 写 缓存 也 是 可 以 的 ， 通 过 调用 操作 系统 提供 的 一 些 
接口 即 可 实现 ， 操 作 系 统 会 利用 对 应 磁盘 的 张 动 程序 来 将 磁盘 的 写 缓存 
一 次 性 关闭 ， 直 到 下 次 磁盘 挥 电 或 者 Reset 为 止 ， 禁 用 效果 一 直 会 保 
持 。 对 于 用 于 磁盘 阵列 中 的 磁盘 ， 写 缓存 一 律 禁 用 。 











3.3.5 “影响 磁盘 性 能 的 因素 


目前 的 磁盘 可 以 分 为 单 礁 盘 和 多 碟 熏 ， 前 者 在 盘 体 内 只 有 一 张 盘 
片 ， 后 者 则 有 多 张 。 前 面 已经 讲 过 ， 每 张 盘 片 的 正 反 两 面 都 可 以 存放 数 
据 ， 所 以 每 张 盘 片 需要 有 两 个 磁头 ， 各 读 写 一 面 。 然 而 ， 有 一 点 必须 澄 
清 ， 磁 盘 每 个 时 刻 只 允许 一 个 磁头 来 读 写 数据 。 也 就 是 说 ， 不 管 盘 体内 
盘 片 和 磁头 再 多 ， 也 不 可 能 提高 便 盘 的 厨 吐 量 和 IO 性 能 ， 只 能 提高 容 
量 。 然 而 ， 已 丝 有 很 多 人 致力 于 改变 这 个 现状 ， 和 希望 能 让 磁头 在 盘 内 实 
现 并 及 读 写 ， 也 就 相当 于 盘 片 和 盘 片 之 间 相 互 形 成 RAID 从 而 提高 性 
能 ， 但 是 这 项 工程 目前 还 没有 可 以 应 用 的 产品 。 





























影响 硬盘 性 能 的 因素 包括 以 下 几 种 。 


(1) 转速 : 转速 是 影响 硬盘 连续 IO 时 吞吐 量 性 能 的 首要 因素 。 读 
写 数据 时 ， 磁 头 不 会 动 ， 全 靠 盘 片 的 转动 来 将 对 应 扇 区 中 的 数据 感应 给 
磁头 ， 所 以 盘 片 转 得 越 快 ， 数 据 传输 时 间 就 越 短 。 在 连续 IO 情况 下 ， 丰 
头 臂 寻 道 次 数 很 少 ， 所 以 要 提高 吞吐 量 或 者 IOPS 的 值 ， 转 速 就 是 首要 影 
响 因 素 了 。 有 目前 中 高 端 便 盘 一 般 都 为 10000 转 每 分 或 者 15000 转 每 分 。 最 
近 也 有 厂家 要 实现 20000 转 每 分 的 硬盘 ， 己 经 有 了 成 形 的 产品 ， 但 是 最 
终 是 否 会 被 广泛 应 用 ， 尚 待 观察 。 








(2) 寻 道 速度 : 寻 道 速度 是 影响 磁盘 随机 IO 性 能 的 首要 因素 。 随 





机 IO 情况 下 ， 磁 头 臂 需要 频繁 更 换 磁 道 ， 用 于 数据 传输 的 时 间 相 对 于 换 
道 消耗 的 时 间 来 说 是 很 少 的 ， 根 本 不 在 一 个 数量 级 上 。 所 以 如 果 磁 头 臂 
能 够 以 很 高 的 速度 更 换 磁道 ， 那 么 就 会 提升 随机 IOPS 值 。 目 前 高 端 磁 盘 
的 平均 寻 道 速度 都 在 10ms 以 下 。 








(3) 单 碟 容量 :” 单 碟 容量 也 是 影响 磁盘 性 能 的 一 个 间接 因素 。 单 
矶 容量 越 高 ， 证 明 相同 空 间 内 的 数据 量 越 大 ， 也 就 是 数据 密度 越 大 。 在 
相同 的 转速 和 寻 道 速度 条 件 下 ， 具 有 高 数据 密度 的 硬盘 会 显示 出 更 高 的 
性 能 。 因 为 在 相同 的 开销 下 ， 单 碟 容 量 高 的 人 硬盘 会 读 出 更 多 的 数据 。 目 
前 已 有 厂家 研发 出 单 碟 容 量 超过 300GB 的 硬盘 ， 但 是 还 没有 投入 使 用 。 























(4) 接口 速度 : ”接口 速度 是 影响 人 硬盘 性 能 的 一 个 最 不 重要 的 因 
素 。 目 前 的 接口 速度 在 理论 上 都 已 经 满足 了 磁盘 所 能 达到 的 最 高 外 部 传 
和 输 冲 宽 。 在 随机 IO 环境 下 ， 接 口 速度 显得 更 加 不 重要 ， 因 为 此 时 瓶 宽 几 
乎 全 部 都 在 寻 道 速度 上 。 不 过 ， 高 端 硬盘 都 用 高 速 接口 ， 这 是 普遍 做 














3.4 使 盘 接 口技 术 


硬盘 制造 是 一 项 复杂 的 技术 ， 到 目前 为 全 也 只 有 欧洲 、 美 国 等 及 达 
国家 和 地 区 掌握 了 关键 技术 。 但 不 管 便 盘 内 部 多 么 复杂 ， 它 必定 要 给 使 
用 者 一 个 简单 的 接口 ， 用 来 对 其 访问 读 取 数据 ， 而 不 必 关 心 这 串 数 据 到 
底 该 什么 时 候 写 入 ， 写 入 到 哪个 盘 片 ， 用 哪个 磁头 ， 等 等 。 











下 面 就 来 看 一 下 人 硬盘 向 用 户 提 供 的 是 什么 样 的 接口 。 注 意 ， 这 里 所 
说 的 接口 不 是 物理 上 的 接口 ， 而 是 包括 物理 、 巡 辑 在 内 的 抽象 出 来 的 接 
口 。 也 就 是 说 ， 一 个 事物 面 问 外 部 的 时 候 ， 为 达到 被 人 使 用 的 目的 而 辐 
外 提供 的 一 种 打开 的 、 抽 象 的 协议 ， 类 似 于 说 明 书 。 


目前 ， 人 硬盘 提供 的 物理 接口 包括 如 下 几 种 。 


a 用 于 ATA 指 令 系 统 的 IDE 接 口 。 

a 用 于 ATA 指 令 系统 的 SATA 接 口 。 

a 用 于 SCSI 指 令 系统 的 并 行 SCSI 接 口 。 

m 用 于 SCSI 指 令 系统 的 串 行 SCSI (SAS) 接口 。 

a 用 于 SCSI 指 令 系统 的 IBM 专 用 串 行 SCSI 接 口 (SSA) 。 

a 用 于 SCSI 指 令 系 统 的 并 且 承 载 于 FabreChannel 协 议 的 串 行 FC 接 口 
(FCP) 。 


3.4.1 IDE 硬 盘 接 口 


IDE 的 英文 全 称 为 Integrated Drive Electronics， 即 电子 集成 驱动 右 ， 
它 的 本 意 是 指 把 控制 电路 和 盘 族 、 磁 头等 放 在 一 个 容器 中 的 硬盘 驱动 
器 。 把 盘 体 与 控制 电路 放 在 一 起 的 做 法 减少 了 硬盘 接口 的 电费 数目 与 长 
度 ， 数 据 传 输 的 可 靠 性 得 到 了 增强 。 而 且 人 硬盘 制造 起 来 更 加 容易 ， 因 为 











硬盘 生产 广 商 不 需要 再 担心 自己 的 硬盘 是 否 与 其 他 广 商 生产 的 控制 右 兼 
容 。 对 用 户 而 言 ， 硬 盘 安 装 起 来 也 更 为 方便 了 。IDE 这 一 接口 技术 从 诞 
生 至 今 就 一 直 在 不 断 发 展 ， 性 能 也 不 断 地 提高 。 其 拥有 价格 低廉 、 兼 容 
性 强 的 特点 。IDE 接 口技 术 至 今 仍然 有 很 多 用 户 ， 但 古 正在 不 断 减少 。 





IDE 接 口 ， 也 称 为 PATA 接 口 ， 即 Parallel ATA 并行 传 输 ATA) 。 
ATA 的 英文 拼写 为 Advanced Technology Attachment， 即 高 级 技术 附加 ， 
貌似 发 明 ATA 接 口 的 人 认为 这 种 接口 是 有 高 技术 含量 的 。 不 过 在 那个 年 
代 应 该 也 算是 比较 有 技术 含量 的 了 。ATA 接 口 最 早 是 在 1986 年 由 
Compaq、West Digital 等 几 家 公司 共同 开发 的 ， 在 20 世 纪 90 年 代 初 开始 
应 用 于 台式 机 系统 。 最 初 ， 它 使 用 一 个 40 心 电 统 与 主板 上 的 ATA 接 口 进 
行 连接 ， 只 能 文 持 两 个 硬盘， 最 大 容量 也 被 限制 在 504MB 之 内 。 后 来 ， 
随 着 传输 速度 和 位 宽 的 提高 ， 最 后 一 代 的 ATA 规 范 使 用 80 心 的 线 统 ， 其 
中 有 一 部 分 是 屏蔽 线 ， 不 传输 数据 ， 只 是 为 了 屏 贡 其 他 数据 线 之 间 的 相 
互 干扰 。 


























1. 7 种 ATA 物 理 接口 规范 


ATA 接 口 从 诞生 至 今 ， 共 推出 了 7 个 不 同 的 版 本 ， 分 别 是 ATA- 
1 (IDE) 、ATA-2 (EIDE Enhanced IDE/Fast ATA) 、ATA- 
3 (FastATA-2) 、ATA-4 (ATA33) 、ATA-5 (ATA66) 、ATA- 
6 (ATA100) 和 ATA-7 (ATA 133) 。 


ma ATA-1: 在 主板 上 有 一 个 插口 ， 支 持 一 个 主 设备 和 一 个 从 设备 ， 
每 个 设备 的 最 大 容量 为 504MB， 支 持 的 PIO-0 模 式 传输 速率 只 有 
3.3MB/s。ATA-1 支 持 的 PIO 模 式 包 括 PIO-0、PIO-1 和 PIO-2 模 
式 ， 另 外 还 支持 4 种 DMA 模 式 〈 没 有 得 到 实际 应 用 ) 。ATA-1 接 
口 的 硬盘 大 小 为 5 贡 寸 ， 而 不 是 现在 主流 的 3.5 贡 寸 。 








ATA-2: 是 对 ATA-1 的 扩展 ， 习 惯 上 也 称 为 EIDE (Enhanced 
IDE) 或 Fast ATA。 它 在 ATA 的 基础 上 增加 了 两 种 PIO 和 两 种 
DMA 模 式 (PIO-3) ， 不 仅 将 硬盘 的 最 高 传输 率 提高 到 
16.6MB/s， 同 时 还 引进 了 LBA 地 址 转换 方式 ， 突 破 了 固有 的 
504MB 的 限制 ， 可 以 支持 最 高 达 8.1GB 的 硬盘 。 在 支持 ATA-2 的 
BIOS 设 置 中 ， 一 般 可 以 看 到 LBA (Logical Block Address) 和 
CHS (Cylinder、Head、Sector) 设置 选项 。 同 时 在 EIDE 接 口 的 
主板 上 一 般 有 两 个 EIDE 插 口 ， 也 就 是 由 同一 个 ATA 控 制 器 操控 
的 两 个 IDE 通 道 ， 每 个 通道 可 以 分 别 连接 一 个 主 设备 和 一 个 从 设 
备 ， 这 样 一 块 主板 就 可 以 支持 4 个 EIDE 设 备 。 这 两 个 EDIE 接 口 一 
般 称 为 IDE1 和 IDE2。 

ATA-3: 没有 引入 更 高 速度 的 传输 模式 ， 在 传输 速度 上 并 没有 任 
何 的 提升 ， 最 高 速度 仍旧 为 16.6MB/s。 只 在 电源 管理 方案 方面 进 
行 了 修改 ， 引 入 了 简单 的 密码 保护 安全 方案 。 同 时 还 引入 了 一 项 
划时代 的 技术 ， 那 就 是 S.M.A.R.T (Self-Monitoring Analysis and 
Reporting Technology， 自 监测 、 分 析 和 报告 技术 ) 。 这 项 技术 可 
以 对 磁头 、 盘 片 、 电 机 、 电 路 等 硬盘 部 件 进行 监测 ， 通 过 检测 电 
路 和 主机 的 监测 软件 对 磁盘 进行 检测 ， 把 其 运行 状况 和 历史 记录 
同 预 设 的 安全 值 进行 比较 分 析 。 当 检测 到 的 值 超出 了 安全 值 的 范 
围 时 ， 会 自动 向 用 户 发 出 警告 ， 进 而 对 硬盘 潜在 故障 做 出 有 效 预 
测 ， 提 高 了 数据 存储 的 安全 性 。 

ATA-4: 从 ATA-4 接 口 标准 开始 正式 支持 Ultra DMA 数 据 传 输 模 
式 ， 因 此 也 习惯 称 ATA-4 为 Ultra DMA 33 或 ATA33，33 是 指数 据 
传输 的 速率 为 33.3MB/s。 并 首次 在 ATA 接 口中 采用 了 Double Data 
Rate〈 双 倍数 据 传 输 ) 技术 ， 让 接口 在 一 个 时 钟 周期 内 传输 数据 
两 次 ， 时 钟 上 升 期 和 下 降 期 各 有 一 次 数据 传输 ， 这 样 数据 传输 速 
率 一 下 子 从 16.6MB/s 提 升 至 33.3MB/s。Ultra DMA 33 还 引入 了 元 














余 校 验 技术 (CRC) 。 该 技术 的 设计 原理 是 系统 与 硬盘 在 进行 传 
输 的 过 程 中 ， 随 数据 一 起 发 送 循环 的 元 余 校 验 码 ， 对 方 在 收取 的 
时 候 对 该 校 验 码 进 行 检验 ， 只 有 在 检验 完全 正确 的 情况 下 才 接 收 
并 处 理 得 到 的 数据 ， 这 对 于 高 速 传输 数据 的 安全 性 提供 了 极其 有 
力 的 保障 。 

ATA-5: ATA-5 也 就 是 Ultra DMA 66， 也 叫 ATA66， 是 建立 在 
Ultra DMA 33 硬盘 接口 的 基础 上 的 ， 同 样 采用 了 UDMA 技 术 。 
Ultra DMA 66 将 接口 传输 电路 的 频率 提高 为 原来 的 两 倍 ， 所 以 接 
收 /发 送 数据 速率 达到 66.6 MB/s。 它 保留 了 Ultra DMA 33 的 核心 
技术 一 一 见 余 校 验 技术 。 在 工作 频率 提升 的 同时 ， 电 磁 干 扰 问 题 
开始 出 现在 ATA 接 口中 。 为 保障 数据 传输 的 准确 性 ， 防 止 电 磁 干 
扰 ，Ultra DMA 66 接 口 开始 使 用 40 针 脚 80 芯 的 电缆 。40 针 脚 是 为 
了 兼容 以 往 的 ATA 插 槛 ， 减 小 成 本 的 增加 。80 忆 中 新 增 的 都 是 信 
号 屏蔽 线 ， 这 40 条 屏蔽 线 不 与 接口 相连 ， 所 以 针脚 不 需要 增加 。 
这 种 设计 可 以 降低 相 邻 信号 线 之 间 的 电磁 干扰 。 

ATA-6: ATA100 接 口 的 数据 线 与 ATA66 一 样 ， 也 是 使 用 40 针 80 
芯 的 数据 传输 电缆 ， 并 且 ATA100 接 口 完全 向 下 兼容 ， 支 持 
ATA33 和 ATA66 接 口 的 设备 完全 可 以 继续 在 ATA100 接 口中 使 
用 。ATA100 规 范 将 电路 的 频率 又 提升 了 一 个 等 级 ， 可 以 让 硬盘 
的 外 部 传输 率 达 到 100MB/s。 它 提高 了 硬盘 数据 的 完整 性 与 数据 
传输 速率 ， 对 更 面 系统 的 磁盘 子 系统 性 能 有 较 大 的 提升 作用 ， 而 
CRC 技 术 更 有 效 保证 了 在 高 速 传输 中 数据 的 完整 性 和 可 靠 性 。 
ATA-7: ATA-7 是 ATA 接 口 的 最 后 一 个 版 本 ， 也 叫 ATA133。 
ATA133 接 口 文 持 133 MB/s 的 数据 传输 速度 ， 这 是 第 一 种 在 接口 
速度 上 超过 100MB/s 的 IDE 硬 盘 。 迈 拓 是 目前 唯一 一 家 推出 这 种 
接口 标准 硬盘 的 制造 商 。 由 于 并 行 传输 随 着 电路 频率 的 提升 ， 传 
输 线 绕 上 的 信号 干扰 越 来 越 难 以 解决 ， 已 经 达到 了 当前 技术 的 极 














限 ， 所 以 其 他 IDE 硬 盘 厂 商 停止 了 对 IDE 接 口 的 开发 ， 转 而 生产 
Serial ATA 接 口 标准 的 硬盘。 


图 3-13 所 示 为 几 种 ATA 接 口 的 总 结 。 























图 3-13” 几 种 ATA 接 口 的 总 结 





2. IDE 数 据 传输 模式 


PIO 模 式 (Programming Input/Output Model) : 一 种 通过 CPU 执 
行 VO 端 口 指令 来 进行 数据 读 写 的 数据 交换 模式 ， 是 最 早 的 人 硬盘 
数据 传输 模式 。 这 种 模式 的 数据 传输 速率 低下 ，CPU 占 有 率 也 很 
高 ， 传 输 大 量 数据 时 会 因为 占用 过 多 的 CPU 资源 而 导致 系统 俘 
顿 ， 无 法 进行 其 他 的 操作 。 在 PIO 模 式 下 ， 硬 盘 控 制 器 接收 到 便 
盘 驳 动 器 传 来 的 数据 之 后 ， 必 须 由 CPU 发 送信 号 将 这 些 数据 复制 
到 内 存 中 ， 这 就 是 PIO 模 式 高 CPU 占用 率 的 原因 。PIO 数 据 传 输 模 
式 义 分 为 PIO mode 0、PIO mode 1、PIO mode 2、PIO mode 3 和 
PIO ”mode 4 几 种 模式 ， 数 据 传 输 速率 从 3.3MB/s 到 16.6MB/s 不 
等 。 受 限于 传输 速率 低下 和 极 高 的 CPU 占有 率 ， 这 种 数据 传输 模 
式 很 快 就 被 淘汰 了 。 

DMA 模 式 (Direct Memory Access) : 直译 的 意思 就 是 直接 内 存 
访问 ， 是 一 种 不 经 过 CPU 而 直接 从 内 存 存 取 数 据 的 数据 交换 模 
式 。PIO 模 式 下 硬盘 和 内 存 之 间 的 数据 传输 是 由 CPU 来 控制 的 ， 
而 在 DMA 模 式 下 ，CPU 只 须 向 DMA 控 制 器 下 达 指 令 ， 让 DMA 控 
制 器 来 处 理 数据 的 传送 。DMA 控 制 器 直接 将 数据 复制 到 内 存 的 
相应 地 址 上， 数据 传送 完毕 后 再 把 信息 反馈 给 CPU， 这 样 吉 很 大 
程度 上 减轻 了 CPU 资源 的 占用 率 。DMA 模 式 与 PIO 模 式 的 区 别 就 
在 于 DMA 模 式 不 过 分 依赖 CPU， 可 以 大 大 节省 系统 资源 。 二 者 











在 传输 速度 上 的 差异 并 不 十 分 明显 ，DMA 上 所 能 达到 的 最 大 传输 
速率 也 只 有 16.6MB/s。DMA 模 式 可 以 分 为 Single-Word DMA 〈 单 
字 节 DMA) 和 Multi-Word DMA (多 字 节 DMA) 两 种 。 

Ultra DMA 模 式 (Ultra Direct Memory Access) : 一 般 人 简写 为 
UDMA， 含义 是 高 级 直接 内 存 访问 。UDMA 模 式 采 用 16-bit 
Multi-Word DMA (16 位 多 字 节 DMA) 模式 为 基准 ， 可 以 理解 为 
是 DMA 模 式 的 增强 版 本 。 它 在 包含 了 了 DMA 模式 的 优点 的 基础 
上 ， 又 增加 了 CRC (Cydlic Redundancy Check， 循环 元 余人 码 校 
验 ) 技术 ， 提 高 了 数据 传输 过 程 中 的 准确 性 ， 使 数据 传输 的 安全 
性 得 到 了 保障 。 在 以 往 的 硬盘 数据 传输 模式 下 ， 一 个 时 钟 周期 只 
传输 一 次 数据 ， 而 在 UDMA 模 式 中 逐渐 应 用 了 Double Data 
Rate〈 双 倍数 据 传 输 ) 技术 ， 因 此 数据 传输 速度 有 了 极 大 的 提 
高 。 此 技术 就 是 在 时 钟 的 上 升 期 和 下 降 期 各 上 自 进 行 一 次 数据 传 
输 ， 可 以 使 数据 传输 速度 成 倍 地 增长 。 

















可 以 在 ATA 控 制 器 属性 中 选择 使 《图 3-14 DMA 模 式 示 意图 
用 PIO 还 是 DMA 传 输 模 式 ， 如 图 3-14 
所 示 。 


在 UDMA 模 式 发 展 到 UDMA133 之 后 ， 受 限于 IDE 接 口 的 技术 规 
范 ， 无 论 是 连接 器 、 连 接 电缆 还 是 信号 协议 都 表现 出 了 很 大 的 技术 瓶 
颈 ， 而 且 其 支持 的 最 高 数据 传输 率 也 有 限 。 在 IDE 接 口传 输 率 提高 的 同 
寸 ， 也 就 是 工作 频率 提高 的 同时 ，IDE 接 口交 叉 干 扰 、 地 线 增多 、 信 和 号 
混乱 等 缺陷 也 给 其 发 展 带 来 了 很 大 的 制约 ， 被 新 一 代 的 SATA 接 口 取 代 
也 就 在 所 难免 了 。 


< 





TY 





3.4.2 ”SATA 硬 盘 接 口 


SATA 的 全 称 是 Serial ATA， 即 串 行 传输 ATA。 相 对 于 PATA 模 式 的 
IDE 接 口 来 说 ，SATA 是 用 串 行 线路 传输 数据 ， 但 是 指令 集 不 变 ， 仍 然 
是 ATA 指 令 集 。 


SATA 标 准 是 由 Intel、IBM、Dell、APT、Maxtor 和 Seagate 公 司 共同 
提出 的 硬盘 接口 规范 。 在 IDF Fall 2001 大 会 上 ，Seagate 宣 布 了 Serial 
ATA 1.0 标 准 ， 正 式 宣 告 了 SATA 规 范 的 确立 。 自 2003 年 第 二 季度 Inte] 推 
出 支持 SATA 1.5Gbps 的 南 桥 芯片 (ICH5) 后 ，SATA 接 口 取 代 传 统 
PATA 接 口 的 趋势 日 渐 明 显 。 此 外 ，SATA 与 现存 于 PC 上 的 USB、IEEE 
1394 相 比 ， 在 性 能 和 功能 方面 的 表现 也 更 加 突出 。 然 而 经 过 一 年 的 市 场 
洗礼 ， 原 有 的 SATA ”1.0/1.0a 〈1.5Gb/s) 规格 遇 到 了 一 些 问题 。2005 年 
SATA 硬 盘 步 入 了 新 的 发 展 阶 段 ， 性 能 更 强 、 配 置 更 高 的 SATA 2.0 产 品 
出 现在 了 市 场 上 ， 这 些 高 性 能 的 SATA 2.0 硬 盘 的 到 来 无 疑 加速 了 硬盘 市 
场 的 转变 。 


SATA 与 IDE 结 构 在 硬件 上 有 着 本 质 区 别 ， 其 数据 接口 、 电 源 接 口 
以 及 接口 实物 图 如 图 3-15、 图 3-16 及 图 3-17 所 示 。 

















图 3-15 IDE 线 绕 和 SATA 图 3-16 ”SATA 人 硬盘 的 电源 图 3-17 ” SATA 接口 实物 图 
线 统 对 比 线 


1. SATA 规 范 的 发 展 历程 


SATA 技 术 是 Intel 公 司 在 IDF 2000 大 会 上 推出 的 ， 其 最 大 的 优势 是 
传输 速率 高 。SATA 的 工作 原理 非常 简单 : 采用 连续 串 行 的 方式 来 实现 
数据 传输 从 而 获得 较 高 的 传输 速率 。2003 年 发 布 的 SATA 1.0 规 范 提 供 的 
传输 速率 就 已 经 达到 了 150MB/MS， 不 但 高 出 普通 IDE 硬 盘 所 提供 的 
100MB/s (ATA100) ， 甚 至 超过 了 IDE 最 高 传输 速率 
133MB/s (ATA133) 。 





SATA 在 数据 可 靠 性 方面 也 有 了 大 幅度 提高 。SATA 可 同时 对 指令 
及 数据 封包 进行 循环 见 余 校 验 “CRC) ， 不 仅 可 检测 出 所 有 单 比 特 和 双 
比特 的 错误 ， 而 且 根 据 统计 学 的 原理 还 能 够 检测 出 99.998% 可 能 出 现 的 
错误 。 相 比 之 下 ，PATA 只 能 对 来 回 传 输 的 数据 进行 校 验 ， 而 无 法 对 指 
令 进行 校 验 ， 加 上 蜗 频 率 下 干扰 甚大， 因此 数据 传输 稳定 性 很 差 。 








除了 传输 速率 更 高 、 传 输 数 据 更 可 靠 外 ， 节 省 空间 是 SATA 最 具 吸 
引力 的 地 方 。 由 于 线 缆 相 对 于 80 芯 的 IDE 线 缆 来 说 瘦 了 不 少 ， 更 有 利于 
机 箱 内 部 的 散热 ， 线 绵 间 的 串扰 也 得 到 了 有 效 控制 。 不 过 SATA 1.0 规 苑 
存在 不 少 缺点 ， 特 别 是 缺乏 对 于 服务 器 和 网 络 存储 应 用 所 需 的 一 些 先 进 
特性 的 支持 。 比 如 在 多 任务 、 多 请 求 的 典型 服务 器 环境 里 面 ，SATA 1.0 
硬盘 的 确 会 有 性 能 大 幅度 下 降 ， 还 有 可 维护 性 不 强 、 可 连接 性 不 好 等 缺 
点 。 这 时 ，SATA 2.0 的 出 现 使 这 方面 得 到 了 很 好 的 补充 。 





2. SATA 2.0 规 范 中 的 新 特性 


与 SATA 1.0 规 范 相 比 ，SATA 2.0 规 范 中 添加 了 一 些 新 的 特性 ， 具 
体 如 下 。 


mn 3Gb/s 的 传输 速率 : 在 SATA 2.0 扩 展 规 范 中 ，3Gb/s 的 速率 是 最 大 
的 亮点 。 由 于 SATA 使 用 8bit/10bit 编 码 ， 所 以 3Gb/s 等 同 于 
300MB/s 的 接口 速率 。 不 过 ， 从 性 能 角度 看 ，3Gb/s 并 不 能 带 来 多 
大 的 提升 ， 即 便 是 RAID 应 用 的 场合， 性 能 提升 也 没有 想象 的 那 
么 大 。 因 为 硬盘 内 部 传输 速率 还 达 不 到 与 接口 速率 等 同 的 程度 。 
在 大 多 数 应 用 中 ， 硬 盘 是 将 更 多 的 时 间 花 在 了 寻 道 上 ， 而 不 是 传 
输 上 。 接 口 速率 的 提高 直接 影响 的 是 从 缓存 进行 读 写 的 操作 ， 所 
以 理论 上 大 缓存 的 产品 会 从 3Gb/s 的 传输 速率 中 得 到 更 大 的 好 
处 。 





a 文 持 NCQ 技 术 : 在 SATA 2.0 扩 展 规范 所 市 来 的 一 系列 新 功能 
中 ，NCQ (Native Command Queuing， 自 身 命 令 队 列 ) 功能 也 非 
第 令 人 关注 。 硬 盘 是 机 电 设 备 ， 容 易 受 内 部 机 械 部 件 惯性 的 影 
啊 ， 其 中 旋转 等 待 时 间 和 寻 道 等 待 时 间 就 大 大 限制 了 硬盘 对 数据 
访问 和 检索 的 效率 。 前 面 曾经 描述 过 一 个 模型 ， 指 的 惑 是 这 种 由 
硬盘 驱动 器 自身 实现 的 排队 技术 。 





如 果 对 磁头 寻 道 这 个 机 械 动作 的 执行 过 程 实 施 智 能 化 的 内 部 管理 ， 
就 可 以 大 大 地 提高 整个 工作 流程 的 效率 。 所 谓 智 能 化 的 内 部 管理 就 是 取 
出 队列 中 的 命令 ， 然 后 重新 排序 ， 以 便 有 效 地 获取 和 发 送 主机 请 求 的 数 
据 。 在 人 硬盘 执行 菜 一 命令 的 同时 ， 队 列 中 可 以 加 入 新 的 命令 并 排 在 等 待 
执行 的 作业 中 。 如 果 新 的 命令 恰好 是 处 理 起 来 机 械 效率 最 蜗 的 ， 那 么 它 
就 是 队列 中 要 处 理 的 下 一 个 命令 。 但 有 效 的 排序 算法 既 要 考虑 目标 数据 
的 线性 位 置 ， 又 要 考虑 其 角度 位 置 ， 并 且 还 要 对 线性 位 置 和 角度 位 置 进 
行 优 化 ， 以 使 总 线 的 服务 时 间 最 小 ， 这 个 过 程 也 称 做 “基于 寻 道 和 旋转 
优化 的 命令 重新 排序 ”。 





台式 SATA 硬 盘 队 列 一 直 被 严格 地 限制 为 深度 不 得 超过 32 级 。 如 果 
增加 队列 深度 ， 可 能 会 起 到 反作用 一 一 增加 命令 堆积 的 风险 。 通 常 
SATA 硬 盘 接 收 命令 时 有 两 种 选择 ， 一 是 立即 执行 命令 ， 二 是 延迟 执 
行 。 对 于 后 一 种 情况 ， 硬 盘 必 须 通 过 设置 注意 标志 和 Service 位 来 通知 主 
机 何 时 开始 执行 命令 。 然 而 硬盘 不 能 主动 与 主机 通信 ， 这 就 需要 主机 害 
期 轮回 查询 ， 发 现 Service 位 后 将 发 出 一 条 Service 命 令 ， 然 后 才能 从 硬盘 
处 获得 将 执行 哪 一 条 待 执行 命令 的 信息 。 而 且 Service 位 不 包含 任何 对 即 
将 执行 命令 的 识别 信息 ， 所 必需 的 命令 识别 信息 是 以 标记 值 的 形式 与 数 
据 请 求 一 同 传输 的 ， 并 仅 供 主 机 用 于 设置 DMA 引 敬 和 接收 数据 缓冲 
区 。 这 样 主机 就 不 能 预先 掌握 人 硬盘 所 设置 的 辅助 位 是 哪 条 命令 设置 的 ， 








数据 传输 周期 开始 前 也 无 法 设置 DMA 引 擎 ， 这 最 终 导致 了 SATA 人 硬盘 效 
率 低下 。 


NCQ 包 含 如 下 两 部 分 内 容 。 


一 方面 ， 便 盘 本 里 必须 有 能 力 针对 实体 数据 的 而 区 分 布 对 命令 缓冲 
区 中 的 读 写 命令 进行 排序 。 同 时 人 硬盘 内 部 队列 中 的 命令 可 以 随 着 必要 的 
跟 踩 机 制 动 态 地 重新 调整 或 排序 ， 其 中 跟踪 机 制 用 于 掌握 每 执行 和 已 完 
成 作业 的 情况 ， 而 命令 排队 功能 还 可 以 使 主机 在 设备 对 命令 进行 排队 的 
时 候 ， 断 开 与 硬盘 间 的 连接 以 释放 总 线 。 一 旦 硬盘 准备 就 绕 ， 就 重新 连 
接 到 主机 ， 尽 可 能 以 最 快 的 速率 传输 数据 ， 从 而 消除 占用 总 线 的 现象 。 








另 一 方面 ， 通 信 协 议 的 文 持 也 相当 重要 。 因 为 以 前 的 PATA 硬 盘 在 
传输 数据 时 很 容易 造成 中 断 ， 这 会 降低 主 控 器 的 效率 ， 所 以 NCQ 规 范 中 
定义 了 中 断 聚 集 机 制 。 相 当 于 一 次 执行 完 数 个 命令 后 ， 再 对 主 探 锅 回 传 
执行 完毕 的 信息 ， 改 善 处 理 队列 命令 的 效能 。 


从 最 早 的 希捷 7200.7 系 列 硬盘 开始 ，NCQ 技 术 应 用 于 桌面 产品 的 时 
间 至 今 已 超过 半年 ， 不 过 目前 NCQ 对 个 人 桌面 应 用 并 没有 带 来 多 大 的 性 
能 提升 ， 在 某 些 情况 下 还 会 引起 副作用 。 而 且 不 同 硬盘 厂商 的 NCQ 方 案 
存在 着 差异 ， 带 来 的 效果 也 不 同 。 








端口 选择 器 (Port Selector) : 目前 的 SATA 2.0 扩 展 规范 还 具备 
了 Port Selector〈 奖 口 选择 器 ) 功能 。Port Selector 是 一 种 数据 元 
余 保 护 方案 ， 使 用 Port Selector 可 增加 元 余 度 ， 具 有 Port Selector 
功能 的 SATA 硬 盘 ， 外 部 有 两 个 SATA 接 口 ， 同 时 连接 这 两 个 接 
口 到 控制 器 上 ， 一 旦 某 个 接口 坏 掉 或 者 连 线 故障 ， 则 立刻 切换 到 
另 一 个 接口 和 连 线 上 ， 不 会 影响 数据 传输 。 





端口 复 用 器 (Port Multiplier) : SATA 1.0 的 一 个 缺点 就 是 可 连接 
性 不 好 ， 即 连接 多 个 硬盘 的 扩展 性 不 好 。 因 为 在 SATA “1.0 规范 
中 ， 一 个 SATA 接 口 只 能 连接 一 个 设备 。SATA 规 范 的 制定 者 们 
显然 也 意识 到 了 这 个 问题 ,于 是 在 SATA 2.0 中 引入 了 Port 
Multiplier 的 概念 。Port Multiplier 是 一 种 可 以 在 一 个 控制 器 上 扩展 
多 个 SATA 设 备 的 技术 ， 它 采用 4 位 (bit) 宽度 的 Port Multiplier 冰 
口 字段 ， 其 中 控制 端口 占用 一 个 地 址 ， 因 此 最 多 能 输出 2 的 四 次 
方 减 1 个 ， 即 15 个 设备 连接 ， 这 与 并 行 SCSI 相 当 。Port Multiplier 
的 上 行 端 口上 只 有 1 个 ， 在 带宽 为 150MB/s 的 时 候 容易 成 为 瓶颈 ， 
但 如 果 上 行 端 口 支持 300MB/s 的 带宽 ， 就 与 Ultra320 SCSI 的 
320MB/s 十 分 接近 了 。Port Multiplier 技 术 对 需要 多 硬盘 的 用 户 很 
有 用 ， 不 过 目前 提供 这 种 功能 的 蕊 片 组 极 少 。 

服务 器 特性 : 在 SATA 2.0 扩 展 规范 中 还 增加 了 大 量 的 新 功能 ， 比 
如 防止 开机 时 多 硬盘 同时 启动 带 来 太 大 电流 负 蓓 的 交错 启动 功 
能 ; 强大 的 温度 控制 、 风 局 控 制 和 环境 管理 ， 缘 板 互联 和 热 插 拔 
功能 等 。 这 些 功能 更 侧重 于 低 端 服务 器 方面 的 扩展 。 

接口 和 连 线 的 强化 : 作为 一 个 还 在 不 断 添 加 内 容 的 标准 集合 ， 
SATA 2.0 最 新 的 热点 是 eSATA， 即 外 置 设备 的 SATA 接 口 标准 ， 
采用 了 屏蔽 性 能 更 好 的 两 米 长 连接 线 ， 目 标 是 最 终 取代 USB 和 
IEEE 1394。 在 内 部 接口 方面 ，Click Connect 加 强 了 连接 的 可 靠 
性 ， 在 接 上 时 有 提示 声 ， 拔 下 时 需要 先 按 下 卡 口 。 这 些 细微 的 结 
构 变 化 显示 出 SATA 接 口 更 加 成 熟 和 可 靠 。 


























下 面 单 独 用 一 节 来 讲解 在 存储 方面 应 用 最 为 广泛 的 SCSI 硬 盘 接 口 。 


3.5 SCSI 硬 盘 接 口 





SCSI 与 ATA 是 目前 现行 的 两 大 主机 与 外 设 通信 的 协议 规范 ， 而 且 它 
们 各 自 都 有 自己 的 物理 接口 定义 。 对 于 ATA 协 议 ， 对 应 的 就 是 IDE 接 
口 ， 对 于 SCSI 协 议 ， 对 应 的 就 是 SCSI 接 口 。 凡 是 作为 一 个 通信 协议 ， 
就 可 以 按照 OSI 模型 〈 本 书 第 7 章 将 介绍 ) 来 将 其 划分 层次 ， 尽 管 有 些 层 
次 可 能 是 合并 的 或 者 是 缺失 的 。 划 分 了 层次 之 后 ， 我 们 就 可 以 把 这 个 协 
议 进 行 分 解 ， 提 取 每 个 层次 的 功能 和 各 个 层次 之 间 的 接口 ， 从 而 可 以 将 
这 个 协议 融合 到 其 他 协议 之 中 ， 形 成 一 种 “杂交 ”协议 来 适应 各 种 不 同 的 
环境 ， 这 个 话题 将 在 本 书 第 13 章 加 以 阐述 。 


SCSI 的 全 称 是 Small Computer System Interface， 即 小 型 计算 机 系统 
接口 ， 是 一 种 较为 特殊 的 接口 总 线 ， 有 具备 与 多 种 类 型 的 外 设 进行 通信 的 
能 力 ， 比 如 人 硬盘 、CD-ROM、 人 磁带 机 和 扫描 仪 等 。SCSI 采 用 ASPI (高 
级 SCSI 编 程 接口 ) 的 标准 软件 接口 使 驱动 器 和 计算 机 内 部 安装 的 SCSI 
适配器 进行 通信 。SCSI 接 口 是 一 种 广泛 应 用 于 小 型 机 上 的 高 速 数据 传输 
技术 。SCSI 接 口 具 有 应 用 范围 广 、 多 任务 、 带 宽大 、CPU 占 用 率 低 以 及 
热 插 拔 等 优点 。 





SCSI 接 口 为 存储 产品 提供 了 强大 、 灵 活 的 连接 方式 ， 还 提供 了 很 高 
的 性 能 ， 可 以 有 8 个 或 更 多 (最 多 16 个 ) 的 SCSI 设 备 连 接 在 一 个 SCSI 通 
道上 ， 其 缺点 是 价格 过 于 昂贵 。SCSI 接 口 的 设备 一 般 需 要 配合 价格 不 菲 
的 SCSI 卡 一 起 使 用 (如 果 主 板 上 已 经 集成 了 SCSI 控 制 器 ， 则 不 需要 额 
外 的 适配器 ，〉， 而 且 SCSI 接 口 的 设备 在 安装 、 设 置 时 比较 及 烦 ， 所 以 远 
远 不 如 IDE 设 备 使 用 广泛 。 虽 然 从 2007 年 开始 ，IDE 硬 盘 就 被 SATA 硬 盘 
彻底 逐 出 了 市 场 。 





在 系统 中 应 用 SCSI 必 须要 有 专门 的 SCSI 控 制 器 ， 也 就 是 一 块 SCSI 
控制 卡 ， 才 能 支持 SCSI 设 备 ， 这 与 IDE 人 硬盘 不 同 。 在 SCSI 控 制 嚣 上 有 一 
个 相当 于 CPU 的 已 片 ， 它 对 SCSI 设 备 进行 控制 ， 能 处 理 大 部 分 的 工作 ， 
减少 了 CPU 的 负担 (CPU 占用 率 ) 。 在 同时 期 的 硬盘 中 ，SCSI 硬 盘 的 转 
速 、 绥 存 容量 、 数 据 传输 速率 都 要 高 于 IDE 人 硬盘 ， 因 此 更 多 是 应 用 于 丙 





下 面 简单 介绍 一 下 SCSI 规 范 的 发 展 过 程 。 


SCSI 最 早 是 1979 年 由 美国 的 Shugart 公 司 〈 和 希捷 公司 前 身 ) 制订 
的 ， 在 1986 年 获得 了 ANSI (美国 标准 协会 ) 的 承认 ， 称 为 
SASI (Shugart Associates System Interface) ， 也 就 是 最 初版 本 SCSI-1。 


SCSI-1 是 第 一 个 SCSI 标 准 ， 文 持 同 步 和 异步 SCSI 外 围 设 备 ， 使 用 8 
位 的 通道 宽度 ; 最 多 允许 连接 7 个 设备 ， 异 步 传 输 时 的 频率 为 3MB/s， 
同步 传输 时 的 频率 为 5MB/s; 支持 WORM 外 围 设备 。 它 采用 25 针 接口 ， 
因此 在 连接 到 SCSI 卡 (SCSI 卡 上 接口 为 50 针 〉 上 时 ， 必 须要 有 一 个 内 
部 的 25 针 对 50 针 的 接口 电缆 。 该 种 接口 已 基本 被 淘汰 ， 在 相当 古老 的 设 
备 上 或 个 别 扫描 仪 设 备 上 可 能 还 可 以 看 到 。 








SCSI-2 又 被 称 为 Fast SCSI， 它 在 SCSI-1 的 基础 上 做 了 很 大 的 改进 ， 
增加 了 可 靠 性 ， 数 据 传输 率 也 被 提高 到 了 10MB/s;， 但 仍旧 使 用 8 位 的 并 
行 数据 传输 ， 还 是 最 多 连接 7 个 设备 。 后 来 又 进行 了 改进 ， 推 出 了 支持 
16 位 并 行 数据 传输 的 WIDE-SCSI-2( 宽 带 ) 和 FAST-WIDE-SCSI-2 ( 快 
速 宽带 ) 。 其 中 WIDE-SCSI-2 的 数据 传输 速率 并 没有 提高 ， 只 是 改 用 16 
位 传输 ;而 FAST-WIDE-SCSI-2 则 是 把 数据 传输 速率 提高 到 了 20MB/s。 





SCSIL3 标 准 版 本 是 在 1995 年 推出 的 ， 也 习惯 称 为 Ultra SCSI， 其 同 


步 数据 传输 速率 为 20MB/s。 若 使 用 16 位 传输 的 Wide 模 式 时 ， 数 据 传输 
率 更 可 以 提高 全 40MB/s。 其 允许 接口 电线 的 最 大 长 度 为 1.5 米 。 


1997 年 推出 了 Ultra 2 SCSI (Fast-40) 标准 版 本 ， 其 数据 通道 宽度 仍 
为 8 位 ， 但 其 采用 了 LVD (Low Voltage Differential， 低 电 平 微分 ) 传输 
模式 ， 传 输 速 率 为 40MB/s， 人 允许 接口 电缆 的 最 大 长 度 为 12 米 ， 大 大 增 
加 了 设备 的 灵活 性 ， 且 支持 同时 挂 接 7 个 设备 。 随 后 推出 了 Wide Ultra 2 
SCSI 接 口 标准 ， 它 采用 16 位 数据 通道 市 宽 ， 最 高 传输 速率 可 达 
80MB/S， 人 允许 接口 电费 的 最 大 长 度 为 12 米 ， 文 持 同 时 挂 接 15 个 装置 。 








LVD 可 以 使 用 更 低 的 电压 ， 因 此 可 以 将 差 动 驱动 程序 和 接收 程序 集 
成 到 硬盘 的 板 载 SCSI 控 制 占 中 。 不 再 需要 单独 的 蜗 成 本 外 部 高 电压 差 动 
组 件 。 而 老式 SCSI 需 要 使 用 独立 的 、 耗 电 的 高 压 希 件 。 


LVD ， 硬盘 可 进行 多 模式 转换 。 当 所 有 条 件 都 满足 时 ， 硬 盘 就 工作 
在 LVD 模式 下 ; 反之， 如 果 并 非 所 有 条 件 都 满足 ， 硬 盘 将 降 为 单 端 工 
作 模 式 。LVD 硬 盘 带 宽 的 增加 对 于 服务 器 环境 来 说 意味 着 更 理想 的 性 
能 。 服 务 器 环境 都 有 快速 响应 、 必 须 能 够 进行 随机 访问 和 大 工作 量 的 队 
列 操作 等 要 求 。 当 使 用 诸如 CAD、CAM、 数 字 视 频 和 各 种 RAID 等 软件 
的 时 候 ， 带 宽 增 加 的 效果 能 立竿见影 ， 信 息 可 以 迅速 而 轻松 地 进行 传 
输 。 














Ultra 160 SCSI， 也 称 为 Ultra 3 SCSI LVD， 是 一 种 比较 成 熟 的 SCSI 
接口 标准 ， 是 在 Ultra 2 SCSI 的 基础 上 发 展 起 来 的 ， 采 用 了 双 转 换 时 钟 控 
制 、 循 环 元 余 码 校 验 和 域名 确认 等 新 技术 。 在 增强 了 可 靠 性 和 易 管 理性 
的 同时 ，Ultra ”160 SCSI 的 传输 速率 为 Ultra 2 SCSI 的 2 倍 ， 达 到 
160MB/s。 这 是 采用 了 双 转 换 时 针 控 制 的 结果 。 双 转换 时 钟 控制 在 不 提 
高 接口 时 钟 频 率 的 情况 下 使 数据 传输 率 提高 了 一 倍 ， 这 也 是 Ultra 160 





SCSI 接 口 速率 大 幅 提 高 的 关键 。 


Ultra 320 SCSI， 也 称 为 Ultra 4 SCSI LVD， 是 比较 新 型 的 SCSI 接 口 
标准 。Ultra 320 SCSI 是 在 Ultra 160 SCSI 的 基础 上 发 展 起 来 的 ，Ultra 160 
SCSI 的 3 项 关键 技术 ， 即 双 转 换 时 钟 控 制 、 循 环 元 余 码 校 验 和 域名 确 
认 ， 都 得 到 了 保留 。 以 往 的 SCSI 接 口 标准 中 ，SCSI 接 口 文 持 异步 和 同 
步 两 种 传输 模式 。Ultra 320 SCSI 引 入 了 调 步 传输 模式 ， 在 这 种 传输 模式 
中 简化 了 数据 时 钟 逻 辑 ， 使 Ultra 320 SCSI 的 高 传输 速率 成 为 可 能 。 
Ultra 320 SCSI 的 传输 速率 可 以 达到 320MB/s。 


图 3-18 为 SCSI 总 线 连 接 示意 图 。 


图 3-18 ”SCSI 总 线 连 接 示意 图 





下 面 介绍 SCSI 协 议 中 的 OSI 模 型 。 


上 面 描述 的 SCSI 接 口 的 各 个 规范 ， 全 部 限于 物理 电气 层 ， 即 描述 传 
和 输 速率 、 电 气 技术 性 能 等 。SCSI 有 是 一 套 完 整 的 数据 传输 协议 。 一 个 通信 
协议 必然 会 跨越 OSI 的 所 有 7 个 层次 ， 而 物理 电气 参数 只 是 OSI 模型 中 的 
第 一 层 ， 那 么 第 二 层 到 第 七 层 ，SCSI 规 范 中 也 包含 么 ?答案 当然 是 肯定 
的 。 





1. SCSI 协 议 的 链 路 层 


OSI 模型 中 链 路 层 的 功能 就 是 用 来 将 数据 帧 成 功 地 传送 到 这 条 线路 
的 对 端 。SCSI 协 议 中 ， 利 用 CRC 校 验 码 来 校 验 每 个 指令 或 者 数据 的 帧 ， 
如 果 发 现 对 方 发 来 的 校 验 码 与 本 地 计算 的 不 同 ， 则 说 明 这 个 数据 帧 在 传 
输 过 程 中 受到 了 比较 强 的 干扰 而 使 其 中 某 个 或 者 某 些 位 发 生 了 翻转 ， 那 
么 就 会 丢弃 这 个 帧 ， 发 送 方便 会 重 传 这 个 帧 。 











2. SCSI 协 议 的 网 络 层 


1) SCSI 总 线 编 址 机 制 





OSI 模型 中 网 络 层 的 功能 就 是 用 来 寻 址 的 ， 那 么 面 对 总 线 或 者 交换 
架构 下 的 多 个 节点 ， 各 个 节点 之 间 又 是 如 何 区 分 对 方 呢 ? 只 有 解决 了 这 
个 问题 ， 才 能 继续 ， 人 否则 是 没有 意义 的 。SCSI 协 议 利 用 了 一 个 SCSI ID 
的 概念 来 区 分 每 个 节点 。 在 Ultra 320 SCSI 协 议 中 ， 一 条 SCSI 总 线 上 可 
以 存在 16 个 节点 ， 其 中 SCSI 控 制 器 占用 一 个 节点 ，SCSI ID 被 恒定 设置 
为 7。 其 他 15 个 节点 的 SCSI ”ID 可 以 随便 设置 但 是 不 能 重复 。 这 16 个 ID 
中 ，7 有 具有 最 高 的 优先 级 。 也 就 是 说 ， 如 果 ID7 要 发 起 传输 ， 则 其 他 15 个 
ID 都 必须 乖乖 把 总 线 的 使 用 权 让 给 它 。 图 3-19 是 SCSI 总 线 ID 优 先 级 示意 
图 。 

















图 3-19 SCSI 总 线 ID 优 先 级 示意 图 


由 于 总 线 是 一 种 共享 的 线路 ， 总 线 上 的 每 个 节点 都 会 同时 感知 到 这 
条 线路 上 的 电位 信号 ， 所 以 同一 时 刻 只 能 由 一 个 节点 加 这 条 总 线 上 放 数 
据 ， 也 就 是 给 这 条 线路 加 一 个 高 电位 或 者 低 电 位 。 其 他 所 有 节点 都 能 感 
知 到 这 个 电位 的 增 降 ， 但 是 只 有 接受 方 节点 才 会 将 感知 到 的 电位 增 降 信 
号 保存 到 目 己 的 缓存 中 ， 这 些 保存 下 来 的 信号 惑 是 数据 。 电 路 上 是 高 
位 则 接受 方 会 保存 为 1， 低 电位 则 保存 成 0， 反 过 来 保存 也 可 以 。 图 3-20 
所 示 的 一 个 只 有 两 条 导线 的 总 线 网 络 〈 实 际 中 的 总 线 远 远 不 止 两 条 导 
线 ) ， 其 中 总 线 终结 电阻 的 作用 是 终结 导线 上 的 电位 信和 号 。 




















图 3-20 SCSI 总 线 ID 


图 3-21 是 一 个 32 位 数据 总 线 的 SCSI ID 与 其 优先 级 以 及 导线 的 对 应 


图 3-21 SCSIID 与 其 优先 级 以 及 导线 的 对 应 表 





那么 这 些 节 点 是 如 何 知道 现在 正在 通信 的 两 个 节点 之 中 有 没有 上 自己 
呢 ? 要 了 解 当前 线路 上 是 不 是 自己 在 通信 ， 或 者 自己 想 争夺 线路 的 使 用 
权 而 通告 其 他 节 点 ， 这 个 过 程 叫 做 仲裁 。 有 总 线 的 地 方 束 有 仲裁 ， 因 为 
忆 线 是 共 译 的 ， 各 个 节点 都 申请 使 用 ， 所 以 必须 有 一 个 仲裁 机 制 。SCSI 
接口 并 不 只 有 8 或 者 16 条 数据 线 ， 还 有 很 多 控制 信号 线 。 











普通 台式 机 主板 一 般 不 集成 SCSI 控 制 器 ， 如 果 想 接 入 SCSI 磁 盘 ， 
则 必须 增加 SCSI 卡 。SCSI 卡 一 端 接 入 主机 的 PCI 总 线 ， 另 一 端 用 一 个 
SCSI 控 制 器 接 入 SCSI 总 线 。 卡 上 有 自己 的 CPU 频率 很 低 ， 一 般 为 
RISC Ys TO OR OM 个 SCSI 卡 的 工作 。 经 过 
这 样 的 架构 ，SCSI 卡 将 SCSI 总 线 上 的 所 有 设备 经 过 PCI 总 线 传递 给 内 存 
中 运行 着 的 SCSI 卡 的 驱动 程序 ， 这 样 操作 系统 便 会 知道 SCSI 总 线 上 的 
所 有 设备 了 。 人 不 止 一 个 SCSH 扩 制 祝 ， 则 每 个 控制 器 都 可 以 
单独 掌管 一 条 SCSI 总 线 ， 这 就 是 多 通道 SCSI 卡 。 通 道 越 多 ， 一 张 卡 可 
接 入 的 SCSI 设 备 就 越 多 。 





图 3-22 是 SCSI 总 线 接 入 计算 机 总 线 的 示意 
图 3-22 ”SCSI 总 线 与 计算 机 总 线 

2) SCSI 寻 址 机 制 和 几 个 阶段 

(1) 空闲 阶段 


总 线 一 开始 是 处 于 一 种 空 亲 状态， 没有 节点 要 发 起 通信 。 总 线 空闲 
的 时 候 ，BSY 和 SEL 这 两 条 控制 信号 线 的 状态 都 为 False 状 态 《〈 用 一 个 持 
续 的 电位 表示 ) ， 此 时 任何 节点 都 可 以 发 起 通信 。 


(2) 仲裁 阶段 


节点 是 通过 在 8 条 或 者 16 条 数据 总 线 上 (8 位 宽 SCSI 有 8 条 ，16 位 宽 
SCSI 有 16 条 ) 提升 自己 对 应 的 那 条 线路 的 电位 来 申请 总 线 使 用 权 的 。 提 
升 自 己 ID 对 应 线路 的 电位 的 同时 ， 这 个 节点 也 提升 BSY 线 路 的 电位 。 每 
个 ID 号 对 应 这 8 条 或 者 16 条 线 中 的 一 条 。SCSI 设 备 上 都 有 跳 线 用 来 设置 
这 个 设备 的 ID 号 。 跳 线 设 置 好 之 后 ， 这 个 设备 每 次 申请 仲裁 都 只 会 在 
SCSI 接 口 的 8 条 或 16 条 数据 线 中 的 对 应 它 自身 ID 的 那 条 线 上 提升 电位 。 
如 果 同 时 有 多 个 节点 提升 了 各 自 线路 上 的 电位 ， 那 么 所 有 发 起 申请 的 节 
点 均 判 断 总 线 上 的 这 些 信号 ， 如 果 自 己 是 最 高 优先 级 的 ， 那 么 就 持续 保 
留 这 个 信号 。 而 其 他 低 优先 级 的 节点 一 旦 检测 到 高 优先 级 的 ID 线 路 上 有 
言 号 ， 则 立即 撤销 自身 的 信号 ， 回 到 初始 状态 等 待 下 轮 仲 裁 ， 而 最 高 优 
先 级 的 ID 就 在 这 轮 仲裁 中 获胜 ， 取 得 总 线 的 使 用 权 ， 同 时 将 SEL 信 和 号 线 
提升 电位 。 














SCSI 总 线 的 寻 址 方式 ， 按 照 控制 器 一 通道 一 SCSI ID 一 LUN ID 来 寻 
址 。LUN 是 个 新 名 词 ， 全 称 是 Logical Unit Number， 后 文 会 对 它 进行 描 
述 。 


先 看 一 下 控制 器 一 级 寻 址 。 控 制 器 就 是 指 SCSI 控 制 器 ， 这 个 控制 器 
集成 在 南 桥 上 ， 或 者 独立 于 某 个 PCI 插 卡 。 但 不 管 在 哪里 ， 它 们 都 要 连 
接 到 主机 IO 总 线 上 。 有 IO 端口 ， 就 可 以 让 CPU 访问 到 。 一 个 主机 IO 总 线 
上 不 一 定 只 有 一 个 SCSI 控 制 器 ， 可 以 有 多 个 ， 比 如 插入 多 张 SCSI 卡 到 
主板 ， 那 么 就 会 在 Windows 系 统 的 设备 管理 器 中 发 现 多 个 SCSI 控 制 妖 。 
系统 会 区 分 每 个 控制 器 。 





每 个 控制 器 又 可 以 有 多 个 通道 。 通 道 也 就 是 SCSI 总 线 ， 一 条 SCSI 
总 线 就 是 一 个 通道 。 那 么 多 条 SCSI 总 线 〈 通 道 ) 可 以 被 一 个 控制 器 管理 


么 ?答案 是 肯定 的 ， 这 个 物理 控制 器 会 被 逻辑 划分 为 多 个 虚拟 的 、 可 以 
管理 多 个 通道 (SCSI 总 线 ) 的 控制 器 ， 称 为 多 通道 控制 器 。 目 前 市 场 上 
有 的 产品 可 以 将 4 个 通道 集成 到 一 个 单独 的 SCSI 上 上 。 不 仅仅 SCSI 控 制 
器 可 以 有 多 通道 ，IDE 控 制 器 也 有 通道 的 概念 。 我 们 知道 ， 普 通 台 式 机 
主板 上 一 般 会 有 两 个 IDE 插 槽 ， 一 个 IDE 插 槽 可 以 连接 两 个 IDE 设 备 ， 但 
是 设备 管理 器 中 只 一 个 IDE 控 制 器 ， 如 图 3-23 所 示 。 也 就 是 说 一 个 控 
制 器 掌管 着 两 个 通道 ， 每 个 通道 (总 线 ) 上 都 可 以 接 入 两 个 IDE 设 备 。 








图 3-23” Windows 中 的 IDE 控 制 器 


Bn 就 是 指 上 面 可 以 接 几 条 
SCSI 总 线 。 当 然 通道 数目 越 多 ， 能 接 入 的 SCSI 设 备 也 就 越 多 。 


每 个 通道 (总 线 ) 上 可 以 接 入 8 或 16 个 SCSI 设 备 ， 所 以 必须 区 分 开 
每 个 SCSI 设 备 。SCSI ID 就 是 针对 每 个 设备 的 编号 ， 每 个 通道 上 的 设备 
Te 前 道 之 间 的 设备 I 有 D 可 以 相同 ， 并 不 影响 它们 的 区 

， 因 为 它们 的 通道 号 不 同 。 如 图 3-24 所 示 为 多 通道 控制 器 示意 图 。 











图 3-24 ”多 通道 控制 器 示意 图 














图 3-25 中 所 示 的 机 器 安装 了 一 块 LSI 的 SCSI 卡 ， 但 是 显示 为 两 个 设 
备 ， 这 两 个 设备 就 是 两 个 通道 





图 3-25 Windows 中 的 SCSI 控 制 器 


其 中 二 个 ee 设备 (第 三 个 PCI 插 槽 ) 上 。 
功能 0 指 的 就 是 0 号 通道 ， 如 图 3-26 所 示 。 





图 3-26 ”Windows 中 的 控制 器 通道 号 (1) 





另 一 个 也 在 第 3 号 PCI 总 线 上 的 第 三 个 设备 〈 第 三 个 PCI 搬 槽 ) 上 ， 
表明 这 个 设备 也 在 同一 块 SCSI 卡 上 。 功 能 1 指 的 是 1 号 通道 ， 如 图 3-27 所 
示 。 

















图 3-27 Windows 中 的 控制 器 通道 号 (2) 





然而 ，SCSI ID 并 不 是 SCSI 总 线 网 络 中 的 最 后 一 层 地 址 ， 还 有 一 个 
LUN ID。 这 个 是 做 什么 用 的 呢 ? 难道 一 个 SCSI ID， 也 就 是 一 个 SCSI 设 
备 ， 还 可 以 再 划分 ? 是 的 ， 可 以 再 分 ! 再 分 就 不 是 物理 上 的 分 割 了 ， 总 
不 能 把 一 个 SCSI 设 备 狂 开 两 半 吧 。 只 能 在 逻辑 上 分 ， 每 个 SCSI ID 下 面 
可 以 再 区 分 出 来 若干 个 LUN _ ID。 控制 器 初始 化 的 时 候 ， 会 对 每 个 SCSI 
ID 上 的 设备 发 出 一 条 Report LUN 指 令 ， 用 来 收集 每 个 SCSI ID 设备 的 
LUN 信 息 。 这 样 ， 一 条 SCSI 总 线 上 可 接 入 的 最 终 逻 辑 存储 单元 数量 就 大 
大 增加 了 。LUN 对 传统 的 SCSI 总 线 来 说 意义 不 大 ， 因 为 传统 SCSI 设 备 
本 身 已 经 不 可 物理 上 再 分 了 。 如 果 一 个 物理 设备 上 没有 再 次 划分 的 逻辑 
单元 ， 那 么 这 个 物理 设备 必须 向 控制 器 报告 一 个 LUN0， 代 表 物 理 设 备 
本 身 。 对 于 带 RAID 功 能 的 SCSI 接 口 磁盘 阵列 设备 来 说 ， 由 于 会 产生 很 
多 的 虚拟 磁盘 ， 所 以 只 靠 SCSI ID 是 不 够 的 ， 这 时 候 就 要 用 到 LUN 来 扩 
充 可 寻 址 的 范围 ， 所 以 习惯 上 称 磁 盘 阵 列 生成 的 虚拟 磁盘 为 LUN。 关 于 
RAID 和 磁盘 阵列 会 分 别 在 本 书 的 第 4 一 6 章 中 介绍 。 





(3) 选择 阶段 


仲裁 阶段 之 后 ， 获 胜 的 节点 会 将 BSY 和 SEL 信 号 线 置 位 ， 然 后 将 8 
或 16 条 数据 总 线 上 对 应 它 上 自身 ID 的 线路 和 对 应 它 要 通信 的 目标 思 的 线路 
的 电位 提升 ， 这 样 目的 节点 就 能 感知 到 它 自 己 的 线路 上 来 了 信号 ， 开 始 
做 接收 准备 。 


提示 : ”SCSI 控 制 器 也 是 总 线 上 的 一 个 节点 ， 它 的 优先 级 必须 
是 最 高 的 ， 即 等 于 7， 因 为 控制 器 需要 掌控 整 条 总 线 。 


总 线 上 最 常 发 生 的 是 控制 器 向 其 他 节点 发 送 和 接收 数据 ， 而 除 控制 
器 之 外 的 其 他 节点 之 间 交 互 数 据 ， 一 般 是 不 会 发 生 的 。 如 果 要 从 总 线 上 
的 一 块 硬盘 复制 数据 到 另 一 块 硬盘 ， 那 也 必须 先 将 数据 发 送 到 控制 器 ， 
控制 器 再 复制 到 内 存 ， 经 过 CPU 运算 后 再 次 发 给 控制 器 ， 然 后 控制 器 再 
发 给 另外 一 块 硬盘 。 经 过 这 么 长 的 路 径 而 不 直接 让 这 两 块 硬盘 建立 通 
信 ， 原 因 就 是 硬盘 本 身 是 不 能 感知 文件 这 个 概念 的 ， 硬 盘 只 理解 SCSI 语 
言 ， 而 SCSI 语 言 是 处 理 硬 盘 LBA 块 的 ， 即 告诉 硬盘 读 或 者 写 某 些 LBA 地 
址 上 的 扇 区 《〈 块 ) ， 而 不 可 能 告诉 硬盘 读 写 某 个 文件 。 文 件 这 个 层次 的 
功能 是 由 运行 在 主机 上 的 文件 系统 代码 所 实现 的 ， 所 以 硬盘 必须 将 数据 
先 传送 到 主机 内 存 由 文件 系统 处 理 ， 然 后 再 发 回 另 外 的 硬盘 。 























这 就 是 SCSI 的 网 络 层 。 每 个 节点 都 在 有 条 不 素 地 和 控制 器 交互 痢 数 
据 。 


3. SCSI 协 议 的 传输 层 


OSI 模型 中 的 传输 层 的 功能 就 是 保障 此 端的 数据 成 功 地 传送 到 彼 
端 。 与 链 路 层 不 同 的 是 ， 链 路 层 只 是 保障 线路 两 端 数据 的 传送 ， 而 且 一 
旦 茶 个 帧 出 错 ， 链 路 层 程序 本 喘 不 会 重新 传送 这 个 帧 。 所 以 ， 需 要 有 一 
个 端 到 端的 机 制 来 保障 传输 ， 这 个 机 制 是 运行 在 通信 双方 最 终 的 两 端 
的 ， 而 不 是 茶 个 链 路 的 两 端 。 








图 3-28 显 示 了 SCSI 协 议 是 如 何 保障 每 个 指令 都 极 成 功 传送 到 对 方 
的 。 








图 3-28 ”控制 器 向 设备 发 送 数 据 ( 写 入 数据 ) 





发 起 方 在 获得 总 线 仲裁 之 后 ， 会 发 送 一 个 SCSI ”Command 写 命令 
帧 ， 其 中 包含 对 应 的 LUN 号 以 及 LBA 地 址 段 。 接 收 端 接收 后 ， 就 知道 下 
一 步 对 方 就 要 传输 数据 了 。 接 收 方 做 好 准备 后 ， 回 发 起 方 及 送 一 个 
XFER_RDY 帧 ， 表 示 已 经 做 好 接收 准备 ， 可 以 随时 发 送 数据 。 





发 起 方 收 到 XFER_RDY 帧 之 后 ， 会 立即 发 送 数据 。 每 发 送 一 帧 数 
据 ， 接 收 方 就 回 送 一 个 XFER_RDY 帧 ， 表 示 上 一 帧 成 功 收 到 并 且 无 错 
误 ， 可 以 立即 发 送 下 一 帧 ， 直 到 数据 发 送 结束 。 


接收 方 发 送 一 个 RESPONSE 帧 来 表示 这 条 SCSI 命 令 执 行 完毕 。 
图 3-29 是 一 个 SCSI 读 过 程 的 示意 图 。 


图 3-29 ”控制 器 向 设备 读 取 数 据 








发 起 方 在 获得 总 线 仲裁 之 后 ， 会 发 送 一 个 SCSI ”Command 读 命令 
帧 。 接 收 端 接收 后 ， 立 即将 该 命令 中 给 出 的 LUN 以 及 LBA 地 址 段 的 所 有 
届 区 的 数据 读 出 ， 传 送 给 发 起 并。 


所 有 数据 传输 结束 后 ， 目 标 端 发 送 一 个 RESPONSE 帧 来 表示 这 条 


SCSI 命 令 执行 完毕 。 





SCSI 协 议 语言 就 是 利用 这 种 两 端 节 点 之 间 相 互 传送 一 些 控制 帧 ， 来 
达到 保障 数据 成 功 传输 的 目的 。 





4. SCSI 协 议 的 会 话 层 、 表 示 层 和 应 用 层 








会 话 层 、 表 示 层 和 应 用 层 是 OSI 模型 中 最 上 面 的 三 层 ， 是 与 抵 层 网 


络 通信 语言 无 关 的 ， 底 层 语 言 没 有 必要 了 解 上 层 语言 的 含义 。 有 没有 会 
话 层 ， 完 全 取 雇 于 利用 这 个 协议 进行 通信 的 应 用 程序 。 这 里 我 们 就 不 再 
详 述 了 。 





3.6” 倒 盘 控 制 葵 、 驳 动 右 控制 电路 和 磁盘 控制 硕 
驱动 程序 


3.6.1 ”磁盘 控制 器 


硬盘 的 接口 包括 物理 接口 ， 也 就 是 硬盘 接 入 到 磁盘 控制 器 上 需要 用 
的 接口 ， 有 具体 的 针 数 、 某 个 针 的 作用 等 。 除 了 物理 接口 规范 之 外 ， 还 定 
义 了 一 套 指令 系统 ， 叫 做 逻辑 接口 。 磁 盘 通 过 物理 线 比 和 接口 连接 到 磁 
盘 控制 器 之 后 ， 知 想 在 磁盘 上 存放 一 个 字母 应 该 怎么 操作 ? 这 是 需要 业 
界定 义 的 很 重要 的 东西 。 指 令 集 定 义 了 “怎样 癌 磁 盘 发 送 数 据 和 从 磁盘 
读 取 数据 以 及 怎样 控制 其 他 行为 ”， 比 如 SCSI 和 ATA 指 令 。 其 中 ， 逮 辑 
接口 ， 也 就 是 SCSI 或 者 ATA 指 令 集 部 分 ， 指 令 实 体内 容 是 需要 由 运行 于 
操作 系统 内 核 的 驱动 程序 来 生成 的 ， 而 物理 接口 的 连接 ， 就 是 磁盘 控制 
器 心 片 需要 负责 的 ， 比 如 ATA 控 制 器 或 SCSI 控 制 器 。 磁 盘 控制 器 的 作用 
是 参与 底层 的 总 线 初 始 化 、 仲 裁 等 过 程 以 及 指令 传输 过 程 、 指 令 传输 状 
态 机 、 重 传 、ACK 确 认 等 ， 将 这 些 太 过 底层 的 机 制 过 滤 掉 ， 从 而 向 驱动 
程序 提供 一 种 简洁 的 接口 。 驱 动 程序 只 要 将 要 读 写 的 设备 号 、 起 始 地 址 
等 信息 ， 也 就 是 指令 描述 块 (Command Description Block，CDB ) 传递 
给 控制 器 即 可 ， 控 制 器 接受 指令 并 做 相应 动作 ， 将 执行 后 的 结果 信号 返 
回 给 驱动 程序 。 





























3.6.2 ”驱动 器 控制 电路 


应 该 将 磁盘 控制 器 和 磁盘 驱动 喜 的 控制 电路 区 别 开 来 ， 二 者 是 作用 
于 不 同 物理 位 置 的 。 人 磁盘 驱动 占 控 制 电路 位 于 磁盘 驱动 事 上 ， 它 专门 负 
责 直 接 张 动 磁头 臂 做 运动 来 读 写 数据 : 而 主板 上 的 磁盘 控制 器 专门 用 来 
问 磁 盘 驱 动 器 的 控制 电路 发 送 指令 ， 从 而 控制 磁盘 驱动 器 读 写 数据 。 由 


磁盘 控制 器 对 磁盘 驱动 器 发 出 指令 ， 进 而 操作 磁盘 ，CPU 做 的 仅仅 是 操 
作 控 制 器 就 可 以 了 。 来 梳理 一 下 这 个 结构 ，CPU 通 过 主板 上 的 导线 发 送 
SCSI 或 者 ATA 指 令 (CDB) 给 同样 处 于 主板 上 的 磁盘 控制 器 ， 人 磁盘 控 
制 器 继而 通过 线 缆 将 指令 发 送 给 磁盘 驱动 器 并 维护 底层 指令 交互 状态 
机 ， 由 磁盘 驱动 器 解析 收 到 的 指令 从 而 根据 指令 的 要 求 来 控制 磁头 臂 。 


SCSI 或 者 ATA 指 令 CDB 是 由 OS 内 核 的 磁盘 控制 器 驱动 程序 生成 并 
发 送 的 。CPU 通 过 执行 磁盘 控制 器 驱动 程序 ， 生 成 指令 发 送 给 磁盘 控制 
器 ， 控 制 器 收 到 这 些 CDB 后 ， 会 做 一 定 程 度 的 翻译 映射 工作 ， 生 成 最 底 
层 的 磁盘 可 接受 的 纯 SCSI 指 令 ， 然 后 通过 底层 的 物理 操作 ， 比 如 总 线 促 
裁 ， 然 后 编码 ， 再 在 线 缆 上 将 指令 发 送 给 对 应 的 磁盘 。 


3.6.3 ”位 盘 控制 器 驱动 程序 


那么 机 器 刚 通 电 ， 操 作 系 统 还 没有 启动 起 来 并 加 载 磁 盘 控 制 器 驱动 
的 时 候 ， 此 时 是 怎么 访问 磁盘 的 呢 ? CPU 必须 执行 磁盘 通道 控制 器 驱动 
程序 才能 与 控制 器 交互 ， 才 能 读 写 数据 。 所 以 ， 系 统 BIOS 中 存放 了 初 
始 化 系统 所 必需 的 基本 代码 。 系 统 BIOS 初 始 化 过 程 中 有 这 么 一 步 ， 就 
是 去 发 现 并 执行 磁盘 控制 器 的 Optional ROM (该 ROM 被 保存 在 磁盘 通 
道 控制 器 中 或 者 单独 的 Flash 蕊 片 内 ) ， 该 ROM 内 包含 了 该 控制 器 的 最 
原始 的 、 可 在 主 BIOS 下 执行 的 驱动 程序 ， 主 BIOS 载 入 并 执行 该 ROM， 
从 而 就 加 载 了 其 驱动 程序 ， 也 就 可 以 与 控制 器 进行 交互 了 。 最 后 主 
BIOS 通 过 执行 驱动 程序 而 使 得 CPU 可 以 发 送 对 应 的 读 指令 ， 提 取 磁 盘 
的 0 磁道 的 第 一 个 扇 区 中 的 代码 载 入 内 存 执行 ， 从 而 加 载 OS。 























系统 BIOS〈( 主 BIOS)， 中 是 包含 常用 的 磁 檀 控制 器 驱动 程序 的 ， 但 
是 对 于 一 些 不 太 和 常用 的 较 高 端的 板 载 控制 器 或 者 PCIE 卡 形式 的 控制 卡 ， 
主 BIOS 一 般 不 包含 其 驱动 ， 所 以 必须 主动 加 载 其 Optional ROM 才 能 在 


主 BIOS 下 驱动 。 如 果 根 本 不 需要 在 主 BIOS 下 使 用 该 控制 器 ， 那 么 就 不 
必 加 载 Optional ROM。 在 OS 内 核 启动 过 程 中 ， 会 用 高 性 能 的 驱动 程序 
来 接管 BIOS 中 驻 留 的 驱动 程序 。 当 然 ，BIOS 中 也 要 包含 键盘 驱动 ， 如 
果 文 持 USB 移 动 设备 启 动 ， 还 要 有 USB 驱 动 。 


图 3-30 显 示 了 磁盘 控制 右 驱 动 程 序 、 磁 盘 控 制 问 和 磁盘 驱动 右 控制 
电路 三 者 之 间 的 关系 。 控 制 器 驱动 程序 负责 将 上 层 下 发 的 SCSIATA 指 
令 传递 给 控制 器 硬件 。 

















图 3-30 ”磁盘 控制 器 驱动 程序 、 磁 盘 控 制 器 和 磁盘 驱动 需 控 制 电路 三 者 的 关系 




















安装 操作 系统 时 ， 安 装 程序 要 求 必 须 加 载 完 整 的 磁盘 控制 器 驱动 程 
序 之 后 才 可 以 识别 到 控制 器 后 面 的 磁盘 从 而 才 可 以 继续 安装 。 此 时 虽然 
系统 BIOS 里 的 基本 简化 驱动 已 经 可 以 向 磁盘 进行 读 写 操作 ， 但 是 其 性 
能 是 很 差 的 ， 基 本 都 使 用 Int13 调 用 方式 ; 而 现代 操作 系统 都 抛弃 了 这 种 
方式 ， 所 以 安装 操作 系统 过 程 中 必须 加 载 完 整 驱动 才 可 以 获得 较 高 的 性 
能 。 至 于 系统 安装 完 后 的 启动 过 程 ， 一 开始 必须 由 BIOS 来 将 磁盘 的 0 磁 
道 代 码 读 出 执行 以 便 加 载 操 作 系 统 ， 使 用 的 是 简化 驱动 ， 启 动 过 程 中 ， 
OS 的 完整 驱动 会 蔡 代 掉 BIOS 的 简化 驱动 被 加 载 。 








提示 : ”本 书 第 9 章 会 详细 描述 SAN Boot 的 启动 过 程 以 及 磁盘 控 
制 絮 驱动 程序 的 详细 架构 。 


3.7 ”内 部 传输 速率 和 外 部 传输 速率 
3.7.1 内 部 传输 速率 


磁盘 的 内 部 传输 速率 指 的 是 磁头 读 写 磁盘 时 的 最 高 速率 。 这 个 速率 
不 包括 寻 道 以 及 等 待 悄 区 旋转 到 磁头 下 所 耗费 时 间 的 影响 。 它 是 一 种 理 
想 情 况 ， 即 假设 磁头 读 写 的 时 候 不 需要 换 道 ， 也 不 专门 读 取 东 个 而 区 ， 
而 是 只 在 一 个 磁道 上 连续 地 循环 读 写 这 个 磁道 的 所 有 而 区 ， 此 时 的 速率 
就 叫做 硬盘 的 内 部 传输 速率 。 











通 解 ， 每 秒 10000 转 的 SCSI 硬 熏 的 内 部 传输 速率 的 数量 级 大 概 在 
1000MB/s 左 右 。 但 是 为 何 实际 使 用 人 硬盘 的 时 候 ， 比 如 复制 一 个 文件 ， 
其 传输 速率 充其量 只 是 每 秒 几 十 光 字 市 呢 ? 原 因 就 是 磁头 需要 不 断 换 














道 。 
想象 : “内 电 侠 正 在 做 数学 题 ， 假 设 我 们 不 打 断 他 ， 他 每 秒 能 
连续 做 100 道 题 ， 此 时 我 们 每 隔 0.1 秒 ， 丈 和 他 交谈 打 断 他 一 


次 ， 每 次 交谈 的 时 间 是 0.5 秒 。 也 就 是 说 闪电 使 实际 上 做 数学 
题 的 时 间 是 每 隔 0.5 秒 做 一 次 ， 每 次 只 能 做 0.1 秒 的 时 间 。 这 
样 ， 每 0.6 秒 闪电 侠 只 能 做 10 道 题 ， 那 么 可 以 计算 出 内 电 侠 实 
际 每 秒 能 做 的 数学 题 只 有 区 区 16 道 ， 这 和 我 们 不 打 断 他 时 的 每 
秒 100 道 题 相 比 差 了 6 倍 多 。 


同样 ， 磁 盘 也 是 这 个 道理 ， 我 们 不 断 地 用 换 道 来 打上 断 磁 头 。 磁 头 滑 
过 盘 片 一 图 ， 只 需要 很 短 的 时 间 ， 而 换 道 所 需 的 时 间 远 远 比 盘 片 旋转 一 
圈 耗 费 的 时 间 多 ， 所 以 造成 磁盘 整体 外 部 传输 速率 显 霄 下 降 。 有 人 问 ， 
必须 要 换 道 么 ?如 果 要 读 写 的 数据 仅 仪 在 一 条 磁道 上 ， 那 是 可 以 获得 极 











高 的 传输 速率 的 ， 但 是 这 并 不 容易 实现 。 如 今 ， 随 着 硬盘 容量 的 加 大 ， 
应 用 程序 产生 的 文件 更 是 在 肆 无 忌 悦 地 加 大 ， 动 轰 几 十 、 几 百 兆 甚至 上 
GB 大 小 ， 敢 问 这 种 文件 用 一 个 磁道 能 放下 么 ? 显然 不 能 。 


所 以 ， 磁 头 必须 不 断 地 被 “ 打 断 ”去 进行 换 道 操 作 ， 整 体 传输 速率 就 
会 大 大 降低 。 实 际 中 一 块 10000 转 的 SCSI 人 硬盘 的 实际 外 部 传输 速率 也 只 
有 80MB/s 左 右 ( 最 新 的 15000 转 的 SAS 人 硬盘 外 部 传输 率 最 大 已 经 可 以 达 
到 200MB/s)〉。 为 了 避免 磁头 被 不 断 打 断 的 问题 ， 人 们 发 明了 RAID 技 
术 ， 让 一 个 硬盘 的 磁头 在 换 道 时 ， 另 一 个 磁盘 的 磁头 在 读 写 。 如 果 有 很 
多 磁盘 联合 起 来 ， 同 一 时 刻 总 有 某 块 硬盘 的 磁头 在 读 写 状态 而 不 是 都 在 
换 道 状 态 ， 这 就 相当 于 一 个 大 虚拟 磁盘 的 磁头 总 是 处 于 读 写 状态 ， 所 以 
RAID 可 以 显著 提升 传输 速率 。 不 仅 如 此 ， 如 采 我 们 将 RAID 阵 列 再 次 进 
行 联合 ， 就 能 将 速率 在 RAID 提 速 的 基础 上 ， 再 次 成 倍 地 增加 。 这 种 工 
作 ， 就 需要 大 型 磁盘 阵列 设备 来 做 了 。 








提示 : RAID 技术 的 细节 在 本 书 第 4 章 详 细 阐 述 ; 磁盘 阵列 技 
术 将 在 本 书 第 6 章 介绍 。 


3.7.2 ”外 部 传输 速率 


磁头 从 盘 片 上 将 数据 读 出 ， 然 后 存放 到 硬盘 驱动 硕 电 路 板 上 的 缓存 
心 厂 内， 再 将 数据 从 缓存 内 取出 ， 通 过 外 部 接口 传送 给 主板 上 的 人 硬盘 控 
制 器 。 从 外 部 接口 传送 给 硬盘 控制 器 时 的 传输 速率 ， 就 是 硬盘 的 外 部 传 
输 速率 。 这 个 动作 是 由 硬盘 的 接口 电路 来 发 起 和 控制 的 。 接 口 电路 和 夏 
头 控制 电路 是 不 同 的 部 分 ， 磁 头 电 路 部 分 是 超 精 密 高 成 本 的 部 件 ， 可 以 
保证 磁头 读 写 时 的 高 速率 。 但 是 因为 磁头 要 被 不 断 地 打 断 ， 所 以 外 部 接 
口传 输 速率 无 顷 和 磁头 传输 速率 一 样 ， 只 要 满足 最 终 的 实际 速率 即 可 。 
外 部 接口 的 速率 通常 大 于 实际 使 用 中 磁头 读 写 数据 的 速率 〈 计 入 换 道 的 














损失 ) 。 


3.8 并 行 传输 和 串 行 传 输 
3.8.1 ”并行 传输 


来 举 一 个 例子 ， 有 8 个 数字 从 1 到 8， 需 要 传送 给 对 方 。 此 时 我 们 可 
以 与 对 方 连接 8 条 线 ， 每 条 线 上 传输 一 个 字符 ， 这 网 是 并 行 传输 。 并 行 
传输 要 求 通信 双方 之 间 的 距离 足够 短 。 因 为 如 果 距 离 很 长 ， 那 么 这 8 条 
线 上 的 数字 因为 导线 电阻 不 均衡 以 及 其 他 各 种 原因 的 影响 ， 最 终 到 达 对 
方 的 速度 束 会 最 现 出 差距 ， 从 而 造成 接收 方 必须 等 8 条 线 上 的 所 有 数字 
都 到 达 之 后 ， 才 能 发 起 下 一 轮 传送 。 





并 行 传输 应 用 到 长 距离 的 连接 上 就 无 优点 可 言 了 。 首 先 ， 在 长 距离 
上 使 用 多 条 线路 要 比 使 用 一 条 单独 线路 昂贵 ， 其次， 长 距离 的 传输 要 求 
较 粗 的 导线 ， 以 便 降 低 信 号 的 衰减 ， 这 时 要 把 它们 捆 到 一 条 单独 电缆 里 
相当 困难 。IDE 硬 盘 所 使 用 的 40 或 者 80 心 电缆 就 是 典型 的 并 行 传输 。40 
芯 中 有 32 芯 是 数据 线 ， 其 他 8 芯 是 承载 其 他 控制 信号 用 的 。 所 以 ， 这 种 
接口 一 次 可 以 同时 传输 32b 的 数据 ， 也 就 是 4B。 





提示 : IO 延迟 与 Queue Depth 

IO 延迟 是 指控 制 器 将 IO 指令 发 出 之 后 ， 直 到 IO 完成 的 过 程 中 所 
耗费 的 时 间 。 目 前 业界 有 不 成 文 的 规定 ， 只 要 IO 延迟 在 20ms 

以 内 ， 此 时 IO 的 性 能 对 于 应 用 程序 来 说 都 是 可 以 接受 的 ， 但 是 
如 果 延 迟 大 于 20ms， 应 用 程序 的 性 能 将 会 受到 比较 大 的 影响 。 
我 们 可 以 推算 出 ， 存 储 设备 应 当 满 足 的 最 低 IOPS 要 求 应 该 为 

1000/20 二 50， 即 只 要 存储 设备 能 够 提供 每 秒 50 座 IO， 则 束 能 

够 满足 IO 延迟 小 于 等 于 20ms 的 要 求 。 但 是 每 秒 50 次 ， 这 显然 

太 低 估 存 储 设 备 的 能 力 了 。 





单 块 SATA 硬 盘 能 够 提供 最 大 两 倍 于 这 个 最 低 标准 的 数值 ， 而 
FC 磁 盘 则 可 以 达到 4 倍 于 这 个 数值 。 对 于 大 型 磁盘 阵列 设备 ， 

由 知 干 磁盘 共同 接受 IO0， 加 上 大 干 个 IO 通道 并 行 工 作 ， 目 前 中 
高 端 设 备 达 到 十 几 万 的 IOPS 已 经 不 成 问题 。 

然而 ， 不 能 总 以 最 低 标准 来 要 求 存 储 设 备 。 当 接受 IO 很 少 的 时 
候 ，IO 延 迟 一 般 会 很 小 ， 比 如 1ms 甚 至 小 于 1ms。 此 时 ， 每 个 
IO 通 道 的 IOPS 二 1000/1 二 1000， 这 个 数值 显然 也 不 对 ， 上 文 所 
述 的 几 十 万 IOPS， 如 果 每 个 IO 通道 仅 提 供 1000 的 IOPS， 那 么 

达到 几 十 万 ， 需 要 几 百 路 IO 通道 ， 这 显然 不 切实 际 。 那 么 几 十 
万 的 IOPS 是 怎么 达到 的 呢 ? 这 就 引出 了 另 一 个 概念 : Queue 

Depth 。 

控制 器 向 存储 设备 发 起 的 指令 ， 不 是 一 条 一 条 顺序 发 送 的 ， 而 
是 一 批 一 批 地 发 送 ， 存 储 目标 设备 批量 执行 IO， 然 后 将 数据 和 
结 末 返回 控制 器 。 也 就 是 说 ， 只 要 存储 设备 肚 量 和 消化 能 力 足 
够 ， 在 IO 比较 少 的 时 候 ， 处 理 一 条 指令 和 同时 处 理 多 条 指令 将 
会 耗费 几乎 相同 的 时 间 。 控 制 右 所 发 出 的 批量 指令 的 最 大 条 

数 ， 由 控制 器 上 的 Queue ”Depth 决定 。 如 果 连 接 外 部 独立 磁盘 
阵列 ， 则 一 般 主 机 控制 器 端 可 以 将 其 Queue ”Depth 设置 为 64、 
128 等 值 ， 视 情况 而 定 。 

如 果 给 出 Queue Depth、IOPS、IO 延 迟 三 者 中 的 任意 两 者 ， 则 
可 以 推算 出 第 三 者 ， 公 式 为 : IOPS 二 (Queue Depth) / (IO 
Latency) 。 实 际 上 ， 随 着 Queue Depth 的 增加 ，IO 延 迟 也 会 随 
即 增加 ， 二 者 是 互相 促进 的 关系 ， 所 以 ， 随 着 IO 数目 的 增多 ， 
将 很 快 达到 存储 设备 提供 的 最 大 IOPS 处 理 能 力 ， 此 时 IO 延迟 

将 会 陡峭 地 升 高， 而 IOPS 则 增加 缓慢。 好 的 存储 系统 ， 其 IO 

延迟 的 增加 应 该 是 越 缓慢 越 好 ， 也 就 是 说 存储 设备 内 部 应 该 具 
有 快速 IO 消化 能 力 。 而 对 于 消化 不 良 的 存储 设备 ， 其 IO 延迟 将 








升 高 得 很 快 ， 以 至 于 在 IOPS 较 低 时 ，IO 延 迟 已 经 达到 了 20ms 
的 可 接受 值 。 消 化 能 力 再 高 ， 也 有 饱和 的 时 候 。 图 3-31 所 示 为 
IO 延迟 与 Queue Depth 示 意图 。 


图 3-31 IO 延迟 与 Queue Depth 示 意图 


3.8.2” 串 行 传输 





还 是 上 面 的 例子 ， 如 果 只 用 一 条 连 线 来 连接 到 对 方 ， 则 我 们 依次 在 
这 条 线 上 发 送 这 8 个 数字 ， 需 要 发 送 8 次 才能 将 数字 全 部 传送 到 对 方 。 串 
行 传输 在 效率 上 ， 显 然 比 并 行 传输 低 得 多 。 但 是 串 行 也 有 串 行 的 优势 ， 
就 是 凭借 这 种 优势 使 得 硬盘 的 外 部 接口 已 经 彻底 被 串 行 传输 所 占领 。 
USB 接 口 、IEEE 1394 接 口 和 和 COM 接口， 这 些 都 是 串 行 传输 的 计算 机 外 
部 接口 。 











并 行 传 输 表 面 上 看 来 比 溃 行 传输 效率 要 高 很 多 倍 ， 但 是 并 行 传输 有 
不 可 逾越 的 技术 困难 ， 那 就 是 它 的 传输 频率 不 可 太 高 。 由 于 在 电路 高 速 
震荡 的 时 候 ， 数 据 线 之 间 会 产生 很 大 的 干扰 ， 造 成 数据 出 错 ， 所 以 必须 
增加 屏蔽 线 。 即 使 加 了 屏蔽 线 ， 也 不 能 保证 屏蔽 掉 更 局 的 频率 干扰 。 所 
以 并 行 传输 效率 高 但 是 速度 慢 。 而 串 行 传输 则 刚好 相反 ， 效 率 古 最 低 
的 ， 每 次 只 传输 一 位 ， 但 是 它 的 速度 非常 高 ， 现 在 已 经 可 以 达到 10Gb/s 
的 传输 速率 ， 但 传输 导线 不 能 太 多 。 























这 样 算 来 ， 串 行 传输 反而 比 并 行 传输 的 总 体 速率 更 快 。 串 行 传输 不 
仅仅 用 于 远 距 离 通信 ， 现 在 就 连 PCI 接 口 都 转向 了 串 行 传输 方式 。PCIE 
接口 就 是 典型 的 串 行 传输 方式 ， 其 单条 线路 传输 速率 高 达 2.5Gb/s， 还 可 
以 在 每 个 接口 上 将 多 条 线路 并 行 ， 从 而 将 速率 翻 倍 ， 比 如 4X 的 PCIE 最 
高 可 达 16X， 也 就 是 说 将 16 条 2.5Gb/s 的 线路 并 行 连接 到 对 方 。 这 仿佛 又 
回 到 了 并 行 时 代 ， 但 是 也 只 有 在 短 距离 传输 上 ， 比 如 主板 上 的 各 个 部 件 











之 间 ， 才 能 承受 如 此 高 速 的 并 行 连 接 ， 远 距离 传输 古 达 不 到 的 。 


3.9 ”磁盘 的 IOPS 和 传输 带宽 〈 和 吞吐 量 ) 


3.9.1 IOPS 





磁盘 的 IOPS， 也 惑 是 每 秒 能 进行 多 少 次 IJO， 每 次 IO 根据 写 入 数据 

的 大 小 ， 这 个 值 也 不 是 固定 的 。 如 果 在 不 频繁 换 道 的 情况 下 ， 每 次 IO 都 
写 入 很 大 的 一 块 连续 数据 ， 则 此 时 每 秒 所 做 的 IO 次 数 是 比较 低 的 ;如 果 
磁头 频繁 换 道 ， 每 次 写 入 数据 还 比较 大 的 话 ， 此 时 IOPS 应 该 是 这 块 硬盘 
的 最 低 数值 了 ; 如 果 在 不 频繁 换 道 的 条 件 下 ， 每 次 写 入 最 小 的 数据 块 ， 

比如 512B， 那 么 此 时 的 IOPS 将 是 最 高 值 ， 如 果 使 IO 的 payload 长 度 为 0， 

不 包含 开销 ， 这 样 形成 的 IOPS 则 为 理论 最 大 极限 值 。IOPS 随 着 上 层 应 

用 的 不 同 而 有 很 大 变化 。 














提示 : 如 何 才 算 一 次 IO 呢 ?这 是 很 多 人 都 没有 和 弄 清 楚 的 问 
题 ， 也 是 定义 很 混乱 的 一 个 问题 。 其 根本 原因 就 在 于 一 次 IO 在 
系统 路 径 的 每 个 层次 上 都 有 自己 的 定义 。 整 个 系统 是 由 一 个 一 
个 的 层次 模块 组 合 而 成 的 ， 每 个 模块 之 间 都 有 各 自 的 接口 ， 而 
在 接口 间 流 动 的 数据 就 是 IO。 那 么 如 何 才 算 “ 一 次 ”IO 呢 ?以 下 
列举 了 各 个 层次 上 的 “一 次 ”IO 的 定义 。 

应 用 程序 向 操作 系统 请 求 : 人 
作 系 统 恋 取 后 返回 应 用 程序 一 个 信号 ， 这 次 IO 就 完成 了 。 这 职 
是 应 用 程序 做 的 一 次 IO。 

文件 系统 同人 磁盘 控制 占 驱 动 程序 请 求 :“ 读 取 从 LBA10000 开 始 
的 后 128 个 届 区 ”， 然 后 “请 恋 取 从 LBA50000 开 始 的 后 64 局 
区 ”， 这 束 是 文件 系统 同 下 做 的 两 次 IO。 这 两 次 IO， 假 设 对 应 
了 第 一 步 里 那个 应 用 程序 的 请 求 。 

磁盘 控制 器 驱动 程序 用 信号 来 驱动 磁盘 控制 器 向 磁盘 发 送 SCSI 























中 令 和 数据 。 对 于 SCSI 协 议 来 说 ， 完 成 一 次 连续 LBA 地 址 书 区 
的 读 写 驶 算 一 次 IJO。 但 是 为 了 完成 这 次 恋 或 者 写 ， 可 能 需要 发 
送 否 干 条 SCSI 指 令 帧 。 从 最 底层 来 看 ， 每 次 同 磁 盘 发 送 一 个 
SCSI 帧 ， 就 算 一 次 IO， 这 也 是 最 细 粒 度 的 IO。 但 是 通常 说 磁 
盘 IO 都 是 指 完成 整个 一 次 SCSI 恋 或 者 写 。 

如 果 在 文件 系统 和 磁盘 之 间 再 插入 一 层 卷 管理 层 ， 或 在 磁盘 控 
制 器 和 磁盘 之 间 再 插入 一 层 RAID 虚 拟 化 层 ， 那 么 上 层 的 一 次 
IO 就 往往 会 演变 成 下 层 的 多 次 IO。 




















对 于 磁盘 来 说 ， 每 次 IO 就 是 指 一 次 SCSI 指 令 交 互 回 合 。 一 个 回合 中 
可 能 包含 了 若干 SCSI 指 令 ， 而 这 一 个 回合 里 却 只 能 完成 一 次 IO， 比 
如 “ 读 取 从 LBA10000 开 始 的 后 128 个 扇 区 ”。 





例如 ， 写 入 10000 个 大 小 为 1KB 的 文件 到 硬盘 上 ， 耗 费 的 时 间 要 比 
写 入 一 个 10MB 大 小 的 文件 多 得 多 ， 虽 然 数 据 总 量 都 是 10MB。 因 为 写 入 
10000 个 文件 时 ， 根 据 文件 分 布 情况 和 大 小 情况 ， 可 能 需要 做 好 几 万 甚 
至 十 几 万 次 IO 才能 完成 。 而 写 入 一 个 10MB 的 大 文件 ， 如 果 这 个 文件 在 
磁盘 上 是 连续 存放 的 ， 那 么 只 需要 几 十 个 IO 就 可 以 完成 。 











对 于 写 入 10000 个 小 文件 的 情况 ， 因 为 每 秒 需 要 的 IO 非常 高 ， 所 以 
此 时 如 果 用 有 具有 较 高 IOPS 的 磁盘 ， 将 会 提速 不 少 。 而 写 入 一 个 10MB 文 
件 的 情况 ， 就 算 用 了 有 较 高 IOPS 的 硬盘 来 做 ， 也 不 会 有 提升 ， 因 为 只 需 
要 很 少 的 IO 就 可 以 完成 了 ， 只 有 换 用 具有 较 大 传输 带宽 的 硬盘 ， 才 能 体 
现 出 优势 。 








同一 块 磁盘 在 读 写 小 块 数据 的 时 候 速 度 是 比较 高 的 ， 而 读 写 大 块 数 
据 的 时 候 速 度 比较 低 ， 因 为 读 写 花 费 的 时 间 变 长 了 。15000 转 的 硬盘 比 
10000 转 的 硬 舟 性 能 要 高 。 图 3-32 所 示 为 倒 盘 IOPS 性 能 与 IO SIZE 的 关系 


曲线 。 





图 3-32 ”磁盘 IOPS 性 能 与 1O SIZE 的 关系 曲线 





3.9.2 ”传输 带宽 





传输 带宽 指 的 是 人 硬盘 或 设备 在 传输 数据 的 时 候 数 据 流 的 速度 。 还 是 
刚才 那个 例子 ， 如 果 写 入 10000 个 1KB 的 文件 需要 10s， 那 么 此 时 的 传输 
带宽 只 能 达到 每 秒 IMB， 而 写 入 一 个 10MB 的 文件 用 了 0.1s， 那 么 此 时 
的 传输 带宽 就 是 100MB/s。 所 以 ， 即 使 同一 块 硬盘 在 写 入 不 同 大 小 的 数 
据 时 ， 表 现 出 来 的 带宽 也 是 不 同 的 。 具 有 高 带宽 规格 的 硬盘 在 传输 大 块 
连续 数据 时 具有 优势 ， 而 具有 高 IOPS 的 硬盘 在 传输 小 块 不 连续 的 数据 时 
具有 优势 。 





同样 ， 对 于 一 些 磁盘 阵列 来 说 ， 也 有 这 两 个 规格 。 一 些 高 端 产 品 同 





时 具备 较 高 的 IOPS 和 带宽 ， 这 样 就 可 以 保证 在 任何 应 用 下 都 能 表现 出 高 
性 能 。 


3.10 ”固态 存储 介质 和 固态 便 盘 


固态 存储 在 这 几 年 来 开始 大 行 其 道 ， 其 在 性 能 方面 相对 机 械 磁 盘 来 
讲 有 着 无 与 伦比 的 优势 ， 比 如 ， 没 有 机 械 寻 道 时 间 ， 对 任何 地 址 的 访问 
耗费 开销 都 相等 ， 所 以 随机 IO 性 能 很 好 。 关 于 SSD 的 一 些 性 能 指标 ， 本 
市 不 再 列 出 。 


但 是 SSD 也 存在 一 些 致命 的 缺点 ， 现 在 我 们 就 来 了 解 一 下 固态 存 
储 。 


提示 : 关于 固态 硬盘 的 一 些 细节 标准 和 操作 指南 请 参考 《 固 
态 人 硬盘 火力 全 开 一 一 超 高 速 SSD 应 用 详解 与 技巧 》， 清 华 大 学 
出 版 社 。 





3.10.1 ”SSD 固态 人 硬盘 的 人 硬件 组 成 


SSD (Solid State Drive) 是 一 种 利用 Flash 心 片 或 者 DRAM 心 片 作为 
数据 永久 存储 的 便 盘 ， 这 里 不 可 以 再 说 磁盘 了 ， 因 为 Flash Drive 不 再 使 
用 磁 技 术 来 存储 数据 。 利 用 DRAM 作 为 永久 存储 介质 的 SSD， 又 可 称 为 
RAM-Dsk， 其 内 部 使 用 SDRAM 内 存 条 来 存储 数据 ， 所 以 在 外 部 电源 断 
开 后 ， 需 要 使 用 电池 来 维持 DRAM 中 的 数据 。 现 在 比较 常见 的 SSD 为 基 
于 Flash 介 质 的 SSD。 所 有 类 型 的 ROM 〈 比 如 EPROM、EEPROM) 和 
Flash 心 片 使 用 一 种 叫做 “浮动 门 场 效 应 晶体 管 " 的 晶体 管 来 保存 数据 。 
个 这 样 的 晶体 管 叫做 一 个 “Cellj”， 即 单元 。 有 两 种 类 型 的 Cell: 第 一 种 
是 Single Level Cell (SLC) ， 每 个 Cell 可 以 保存 lbit 的 数据 ; 第 二 种 为 
Multi Level Cell (MLC) ， 每 个 Cell 可 以 保存 2bit 的 数据 。MLC 容 量 关 
SLC 的 两 倍 ， 但 是 成 本 却 与 SLC 大 致 相当 ， 上 所 以 相同 容量 的 SSD，MLC 





芯片 成 本 要 比 SLC 芯 片 低 很 多 。 Re 
态 ， 其 复杂 度 比 较 高 ， 所 以 出 错 率 也 很 高 。 不 管 SLC 还 是 MLC， 都 需 
额外 保存 ECC 校 验 信息 来 做 数据 的 错误 恢复 。 





我 们 来 看 一 下 这 种 场 效 应 晶体 管 为 何 可 以 保存 数据 。 由 于 计算 机 的 
数据 只 有 0 和 1 两 种 形式 ， 那 么 只 要 让 某 种 物质 的 存在 状态 只 有 两 种 ， 并 
且 可 以 随时 检测 其 状态 ， 那 么 这 种 物质 就 可 以 存储 lbit 数 据 。 和 磁盘 使 用 
一 块 磁 粒 子 区 域 来 保存 1 或 者 0， 那 么 对 于 尾 片 来 讲 用 什么 来 表示 呢 ? 当 
然 非 电 荷 砚 属 。 比 如 充满 电表 示 0， 放 电 后 表示 1 (这 里 指 电子 而 不 是 正 
电荷 ) 。 浮 动 门 场 效应 晶体 管 就 是 利用 这 种 方法 。 











如 图 3-33 所 示 ， 浮 动 门 场 效 应 管 ”图 333 党 动 门 结构 
由 Controler Gate (CG) 、Floating 
Gate (FG) 、 半 导体 二 氧化 硅 绝缘 层 以 及 输入 端 源 极 和 输出 端 汲 极 触 点 
等 逻辑 元 件 组 成 。 浮 动 门 是 一 块 氮 氧化 物 ， 其 四 周 被 二 氧化 硅 绝缘 层 包 
里 着 ， 其 外 部 为 男 一 个 门 电路 ( 即 控制 门 )。 在 Word Line《〈 字 线 ) 上 

台 高 电势 ， 会 在 S 和 D 之 间 区 域 感 生 出 一 个 电场 ， 从 而 导 通 $ 和 D、S 和 D 

之 间 有 电流 通过 ， 这 会 使 一 部 分 电子 穿 过 绝缘 层 到 达 浮 动 门 内 的 氮 氧 化 
物 ， 在 这 个 充电 过 程 中 ， 电 子 电 蓓 被 存储 在 了 浮动 门 中 。 随 后 Word 
Line 恢 复 电 势 ， 控 制 门 断 开 电 场 ， 但 是 此 时 电子 仍然 在 被 绝缘 层 包 庄 的 
浮动 门 电路 中 ， 所 以 此 时 译 动 门 被 充电 ， 并 且 这 些 电荷 可 以 在 外 部 电源 
eb i 不 同 规 格 的 Flash 其 保存 时 间 不 

， 通 常 为 数 个 月 。 这 为 系统 设计 带 来 了 复杂 性 ，Flash 控 制 器 必须 确保 
we 恢复 其 原先 的 状态 ， 也 就 是 
重新 充电 。 而 且 要 逐渐 调整 感知 时 间 ， 由 于 对 Cell 的 读 操 作 是 通过 预 充 
电 然 后 放电 来 比 对 基准 电压 ， 进 而 判断 1 或 0 的 ， 如 果 其 中 的 电荷 所 剩 不 
多 ， 那 么 感知 基准 电压 的 变化 束 雷 要 更 长 的 等 竺 时 间 ， 控 制 器 需要 精确 








的 做 预 判 才 可 以 保证 性 能 。 


所 谓 “ 浮 动 门 ”(Floating Gate，FG) 的 名 称 也 就 是 由 此 而 来 的 ， 即 
这 块 氮 氧 化 物 是 被 二 氧化 硅 绝缘 层 包 衷 住 而 浮动 在 空中 的 ， 如 图 3-33 右 
图 所 示 ， 电 流 从 Source 极 进入 ， 从 Drain 极 流出 ， 浮 动 门 一 头 与 S 极 接 
触 ， 一 头 与 D 极 接触 ， 由 于 被 包 时 有 绝缘 层 ， 当 电路 电压 达到 一 定 阀 值 
之 后 ， 可 以 被 击 穿 导电 ， 从 而 被 充电 或 者 放电 。 被 充电 到 一 定 电 势 阀 值 
的 Cell 的 状态 被 表示 为 “0”， 如 果 是 MLC， 可 以 保存 4 个 电势 状态 ， 分 别 
对 应 00、01、10、11，MLC 能 够 用 一 个 Cell 存 储 两 位 ， 也 是 这 个 道理 ， 
要 存 哪 个 数值 ， 就 充电 到 哪个 电势 档 位 。FG 上 方 有 一 片 金属 ， 称 为 控 
制 门 《CG) ， 连 接着 字 线 ， 当 需要 用 这 个 Cell 表 示 “0” 的 时 候 ， 只 需要 
在 控制 门 上 加 一 个 足够 高 的 正 电压 ， 导 通 $S 和 D， 产 生 电 流 ， 从 而 电子 
从 Source-Drain 电 极 穿 越 冲 入 到 FG 中 。 向 FG 中 充电 之 后 ，Cell 表 示 0， 将 
FG 放电 ，Cell 表 示 1。 














提示 : ”这 有 些 难以 记忆 ， 因 为 按照 弟 规 思维 ， 充 电 应 当 表 示 1 
而 放电 表示 0， 这 里 恰好 相反 。 


至 此 我 们 了 解 到 : Cell 是 利用 FG 中 的 电势 值 来 与 阀 值 对 比 从 而 判断 
其 表示 1 或 者 0 的 。 那 么 是 否 可 以 让 一 个 Cell 有 多 个 阀 值 ， 让 每 一 个 阀 值 
都 表示 一 种 状态 呢 ? 和 答案 是 可 以 。MLC 类 型 的 Cell 就 是 这 样 做 的 。MLC 
模式 的 SSD， 其 每 个 Cell 具 有 4 个 电势 阀 值 ， 每 次 充电 用 特定 电路 掌握 住 
火候 ， 充 到 一 定 阀 值 之 上 但 是 低 于 下 一 个 阀 值 ， 这 样 ， 利 用 4 个 阀 值 就 
可 以 表示 4 种 状态 了 ，4 个 阀 值 依次 表示 00、01、10、11。 要 向 其 写 入 什 
么 值 ， 只 需要 问 其 充 多 少 火候 的 电 就 可 以 了 。 














如 图 3-33 (物理 图 ) 和 3-34 ( 抽 ”图 334 Cell 阵列 的 有 序 排 布 图 
象 图 ) 为 Cell 阵 列 的 有 序 排列 图 。 我 


们 可 以 看 到 每 个 Cell 串 是 由 多 个 Cell 串 联 而 成 的 ， 每 个 Cell 串 每 次 只 能 读 
写 其 中 一 个 Cell， 多 个 Cell 串 并 联 则 可 以 并 行 读 写 多 位 数据 。 通 常 一 个 
Page 中 的 所 有 位 中 的 每 个 位 均 位 于 一 个 Cell 串 相同 的 位 置 上 ， 那 么 对 于 
一 个 使 用 2122B〈 含 ECC) /Page 的 芯片 来 讲 ， 就 需要 16896 个 Cell 串 ， 需 
要 16896 条 串联 导线 。 如 图 所 示 ， 将 每 个 Cell 串 上 所 有 Cell 串 联 起 来 的 导 
线 称 为 “位 线 ”， 也 就 是 串联 每 个 Cell 的 S 和 D 极 的 那 根 导线 ， 同 时 也 是 电 
源 线 ， 将 多 个 并 联 的 Cell 串 中 相同 位 置 的 Cell 的 CG 金属 片 水 平 贯 穿 起 来 
(并 联 》 的 那 根 导线 组 称 为 " 字 线 ”， 这 样 就 组 成 了 一 个 二 维 Cell 和 矩阵 。 





将 多 个 这 样 的 Cell 排 列 在 一 起 形成 阵列 ， 就 可 以 同时 操作 多 个 比特 
了 。NAND 就 是 利用 大 量 这 种 Cell 有 序 排列 而 成 的 一 种 Flash 蕊 片 。 如 图 
3-35 所 示 为 一 片 16GB 容 量 的 Flash 忌 片 的 逻辑 方 杠 图。 每 4314x8 王 34512 
个 Cell 逻 辑 上 形成 一 个 Page， 每 个 Page 中 可 以 存放 4KB 的 内 容 和 218B 的 
ECC 校 验 数 据 ，Page 也 是 Flash 心 片 1O 的 最 小 单位 。 每 128 个 Page 组 成 一 
个 Block， 每 2048 个 Block 组 成 一 个 区 域 (Plane) ， 一 整 片 Flash 心 片 由 两 
个 区 域 组 成 ， 一 个 区 域 存储 奇数 序号 的 Block， 另 一 个 则 存储 偶数 序号 
的 Block， 两 个 Plane 可 以 并 行 操作 。Flash 忆 族 的 Page 大 小 可 以 为 
2122B( 含 ECC) 或 者 4313B 〈 含 ECC) ， 一 般 单 片 容 量 较 大 的 Flash 其 
Page Size 也 大 。 相 应 地 ，Block Size 也 会 根据 单 片 容量 的 不 同 而 不 同 ， 
一 般 有 32KB、64KB、128KB、512KB (不 含 ECC) 等 规格 ， 视 不 同 设 
计 而 定 。 





图 3-35 Flash 芯片 逻辑 图 


如 图 3-36 所 示 为 Intel X-25M 固 态 硬 盘 的 拆 机 图 ， 可 以 看 到 它 使 用 了 
10 片 NAND Flash 芯 片 ， 左 上 方 为 SSD 控 制 器 ， 左 下 方 为 RAM Buffer。 
最 左 侧 为 SATA 物 理 接口 。 


图 3-36 ”Cell 阵 列 有 序 排 布 图 





如 图 3-37 所 示 为 某 SSD 控 制 器 心 片 的 方 框图 。 其 中 包含 多 个 逻辑 模 
块 ， 外 围 接 口 部 分 和 底层 供电 部 分 我 们 加 不 去 关心 了 。 这 里 将 目光 集中 
在 右 半边 ， 其 中 8051CPU 通 过 将 ROM 中 的 Firmware 载 入 IRAM 中 执行 来 
实现 SSD 的 数据 IO 和 管理 功能 。Flash Controller 负 责 向 所 有 连接 的 
NAND Flash 心 片 执 行 读 写 任务 ， 每 个 NAND 心 片 用 8b 并 行 总 线 与 Flash 
Controller 上 的 每 个 通道 连接 ， 每 时 钟 周 期 并 行 传递 8b 数 据 。Flash 
Controller 与 Flash 心 片 之 间 也 是 通过 指令 的 方式 来 运作 的 ， 地 址 信息 与 
数据 信息 都 在 这 8 位 总 线 上 传送 ， 由 于 总 线 位 宽 太 窗 ， 所 以 一 个 简单 的 
寻 址 操作 就 需要 多 个 时 钟 周 期 才能 传送 完毕 。 蕊 片 容量 越 大 ， 那 么 地 址 
也 就 越 长 ， 寻 址 时 间 也 就 越 长 ， 所 以 ， 对 于 小 块 随机 IO，Flash 会 随 着 
容量 的 增加 而 变 得 越 来 越 低 效 。 新 的 Flash 蕊 片 已 经 有 16b 总 线 的 设计 
了 。 总 线 频 率 目 前 一 般 为 33MHz， 最 新 也 有 40MHz 的 。 








图 3-37 Flash 控制 芯片 方 框图 


对 于 数据 写 入 来 说 ， 待 写 入 的 数据 必须 经 过 ECC 校 验 之 后 ， 将 数据 
和 ECC 校 验 信 息 一 并 写 入 心 片 ， 对 于 数据 读 取 来 说， 数据 会 与 其 对 应 的 
ECC 信 息 一 起 读 出 并 作 校 验 ， 校 验 正确 后 才 会 通过 外 部 接口 发 送出 去 。 
ECC 运 算 右 位 于 Flash Controller 中 。 上 整个 SSD 会 有 一 片 很 大 容量 的 
RAM〔 相 对 于 机 械 磁盘 来 讲 ) ， 通 党 是 64MB 甚 至 128MB， 其 原因 将 在 
下 文 讲述 。CPU 执 行 的 代码 相对 于 机 械 磁盘 来 讲 也 是 比较 复杂 的 ， 关 于 
CPU 都 需要 执行 哪些 功能 ， 也 一 并 在 下 文 讲述 。 








3.10.2 ”从 Flash 芯片 读 取 数据 的 过 程 





MOS 的 导 通 并 不 是 非 通 即 断 的 ， 就 算 截 止 状态 ， 也 会 有 电流 漏 过 ， 


只 是 非常 弱 而 已 。 这 里 还 要 明确 一 点 ， 问 绝缘 层 凡 充电 是 指 充 入 电子 ， 
充 入 负电 荷 ， 栅 极 电 压 越 负 ，nMOS 就 越 导 不 通 ， 也 就 是 说 ， 漏 电 电流 
就 越 弱 。 如 果 不 充 电 ， 反 而 漏电 电流 还 高 一 些 。 


正 是 在 这 种 前 提 下 ， 从 而 可 以 检测 出 这 种 微弱 电流 的 差别 ， 用 什么 
手段 ? 还 得 SAMP 上 阵 了 ， 老 生 常 谈 ， 首 先 强 制导 通 未 选中 的 所 有 Cell 
的 MOS， 要 读 取 的 MOS 栅 极 不 加 电压 ， 然 后 给 位 线 预 充电 【〈 充 正 电 
和 谷 ， 拉 高 电 平 ) ， 然 后 让 位 线 自己 漏电 ， 如 果 对 应 的 Cell 里 是 充 了 电 的 
( 充 的 是 电子 负电 蓓 ) ， 那 么 MOS 截 止 性 会 加 强 〈 等 效 于 开启 电压 升 
高 ) ， 漏 电 很 慢 〈 电 压 相 对 维持 在 高 位 ) ， 如 果 没 充电 ， 则 漏电 很 快 
《电压 相对 维持 在 低位 ) ， 所 以 最 终 SAMP 比 较 出 这 两 种 差别 来 ， 翻 译 
成 数字 信和 号 就 是 ， 充 了 电 三 电压 下 降 的 慢 = 电 压 比 放 了 电 的 位 线 高 三 逻 
辑 1， 这 么 想 你 就 错 了 。 此 处 你 忽略 了 一 点 ， 也 就 是 SAMP 不 是 去 比 对 
充 了 电 的 Cell 位 线 和 没 充电 的 Cell 位 线 ， 而 是 把 每 一 根 位 线 与 一 个 参考 
电压 比 对 ， 所 以 ， 这 个 参考 电压 一 定 要 位 于 两 个 比 对 电压 之 间 。 具 体 过 
程 是 这 样 的， 假设 所 有 位 线 预 充电 结束 时 瞬间 电压 为 1.0v， 然 后 让 位 线 
自然 放电 (或 者 主动 将 位 线 一 端 接 地 放电 ) 一 段 时 间 (非常 短 )， 在 这 
段 时 间 之 后 ， 原 先 被 充 了 电 的 Cell 其 位 线 压 降 速度 慢 ， 可 能 到 0.8v 左 
右 ， 而 原先 未 被 充电 的 Cell 其 位 线 压 降 速 度 较 快 ， 可 能 到 0.4v 左 右 ， 
一 种 Flash 颗 粒 会 根据 大 量 测 斌 之后， 最终 确定 一 个 参考 电压 ， 比 如 
0.6v， 也 就 是 位 于 0.4 和 0.8 之 间 。 那 么 当 SAMP 比 对 充电 Cel 位 线 时 ， 参 
考 电 压 小 于 位 线 电压 ，SAMP 普 遍 都 是 按照 参考 电压 > 比 对 电压 则 为 逻 
辑 ， 小 于 则 为 逻辑 0 的 ， 所 以 最 终 的 输出 便 是 ， 充 电 Cell 反 而 表示 0， 放 
了 电 的 Cell 反 而 表示 1。 这 也 正 是 NAND 中 的 “N”(NOT， 非 ) 的 来 历 ， 
AND 则 是 “与 "， 表 示 Cell 的 S 和 DD 是 串 接 起 来 的 ， 相 当 于 串联 的 开关 ， 它 
们 之 间 当 然 是 AND 逻 辑 了 。 

















如 图 3-38 所 示 ， 当 需要 读 出 某 个 图 3-38” 读 Page 时 的 电压 状态 
Page 时 ，Flash Controller 控 制 Flashi 心 
片 将 相应 这 个 Page 的 字 线 ， 也 就 是 串 接 《实际 上 属于 并 联 ) 同一 个 Page 
中 所 有 Cell 上 的 CG 的 那 根 导线 ， 电 势 置 为 0， 也 就 是 不 加 电压 ， 其 他 所 
有 Page 的 字 线 的 电势 则 升 高 到 一 个 值 ， 也 就 是 加 一 个 电压 ， 而 这 个 值 义 
不 至 于 把 FG 里 的 电子 吸出 来 ， 之 所 以 抬 高 电势 ， 是 为 了 让 其 他 Page 上 所 
有 的 Cell 的 S 和 DD 处 于 导 通 状态 ， 而 没 被 加 电压 的 Cell (CG 上 的 电势 为 
0V) ， 也 就 是 我 们 要 读 取 的 那些 Cell， 其 S 和 DD 的 通 断 ， 完 全 取决 于 其 
FG 中 是 否 存 有 电子 。 








SSD 的 IO 最 小 单位 为 1 个 Page。 所 以 ， 对 于 NAND Flash， 通 过 “强行 
导 通 所 有 未 被 选中 的 Cell”AND* 检 测 位 线 的 通 断 状态 ”三 “被 选中 的 Cell 
的 通 断 状态 ”，NOT“ 被 选中 的 Cell 的 通 断 状态 ”三 “位 线 的 1/0 值 ”>。 把 这 
整个 Page 的 1 或 者 0 传输 到 蕊 片 外 部 ， 放 置 于 SSD 的 RAM Buffer 中 保存 ， 
这 就 完成 了 一 个 Page 内 容 的 读 出 。SSD 的 IO 最 小 单位 为 1 个 Page。 


3.10.3 ”向 Flash 世 片 中 写 入 数据 的 过 程 


对 Flash 心 片 的 写 入 有 一 些 特殊 的 步骤 。Flash 心 片 要 求 在 修改 一 个 
Cell 中 的 位 的 时 候 ， 在 修改 之 前 ， 必 须 先 Erase( 即 擦 除 掉 ) 这 个 Cell。 
我 们 暂且 先 不 在 此 介绍 为 何 要 先 Erase 再 修改 的 原因 ， 先 说 一 说 这 
个 “Erase” 的 意思 ， 这 里 有 点 误导 之 意 。 我 们 以 机 械 磁盘 为 例 ， 机 械 磁盘 
上 的 “数据 ?是 永远 都 抹 不 掉 的 ， 如 果 你 认为 将 扇 区 全 部 写 入 0 就 算 抹 掉 
的 话 ， 那 也 是 有 问题 的 ， 你 可 以 说 它 存 放 的 全 是 数字 0， 这 也 是 数据 。 
那么 SSD 领 域 却 给 出 了 这 个 概念 ， 是 不 是 SSD 中 存在 一 种 介 于 1 和 0 之 间 
的 第 三 种 状态 呢 ， 比 如 虚无 状态 ? 有 人 可 能 会 联想 一 下 ，Cell“ 带 负 
电 ”“ 带 正 电 ”“ 不 带电 ”， 这 不 就 正好 对 应 了 3 种 状态 么 ? 我 们 可 以 

















将 “不 带电 ?规定 为 “虚无 ?状态 ， 是 否 将 Cell 从 市 电 状 态 改 为 不 珊 电 状态 
就 是 所 谓 Erase 呢 ?不 是 的 。 上 文中 叙述 过 ，Cell 带 电表 示 0， 不 带电 则 
表示 1，Cell 只 能 带 负 电荷 ， 即 电子 ， 而 不 能 带 正 电荷 。 所 以 Cell 只 有 两 
种 状态 ， 而 这 两 种 状态 都 表示 数据 。 





思考 :为 何不 以 “ 带 正 电 ?表示 1 “ 带 负 电 ?” 表 示 0, “不 带电 ” 表 
示 中 间 状 态 ? 如 果 引 入 这 种 机 制 ， 那 么 势必 会 让 电路 设计 更 加 
复 杀 ， 电 压 值 需要 横路 正 负 两 个 域 ， 对 感应 电路 的 设计 也 将 变 
得 复杂 ， 感 应 电路 不 但 需要 感应 “有 无 ”还 要 感应 “ 正 负 ”， 这 将 
大 大 增加 设计 成 本 和 器 件数 量 。 另 外 ， 感 应 电路 的 状态 也 只 能 
有 了 两 种 ， 即 表示 为 0 或 者 表示 为 1， 如 果 0 表 示 带 负电 ，1 表 示 带 
正 电 ， 那 么 就 缺少 一 种 用 来 表示 不 带电 的 电路 状态 ， 而 这 第 三 
种 状态 在 感应 电路 中 是 无 法 表示 的 ， 也 就 是 次 感应 电路 即使 可 
以 感知 到 三 种 状态 但 是 也 只 能 表示 出 两 种 状态 。 

















其 实 ， 这 里 的 Erase 动 作 其 实 就 是 将 一 大 片 连续 的 Cell 一 下 子 全 部 放 
电 ， 这 一 片 连续 的 Cell 就 是 一 个 Block。 即 每 次 Erase 只 能 一 下 擦 除 一 整 
个 Block 或 者 多 个 Block， 将 其 中 所 有 的 Cell 变 为 1 状态 。 但 是 却 不 能 单独 
擦 除 某 个 或 者 某 段 Page， 或 者 单个 或 多 个 Cell。 这 一 点 是 造成 后 面 将 要 
叙述 的 SSD 的 致命 缺点 的 一 个 根本 原因 。Erase 完 成 之 后 ，Cell 中 全 为 
1， 此 时 可 以 向 其 中 写 入 数据 ， 如 果 遇 到 待 写 入 某 个 Cell 的 数据 位 恰好 为 
1 的 时 候 ， 那 么 对 应 这 个 Cell 的 电路 不 做 任何 动作 ， 其 结果 依然 是 1;， 如 
果 遇 到 待 写 入 某 个 Cell 的 数据 位 为 0 的 时 候 ， 则 电路 将 对 应 Cell 的 字 线 电 
压 提 高 到 足以 让 电子 穿 过 绝缘 体 的 高 度 ， 这 个 电压 被 加 到 Control Gate 
上 ， 然 后 使 得 FG 从 电源 线 《〈 也 就 是 位 线 上 ) 汲取 电子 ， 从 而 对 Cell 中 的 
FG 进行 充电 ， 充 电 之 后 ，Cell 的 状态 从 1 变 为 0， 完 成 了 写 入 ， 这 个 写 0 
的 动作 又 叫 做 Programm， 即 对 这 个 Cell 进 行 了 Programm。 





如 图 3-39 所 示 ， 要 写 入 某 个 图 3-39 写 入 Cell 时 的 电压 状态 
Cell， 首 先 也 必须 先 选 中 其 所 在 的 
Page， 也 就 是 将 这 个 Page 的 字 线 加 高 电压 ， 对 应 这 个 Cell 的 位 线 加 0V 电 
压 ， 同 一 个 串 里 的 所 有 其 他 Page 的 字 线 也 加 一 个 高 电压 但 是 不 如 待 写 入 
Page 的 高 ， 同 时 不 需要 写 入 操作 的 那些 串 对 应 的 位 线 加 一 个 对 应 字 线 相 
同 的 电压 ， 结 果 就 是 ， 不 需要 写 入 数据 的 Cell 的 字 线 和 位 线 电 压 抵消 ， 
电子 不 动 ， 需要 写 入 数据 的 Ceall， 也 就 是 需要 充电 的 Cell， 由 电势 差 将 
电子 从 位 线 中 汲取 过 来 充电 。 仔 细 看 一 下 这 个 过 程 ， 就 会 发 现 ， 根 本 无 
法 在 这 个 二 维和 矩 阵 中 做 到 同时 给 一 个 Page 里 (一 横行 的 不 同 Cell 既 充 
电 又 放电 ， 可 以 自己 推演 一 下 对 应 字 线 和 位 线 的 电压 状态 ， 你 会 发 现 永 
远 做 不 到 ， 是 个 矛盾 ， 这 也 是 Flash 挥 之 不 去 的 痛 。 我 们 可 以 思考 一 下 ， 
虽然 不 能 够 同时 对 一 些 call 有 的 写 0、 有 的 写 1， 那 么 是 否 可 以 把 一 个 
page 的 写 入 分 成 两 个 周期 来 做 昵 ， 比 如 第 一 个 周期 先 把 要 写 入 0 的 所 有 
Cell 写 0， 第 二 个 周期 则 要 把 写 入 1 的 所 有 Cell 写 1， 或 者 反之 ? 完全 可 
以 ， 但 是 设计 者 并 没有 选择 这 么 做 ， 因 为 对 于 Cell 来 讲 ， 每 个 Cell 都 有 
一 定 的 绝缘 体 击 穿 次 数 ， 比 如 MLC 一 个 Cell 可 击 穿 一 万 次 ， 那 么 就 意味 
着 ， 每 个 Page 被 写 入 1 万 次 就 会 报废 ， 这 显然 不 能 接受 ， 有 个 办 法 就 是 
让 所 有 Cell 循 环 写 入 ， 不 写 到 原 地 ， 每 次 覆盖 写 要 新 写 入 其 他 位 置 ， 这 
样 就 能 够 保证 所 有 Cell 轮 流 被 写 入 ， 平 衡 整 体 寿 命 。 所 以 设计 者 选择 了 
先 预 先 准备 好 大 片 已 经 写 满 了 全 1 的 Cell， 每 次 写 入 都 写 到 这 些 预先 备 好 
的 地 方 ， 只 写 0， 如 果 是 覆盖 写 ， 就 需要 把 之 前 的 Page 地 址 做 一 个 重 定 
向 ， 所 以 Flash 控 制 器 还 需要 保存 一 张 地 址 重 定向 表 。 还 有 一 个 原因 不 用 
两 个 周期 来 实现 对 一 个 page 的 写 入 ， 那 就 是 如 果 每 次 写 入 都 要 耗费 2 个 
周期 ， 写 性 能 便 会 又 降 ， 所 以 设计 者 不 得 不 采用 一 下 子 擦 除 大 片 的 
Block， 也 就 是 说 不 用 写 IO 一 次 就 放电 一 次 ， 而 是 类 似 “ 批 发 ”， 然 后 写 
入 的 时 候 只 需要 1 个 周期 即 可 ， 所 付出 的 的 代价 就 是 后 台 需 要 不 断 地 * 批 
发 "， 一 旦 断 链 ， 那 么 性 能 便 会 又 降 。 



































SSD 会 以 Page 为 单位 进行 号 入 操作 ， 写 完 一 个 Page， 再 写 下 一 个 
Page。 


Flash 领 域 里 ， 写 叉 被 称 为 Programm。 由 于 Flash 的 最 常见 表现 形式 
一 一 EPRROM 一 般 是 只 读 的 ， 但 是 一 旦 要 更 改 其 中 的 程序 ， 则 需要 重新 
写 入 ， 即 Re-Programm， 上 所 以 就 顺便 将 写 入 Flash 的 过 程 叫 做 Programm 
了 。 一 块 细 新 的 SSD 上 上 所 有 Cell 都 是 已 经 被 Erase 好 的 ， 也 可 以 使 用 特殊 
的 程序 对 整个 SSD 重 新 整 盘 Erase。 


提示 : ”为 何 字 线 并 联 了 所 有 Cell 的 CG (也 就 是 所 有 Cell 共 享 
CG 的 控制 信号 ) ， 而 不 是 让 每 个 Cel 的 CG 可 以 被 单独 控制 
呢 ? 这 样 做 实际 上 还 是 为 了 成 本 和 芯片 面积 考虑 ， 技 术 上 其 实 
都 可 以 实现 ， 关 键 是 钱 的 问题 。 





3.10.4 Flash 芯 片 的 通病 





Flash 心 片 在 写 入 数据 的 时 候 有 诸多 效率 低下 的 地 方 。 包 括 现 在 常用 
的 U 盘 以 及 SSD 中 的 Flash 心 万 ， 或 者 BIOS 第 用 的 EEPROM， 它 们 都 不 可 


1. Elash 心 片 存 储 的 通病 之 一 : Erase Before Overwrite 


对 于 机 械 磁 盘 来 说 ， 磁 盘 可 以 直接 用 磁头 将 对 应 的 区 域 磁 化 成 任何 
言 号 ， 如 果 之 前 保存 的 数据 是 1， 新 数据 还 是 1， 则 磁头 对 1 磁化 ， 续 
还 是 1; 如 果 新 数据 是 0， 则 磁头 对 1 磁化 ， 结 果 束 变 成 了 0。 而 Flash 则 不 
然 ， 如 果 要 回 茶 个 Block 写 入 数据 ， 则 不 管 原来 Block 中 是 1 还 是 0(， 新 写 
入 的 数据 是 1 还 是 0， 必 须 先 Erase 整 个 Block 为 全 1， 人 然后 才能 同 Block 中 
写 入 新 数据 。 这 种 额外 的 Erase 操 作 大 大 增加 了 禾 盖 写 的 开销 。 











更 难 办 的 是 ， 如 果 仅 仅 需 要 更 改 某 个 Block 中 的 茶 个 Page， 那 么 此 
时 就 需要 Erase 整 个 Block， 然 后 再 写 入 这 个 Page。 那 么 这 个 Block 中 除 这 
个 Page 之 外 的 其 他 Page 中 的 数据 在 Erase 之 后 电 不 是 都 变 成 1 了 么 ? 是 
的 ， 所 以 ， 在 Erase 之 前 ， 需 要 将 全 部 Block 中 的 数据 读 入 SSD 的 RAM 
Buffer， 然 后 Erase 整 个 Block， 再 将 待 写 入 的 新 Page 中 的 数据 在 RAM 中 
履 盖 到 Block 中 对 应 的 Page， 然 后 将 整个 更 新 后 的 Block 写 入 Flash 心 片 
中 。 可 以 看 到 ， 这 种 机 制 更 加 大 了 写 开 销 ， 形 成 了 大 规模 的 写 惩罚 。 这 
也 是 为 何 SSD 的 缓存 通常 很 大 的 原因 。 


就 像 CDRW 光 各 一 样 ， 如 果 你 只 需要 更 改 其 上 的 几 KB 数据 ， 那 么 
了 怠 要 先 复 制 出 全 盘 700MB 的 数据 ， 然 后 控 除 所 有 700MB， 然 后 再 写 入 更 
改 了 几 KB 数 据 的 700MB 数 据 。 


SSD 的 这 种 写 惩罚 被 称 为 Write Amplification 〈 写 扩大 ) ， 我 们 依然 
使 用 写 惩 昼 这 个 词 。 写 惩罚 有 不 同 的 您 罚 倍数 ， 比 如 ， 需 要 修改 一 个 
512KB 的 Block 中 的 一 个 4KB 的 Page， 此 时 的 写 惩罚 倍数 二 512KB/4KB== 
128。 小 块 随机 写 IO 会 产生 大 倍数 的 写 惩罚 。 


当 SSD 当 向 Flash 中 的 Free Space 中 写 入 数据 时 ， 并 没有 写 惩罚 ， 
为 Free Space 自 从 上 次 被 整 盘 Erase 后 是 没有 发 生 任何 写 入 动作 的 。 这 里 
又 牵 渗 到 一 个 比较 有 趣 的 问题 ， 即 存储 介质 如 何 知 道 哪里 是 Free 
Space， 哪 里 是 Occupied Space 呢 ?本 书 中 多 个 地 方 论述 过 这 一 点 。 只 有 
文件 系统 知道 存储 介质 中 哪些 数据 是 没 用 的 ， 而 哪些 正在 被 文件 系统 所 
占用 ， 这 是 绝对 无 可 置疑 的 ， 除 非 文 件 系统 通过 某 种 途径 通告 存储 介 
质 。SSD 也 不 例外 ， 一 块 刚 被 全 部 Erase 的 SSD， 其 上 所 有 Block 对 于 文 
件 系 统 或 者 SSD 本 身 来 讲 ， 都 可 以 认为 是 Free ” Space。 随 着 数据 不 断 的 
写 入 ，SSD 会 将 曾经 被 写 入 的 块 的 位 置 记录 下 来 ， 记 录 到 一 份 Bitmap 
中 ， 每 一 比特 表示 Flash 中 的 一 个 Block。 对 于 文件 系统 而 言 ， 删 除 文件 














的 过 程 并 不 是 同 这 个 文件 对 应 的 存储 介质 空间 内 敌 阁 写 入 全 0 或 者 1 的 过 
程 ， 而 只 是 对 元 数据 的 更 改 ， 所 以 只 会 更 改元 数据 对 应 的 存储 介质 区 
域 ， 因 此 ， 删 除 文件 的 过 程 并 没有 为 存储 介质 上 自身 制造 Free Space。 所 
以 说 ， 对 于 SSD 本 号 来 讨 ，Free Space 只 会 越 来 越 少 ， 最 后 导致 没有 Free 
Space， 导 致 每 个 写 动作 都 产生 写 惩 放 ， 类 似 Copy On Write， 而 且 Copy 
和 Write 很 有 可 能 都 是 一 些 在 文件 系统 层 已 经 被 删除 的 数据 ， 做 了 很 多 
无 用 功 ， 写 性 能 急剧 下 降 。 对 于 一 块 使 用 非常 入 的 SSD 来 讲 ， 融 算 它 在 
被 挂 载 到 文件 系统 之 后 ， 其 上 没有 检测 到 任何 文件 ， 文 件 系统 层 剩 余 空 
间 为 100% ， 这 种 情况 下 ， 对 于 SSD 本 里 来 讲 ，Free Space 的 比例 很 有 可 
能 却 是 0， 也 就 是 说 只 要 曾经 用 到 过 多 少 ， 那 么 那个 水 位 线 就 永远 被 标 
记 在 于 里 ; 











每 个 Block 中 的 Page 必 须 被 按照 一 个 方 同 写 入 ， 比 如 每 个 Block 为 
128 个 Page， 共 512KB， 则 当 这 个 Block 被 擦 除 之 后 ，SSD 控 制 器 可 以 先 
问 其 中 写 入 前 32 个 Page (或 者 10 个 Page， 数 量 不 限 ) ， 一 段 时 间 之 后 ， 
可 以 再 向 这 个 Block 中 追加 写 入 剩余 的 Page〈 或 者 多 次 妃 加 一 定数 量 的 
Page 写 入 ) 而 不 需要 再 次 擦 除 这 个 Block。SSD 控 制 器 会 记录 每 个 Block 
中 的 大 段 连 续 空 余 空间 。 但 是 不 能 够 跳跃 的 追加 ， 比 如 先 写 入 0 一 31 这 
32 个 Page， 然 后 写 入 64 一 127 这 64 个 Page， 中 间 空 出 了 32 个 Page 没 有 追 
加 ， 控 制 器 是 不 会 使 用 这 种 方式 写 的 ，Page 都 是 连续 排 布 的 。 但 是 一 般 
来 讲 ， 控 制 器 都 是 尽量 一 次 写 满 整 个 Block 的 从 而 可 以 避免 很 多 额外 开 
销 。 


2. Flash 心 片 存储 的 通病 之 二 : Wear Off 


随 着 FG 充 放电 次 数 的 增多 ， 二 氧化 硅 绝缘 层 的 绝缘 能 力 将 东 到 损 
耗 ， 最 后 逐渐 失去 绝缘 性 ， 无 法 保证 FG 中 保有 足够 的 电荷 。 此 时 ， 这 


个 Cell 束 被 宣判 为 损坏 ， 即 Wear Off。 


损坏 的 Cell 将 拖累 这 个 Cell 所 在 的 整个 Page 被 标记 为 损坏 ， 因 为 SSD 
寻 址 和 IO 的 最 小 单位 为 Page。 损 坏 的 Page 对 应 的 逻辑 地 址 将 被 重 定向 映 
射 到 其 他 完好 的 预 留 Page，SSD 将 这 些 重 定 同 表 保 存在 ROM 中 ， 每 次 加 
电 均 被 载 入 RAM 以 供 随 时 查询 。 





MLC 由 于 器 件 复杂 ， 其 可 擦 写 的 寿命 比较 低 ， 小 于 10000 次 。 而 
SLC 则 高 一 些 ， 十 倍 于 MLC， 小 于 100000 次 。 这 个 值 是 很 惊人 的 ， 对 于 
某 些 场合 下 ， 有 可 能 一 天 就 可 以 废 掉 一 大 堆 Cel/Page， 几 个 月 之 内 当 预 
留 的 Page 都 被 耗 尽 后 ， 就 会 废 掉 整 个 SSD。 这 是 绝对 不 能 接受 的 。 





写 惩罚 会 大 大 加 速 Wear Off， 因 为 写 惩 吉 做 了 很 多 无 用 功 ， 增 加 了 
不 必要 的 探 写 ， 这 无 疑 使 本 来 就 很 严峻 的 形势 雪上 加 逢 。 但 是 对 于 读 操 
作 ， 理 论 上 每 个 Cell 可 以 承受 高 数量 级 的 次 数 而 不 会 损耗 ， 所 以 对 于 读 
来 说 ， 无 须 担心 。 


3.10.5 NAND 与 NOR 


3.10.2 节 已 经 讲 过 ， 这 里 再 强调 一 下 ， 当 需要 读 出 某 个 Page 时 ， 
Flash Controller 控 制 Flash 心 片 将 相应 这 个 Page 的 字 线 【也 惑 是 串 连 《〈 实 
际 上 属于 并 联 ) 同一 个 Page 中 所 有 Cell 上 的 CG 的 那 根 导线 】 电 势 置 为 
0， 也 就 是 不 加 电压 ， 其 他 所 有 Page 的 字 线 的 电势 则 升 高 到 一 个 值 ， 也 
就 是 加 一 个 电压 ， 而 这 个 值 又 不 至 于 把 FG 里 的 电子 吸出 来 ， 之 所 以 抬 
高 电势 ， 是 为 了 让 其 他 Page 所 有 Cell 的 S 和 DD 处 于 导 通 状态 ， 而 没 被 加 电 
压 的 Cell (CG 上 的 电势 为 0V〉 ， 也 就 是 我 们 要 读 取 的 那些 Cell， 其 S$ 和 
DD 的 通 断 完全 取决 于 其 FG 中 是 否 存 有 电子 。 说 日 7 了， 未 被 选中 的 所 有 
Cell， 均 强制 导 通 ， 被 选中 的 Cell 的 FG 里 有 电 ， 那 么 串联 这 一 串 Cell 的 





位 线 就 会 被 导 通 ， 这 是 一 种 AND 也 就 是 与 ;的 关系 ; 被 选中 Cell 的 FG 
里 如 果 没 电 ， 那 么 其 所 处 的 Cell 串 的 位 线 就 不 能 导 通 (虽然 串 上 的 其 他 
Cell 均 被 强制 导 通 ) ， 这 也 是 AND 的 关系 。 也 就 是 一 串 Cell 必 须 全 导 
通 ， 其 位 线 才 能 导 通 ， 有 一 个 不 导 通 ， 整 条 位 线 就 不 通 。 这 就 是 NAND 
Flash 中 的 AND 的 意义 。 那 N 表 示 什 么 ? N 表 示 Not， 也 就 是 非 ，NAND 就 
是 “ 非 与 ”的 意思 。 为 什么 要 加 个 非 ? 很 简单 ， 导 通 反而 表示 为 0， 因 为 
只 有 FG 中 有 电 才 导 通 ， 上 文 也 说 了 ，FG 中 有 电 反 而 表示 为 0， 所 以 这 就 
是 “ 非 * 的 意义 所 在 。 








还 有 一 类 NOR Flash，NOR 束 是 “ 非 或 ”的 意思 ， 大 家 自然 会 想到 ， 
位 线 一 定 不 是 串联 的 ， 而 是 并 联 的 ， 才 能 够 产生 “或 ”的 逻辑 。 实 际 上 ， 
在 NOR _ Flash 里 ， 同 样 一 串 Cell， 但 是 这 串 Cell 中 的 每 个 Cell 均 引出 独立 
的 位 线 ， 然 后 并 联接 到 一 根 总 位 线 上 ; 另外 一 点 很 重要 的 是 ， 每 个 Cell 
的 S 和 D 之 间 虽 然 物理 上 是 串 连 ， 但 是 电路 上 不 再 是 串联 ， 而 是 各 自 有 
各 自 的 接地 端 ， 也 就 是 每 个 Cell 的 S 和 DD 之 间 的 通 断 不 再 取决 于 其 他 Cell 
里 S 和 DD 的 通 断 了 ， 只 取决 于 自己 。 以 上 两 点 共同 组 成 了 “或 ”的 关系 ， 同 
时 每 个 Cell 具 有 完全 的 独立 性 ， 此 时 只 要 通过 控制 对 应 的 地 线 端 ， 将 未 
被 选中 的 Cell 地 线 全 部 断 开 ， 这 样 它们 的 S 和 D 极 之 间 永 远 无 法 导 通 〈 逻 
辑 0 状态 ) ， 由 于 每 个 Cell 的 位 线 并 联 上 联 到 总 位 线 ， 总 位 线 的 信号 只 取 
决 于 选中 的 Cell 的 导 通 与 否 ， 对 于 被 选中 的 Cell，NOT {“〈“ 地 线 接 
通 ?AND“FG 是 否 有 电 ”) OR“ 未 被 选中 Cell 的 输出 中 三 “总 位 线 的 1/0 
值 ”， 这 就 是 NOR 非 与 门 的 逻辑 。 





由 于 NOR Flash 多 了 很 多 导线 ， 包 括 独 立地 线 (通过 地 址 译 码 器 与 
Cell 的 地 线 相连 ) 和 多 余 的 上 联 位 线 ， 导 致 面积 增 大 。 其 优点 是 Cell 独 
立 寻 址 ， 可 以 直接 用 地 址 线 寻 址 ， 读 取 效 率 比 NAND 要 高 ， 所 以 可 以 直 
接 当 做 RAM 用 ， 但 是 由 于 擦 除 单位 较 小 ， 擦 除 效 率 要 比 NAND 低 ， 所 以 





不 利于 写 频繁 的 场景 。 





3.10.6 ”SSD 给 日 己 开 的 五 剂 良药 


面 对 病 入 谊 育 的 SSD 写 入 流程 设计 ， 是 不 是 无 可 救 药 呢 ? 好 在 SSD 
天 出 于 下 全 约 为 5 


1. 药方 1: 透 文体 力 ， 拆 东 墙 补 西 增 


为 了 避免 同一 个 Cell 被 高 频率 擦 写 ，SSD 有 这 样 一 个 办 法 : 每 次 针 
对 某 个 或 者 某 段 逻辑 LBA 地 址 的 写 都 写 到 SSD 中 的 Free ”Space 中 ， 即 上 
一 次 全 盘 Erase 后 从 未 被 写 过 的 Block/Page 中 ， 这 些 Free Space 已 经 被 放 
电 ， 直 接 写 入 即 可 ， 无 须 再 做 Copy On Wirite 的 操作 了 。 如 果 再 次 遇 到 针 
对 这 个 或 者 这 段 LBA 地 址 的 与 操作 ， 那 么 SSD 会 再 次 将 待 写 入 的 数据 重 
定向 写 到 Free Space 中 ， 而 将 之 前 这 个 逻辑 地 址 占用 的 Page 标 记 
为 “Garbage”， 可 以 回收 再 利用 。 等 到 Block 中 一 定 比例 〈 大 部 分 ) 的 
Page 都 被 标记 为 “Garbage” 时 ， 并 且 存 在 大 批 满足 条 件 的 Block，SSD 会 
批量 回收 这 些 Block， 即 执行 Copy ”On ”Write 过 程 ， 将 尚未 被 标记 
为 “Garbage” 的 Page 复 制 到 RAM Buffer， 将 所 有 Page 汇 集 到 一 起 ， 然 后 
写 入 一 个 新 Erase 的 Block， 再 将 所 有 待 回收 的 Block 进 行 Erase 操 作 ， 变 
成 了 Free Space。SSD 这 样 做 就 是 为 了 将 写 操 作 平 衡 到 所 有 可 能 的 Block 
中 ， 降 低 单位 时 间 内 每 个 Block 的 的 写 次 数 ， 从 而 延长 Cell 的 寿命 。 








重 定向 写 的 设计 可 谓 是 一 箭 双 雕 ， 既 解决 了 Wear Off 过 快 问 题 ， 又 
解决 了 大 倍数 写 惩 央 问 题 〈 因 为 每 次 写 都 尽量 重 定 癌 到 Free Space 中 ， 
无 须 CoW) 。 但 是 ， 正 如 上 文 所 述 ，SSD 自 己 认为 的 纯 Free Space 只 会 
越 来 越 少 ， 那 么 重 定向 写 的 几率 也 就 会 越 来 越 少 ， 最 后 降 至 0， 此 时 大 
倍数 写 惩罚 无 可 避免 。 














由 于 Page 的 逻辑 地 址 对 应 的 物理 地 址 是 不 断 被 重 定 向 的 ， 所 以 SSD 
内 部 需要 维护 一 个 地 址 映射 表 。 可 以 看 到 这 种 设计 是 比较 复杂 的 ， 需 要 
SSD 上 的 CPU 具有 一 定 的 能 力 运 行 对 应 的 算法 程序 。 这 种 避免 wear Off 
过 快 的 重 定 向 算法 称 为 Wear Leveling， 即 损耗 平衡 算法 。 





Wear Leveling 的 实现 方法 随 不 同 厂商 而 不 同 ， 有 些 以 一 块 大 区 域 为 
一 个 平衡 范围 ， 有 些 则 完全 顺序 地 写 完 整个 SSD 的 Free 空 间 ， 然 后 再 回 
来 顺序 地 写 完整 个 被 回收 的 Free 空 间 ， 无 限 循环 直到 Free 空 间 为 0 为 止 。 
传统 机 械 人 硬盘 中 ， 逻 辑 上 连续 LBA 地 址 同样 也 是 大 范围 物理 连续 的 ， 但 
是 对 于 SSD， 逻 辑 和 物理 的 映射 随 着 使 用 时 间 的 增长 而 越 来 越 乱 ， 好 在 
SSD 不 需要 机 械 寻 址 ， 上 映射 关系 乱 只 会 影响 CPU 计算 出 结果 的 时 间 而 不 
会 影响 数据 IO 的 速度 ， 而 CPU 运算 所 耗费 的 时 间 与 数据 IO 的 时 间 相 比 可 
以 忽略 不 计 ， 所 以 映射 关系 再 怎么 乱 也 不 会 对 IO 的 性 能 有 多 少 影响 。 


利用 这 种 方式 ，SSD 内 部 实现 了 垃圾 回收 清理 以 及 新 陈 代 谢 ， 使 得 
新 擦 除 的 Block 源 源 不 断 地 被 准备 好 从 而 供应 写 操作 。 


有 必要 一 提 的 是 ，Flash 控 制 器 的 这 种 机 制 又 可 以 被 称 为 RoW， 也 
就 是 Redirect On Write， 每 遇 到 需要 更 新 的 页 面 ，Flash 控 制 器 便 将 其 组 
存 到 RAM 中 ， 当 绥 冲 的 待 写 入 页 面 达 到 了 一 个 Block 容 量 的 时 候 ， 便 会 
直接 将 这 些 页 面 写 入 到 一 个 已 经 擦 好 的 Block 中 。 如 果 竺 写 入 的 页 面 未 
攒 够 一 个 Block 的 容量 ， 必 要 时 也 可 以 写 入 一 个 探 好 的 Block， 此 时 这 个 
Block 处 于 未 写 满 状 态 ， 随 后 可 以 继续 写 入 页 面 直到 写 满 为 上 ， 当 然 ， 
要 做 到 这 一 点 ，PFlash 控 制 器 残 需要 为 每 个 Block 记 录 断 点 信息 了 。 








每 次 被 更 新 的 页 面 在 更 新 之 前 所 处 的 位 置 ， 会 在 该 页 面 被 重 定 同 写 
入 到 其 他 Block 之 后 ， 在 映射 表 中 标记 为 垃圾 ， 可 以 想象 ， 随 着 使 用 时 
间 的 加 长 ，Flash 中 Block 里 的 这 种 垃圾 孔洞 越 来 越 多 ， 而 且 越 来 越 不 连 








， 到 处 都 是 ， 可 谓 是 千 郊 百 孔 。 垃 圾 回收 程序 最 喜欢 的 就 是 一 个 
ee ts 
种 “不 尴 不 熔 ” 的 状态 ， 比 如 50% 内 容 是 垃圾 ， 但 是 男 外 50% 的 内 容 却 未 
被 标记 为 垃圾 ， 那 么 此 时 到 底 是 否 回收 ? 要 回收 这 50% 的 垃圾 ， 就 需要 
先 把 那些 非 垃 圾 内 容 读 出 到 RAM 中 存放 ， 随 后 和 新 数据 一 起 一 视 同 仁 
地 写 入 到 擦 好 的 Block 中 ， a ed 
人 ee 越 是 不 尴 不 价 ， 后 台 的 惩 昼 就 越 多 ， 性 外 


2. 药方 2: 定期 清除 体内 垃圾 ， 轻 装 上 阵 


通过 上 面 的 论述 我 们 知道 ， 影 响 一 块 SSD 寿 命 和 写 入 性 能 的 最 终 决 
定 因 素 束 是 Free Space， 而 且 是 存储 介质 自 丑 所 看 到 的 Free Space 而 不 是 
文件 系统 级 别 的 Free Space。 但 是 SSD 目 身 所 认识 的 Free Space 永 远 只 会 
少 于 文件 系统 的 Free Space， 并 且 只 会 越 来 越 趋 于 0。 所 以 ， 要 保持 SSD 
认识 到 上 自身 更 多 的 Free ” Space， 就 必须 让 文件 系统 来 通知 SSD， 告 诉 它 
哪些 逻辑 地 址 现在 并 未 被 任何 文件 或 者 元 数据 所 占用 ， 可 以 被 擦 除 。 这 
种 思想 已 经 被 实现 了 。 所 有 SSD 厂 商 均 会 提供 一 个 工具 ， 称 
为 “Wiper”， 在 操作 系统 中 运行 这 个 工具 时 ， 此 工具 扫 摘 文件 系统 内 不 
用 的 逻辑 地 址 ， 并 将 这 些 地 址 通知 给 SSD，SSD 便 可 以 将 对 应 的 Block 做 
擦 除 并 回收 到 Free ” ”Space 空间 内 。 如 果 用 户 曾 经 向 SSD 中 写 满 了 文件 随 
后 义 删 除了 这 些 文件 ， 那 么 请 务必 运行 Wiper 来 让 SSD 回 收 这 些 垃圾 空 
间 ， 否 则 就 会 遭遇 到 大 写 惩 计 。 








Wiper 并 不 是 实时 通知 SSD 的 ， 这 个 工具 只 是 一 次 性 清理 垃圾 ， 
理 完 后 可 以 再 次 手动 清理 。 所 以 ， 这 个 工具 需要 手 人 
务 等 每 隔 一 段 时 间 执 行 一 次 。 








这 种 垃圾 回收 与 上 文中 的 那 种 内 部 垃圾 回收 不 在 一 个 层面 上 ， 上 文 
中 所 讲 的 是 SSD 内 部 自身 的 重 定 同 管理 所 产生 的 垃圾 ， 而 本 市 中 所 述 的 
则 是 文件 系统 层面 可 感知 的 垃圾 ， 科 上 映射 到 SSD 内 部 ， 也 融 变 成 了 二 
圾 。 


3. 药方 3: 扶正 固 本 ， 调 市 新 陈 代谢 使 其 持续 清除 体内 垃 专 











定期 执行 垃圾 清理 确实 可 以 解 燃 眉 之 急 ， 但 是 有 没有 一 种 方法 ， 可 
以 让 文件 系统 在 删除 某 个 文件 之 后 实时 地 通知 SSD 回 收 对 应 的 空间 呢 ? 
这 种 方法 是 有 的 。TRIM 便 是 这 种 方法 的 一 个 实现 。TRIM 是 ATA 指 令 标 
准 中 的 一 个 功能 指令 ， 在 Linux Kernal 2.6.28 中 已 经 宫 括 ， 但 是 并 不 完 
善 。Windows 7 以 及 Windows Server 2008R2 中 已 经 提供 了 完善 的 TRIM 文 
持 。 一 些 较 早 出 现 的 SSD 也 可 以 通过 升级 Firmware 来 获得 对 TRIM 的 文 
持 。 





TRIM 可 以 使 SSD 起 死 回 生 ， 经 过 实际 测试 ， 开 启 了 TRIM 支 持 的 
SSD， 在 操作 系统 TRIM 的 支持 下 ， 可 以 成 功 地 将 性 能 提高 到 相对 于 SSD 
初始 化 使 用 时 候 的 95% 以 上 ， 写 惩罚 倍数 维持 在 1.1 倍 左右 。 








提示 : “台湾 闪存 厂商 PhotoFast 银 箭 已 经 发 布 了 带 有 自行 回收 
垃圾 空间 的 SSD， 不 依赖 于 Trim 指 令 ， 在 此 可 以 推断 其 SSD 内 
部 一 定 被 植 入 了 可 识别 NTFS 格 式 数据 的 代码 ， 所 以 可 以 自行 
识别 NTFS 文 件 系统 中 不 被 文件 占用 的 空间 。 


4. 药方 4: 精神 修炼 法 ， 提 升 内 功 


Delay Write 是 一 种 存储 系统 常用 的 写 IO 优 化 措施 。 比 如 有 先后 两 个 
针对 同一 个 地 址 的 IO 一 一 Write1、Write2， 先 后 被 控制 器 收 到 ， 而 在 





Writel 尚 未 被 写 入 永久 存储 介质 之 前 ， 恰 好 Write2 进 入 ， 此 时 控制 器 就 
可 以 直接 在 内 存 中 将 Write2 履 盖 Write1， 在 写 入 硬盘 的 时 候 只 需要 写 入 
一 次 即 可 。 这 种 机 制 为 “ 写 命中 ”的 一 种 情况 (其 他 情况 见 本 书后 面 章 
节 ) 。 它 减少 了 不 必要 的 写 盘 过 程 ， 对 于 SSD 来 讲 ， 这 是 很 划算 的 。 











然而 ， 如 果 一 旦 遇 到 这 种 IO 顺序 比如 Writel、Read2、Write3， 如 此 
时 控制 器 先 将 Write3 才 盖 到 Write1， 然 后 再 处 理 Read2 的 话 ， 那 么 Read2 
原本 是 应 该 读 出 Write1 的 内 容 的 ， 经 过 Delay Write 覆盖 之 后 ， 却 读 出 了 
Write3 的 内 容 ， 这 就 造成 了 数据 不 一 致 。 





所 以 ， 控 制 器 在 处 理 Delay Write 时 要 非常 小 心 ， 一 定 要 检测 两 个 针 
对 同一 个 地 址 的 写 IO 之 间 是 否 插 有 针对 同一 个 地 址 的 读 IJO， 如 果 有 读 
IO， 首 先 处 理 读 ， 然 后 再 畴 兰 。 


Combine “Write 是 另 一 种 存储 系统 控制 器 常用 的 写 IO 优 化 方法 。 对 
于 基于 机 械 硬盘 的 存储 系统 ， 如 果 控 制 器 在 一 段 时 间 内 收 到 了 多 个 写 IO 
而 这 些 写 IO 的 地 址 在 逻辑 上 是 连续 的 ， 则 可 以 将 这 些小 的 写 IO 合并 为 针 
对 整体 连续 地 址 段 的 一 个 大 的 IO， 一 次 性 写 入 对 应 的 磁盘 ， 节 约 了 很 多 
SCSI 指 令 周 期 ， 提 高 了 效率 。 对 于 SSD 来 讲 ， 由 于 SSD 中 的 逻辑 地 址 本 
来 就 是 被 杂乱 地 映射 到 可 能 不 连续 的 物理 地 址 上 的 ， 但 是 并 不 影响 多 少 
性 能 ， 所 以 ，SSD 控 制 器 可 以 整合 任何 地 址 的 小 块 写 IO 成 一 个 大 的 写 IO 
而 不 必 在 乎 小 块 写 IO 针对 的 逻辑 地 址 是 否 连 续 。 整 合 之 后 的 大 写 IO 被 直 
接 写 向 一 个 Free 的 Block 中 ， 这 样 做 大 大 提高 了 写 效率 。 








5. 药方 5: 救命 稻草 ， 有 备 无 串 


为 了 防止 文件 系统 将 数据 写 满 的 极 问 情 况 ，SSD 干 脆 目 己 预 留 一 部 
分 备用 空间 用 于 重 定向 写 。 这 部 分 空间 并 不 通告 给 操作 系统 ， 只 有 SSD 


自己 知道 ， 也 就 是 说 文件 系统 永远 也 写 不 满 SSD 的 全 部 实际 物理 空间 ， 
这 样 ， 就 有 了 一 个 永远 不 会 被 占用 的 一 份 定额 的 Free Space 用 于 重 定 问 
写 。Intel X25-E 系 列 企业 级 SSD 拥 有 20% 的 多 余 空间 。 其 他 普通 SSD 拥 
有 6% 一 7% 的 比例 。 


思考 : “为何 用 普通 雁 片 整理 程序 在 文件 系统 层 整 理 碎 片 对 于 
SSD 来 说 是 雪上 加 霜 ， 理 解 这 个 问题 的 关键 在 于 理解 对 于 SSD 
来 讲 ， 馆 辑 上 连续 的 地 址 不 一 定 在 物理 上 也 连续 ， 如 果 使 用 普 
通 碎片 整理 程序 ， 不 但 不 能 达到 效果 ， 反 而 还 会 因为 做 了 大 量 
无 用 功 而 大 大 减少 SSD 的 寿命 。 


因为 SSD 需 要 对 数据 进行 合并 以 及 其 他 优化 处 理 以 适应 Flash 的 这 些 
劣势 ， 所 以 SSD 目 身 对 接收 的 写 IO 数据 使 用 Write _ Back 模式， 即 接收 到 
主机 控制 喜 的 数据 后 立即 返回 成 功 ， 然 后 异步 的 后 人 台 处 理 和 刷 盘 。 所 
以 ， 一旦 遇 到 突然 掉 电 ， 那 么 这 些 数 据 将 会 丢失 ， 正 因 如 此 ，SSD 需 要 
一 种 挥 电 保 护 机 制 ， 一 般 是 使 用 一 个 超级 电容 来 维持 挥 电 之 后 的 脏 数据 
刷 盘 。 


关于 SSD 性 能 方面 的 更 详细 的 内 容 请 参考 本 书 第 19 半 中 的 部 分 内 


容 。 
3.10.7 SSD 如 何 处 理 Cell 损 坏 


对 于 机 械 人 硬盘 ， 如 果 出 现 被 划 伤 的 磁道 或 者 损坏 的 忆 区 ， 也 就 意味 
着 对 应 的 磁道 或 者 司 区 中 的 磁粉 出 现 问 题 ， 不 能 够 被 成 功 地 磁化 ， 那 么 
磁头 会 感知 到 这 个 结果 ， 因 为 磁化 成 功 必定 对 应 着 电流 的 扰动 ， 如 果 针 
对 东 块 磁粉 区 磁化 不 成 功 ， 磁 头 控制 电路 迟 迟 没 感知 到 电流 扰动 ， 或 者 
扰动 没有 达到 一 定 程度 ， 那 么 吏 证 明 这 片区 域 已 经 损坏 。 而 对 于 Flash 中 


的 Cell， 当 Cell 中 的 绝缘 体 被 击 罕 一 定 次 数 (SLC ”10 万 次 ，MLC 1 万 
次 ) 之 后 ， 损 坏 的 几率 会 变 得 很 高 ， 有 时 候 不 见得 非 要 到 这 个 门限 值 ， 
可 能 出 厂 就 有 一 定量 损坏 的 Cell， 使 用 一 段 时 间 之 后 也 可 能 时 不 时 出 现 
损坏 。 那 么 SSD 如 何 判 断 某 个 Cell 损 坏 了 呢 ? 我 们 知道 Cell 损 坏 之 后 的 表 
现 是 只 能 表示 1 而 无 法 再 被 充电 并 且 屏 蔽 住 电 子 了 ， 如 果 某 个 Cell 之 前 被 
充 了 电 ， 为 0， 某 时 刻 Cell 损 坏 ， 漏 电 了 ， 变 为 1， 那 么 在 读 取 这 个 Cell 
的 值 的 时 候 ， 电 路 并 不 会 感知 到 这 个 Cell 之 前 的 值 其 实 是 0， 电 路 依然 读 
出 的 是 1， 那 么 此 时 间 题 就 出 现 了 。 解 决 这 个 问题 的 办 法 是 使 用 ECC 纠 
错 码 ， 每 次 读 出 某 个 Page 之 后 ， 都 需要 进行 ECC 校 验 来 纠 错 。 每 种 Flash 
生产 厂商 都 会 在 其 Datasheet 中 给 出 一 个 最 低 要 求 ， 即 使 用 该 种 颗粒 起 码 
需要 配合 使 用 何 种 力度 的 纠 错 码 ， 比 如 8b@512B 或 者 24b@1KB 等 。 
8b@512B 意 味 着 如 果 在 512 字 节 范 围 内 出 现 8b 的 错误 ， 则 是 可 以 纠 错 恢 
复 的 ， 如 果 超 过 了 8b， 那 么 就 无 法 纠 错 了 ， 此 时 只 能 向 上 层 报 “ 不 可 恢 
复 错误 ”; 同 理 ，24b@I1IKB 也 是 一 样 的 意思 。 广 商 给 出 的 纠 错 码 力度 越 
低 ， 就 证 明 这 种 Flash 颗 粒 的 品质 越 好 ， 损 坏 率 越 低 。 














3.10.8 SSD 的 前 景 


以 上 一 切 缓解 SSD 效 率 问 题 的 方法 ， 都 是 治标 不 治本 。 随 着 Cell 的 
不 断 损坏 ， 最 后 的 救命 稻草 一 一 SSD 私 自 保留 的 空间 也 将 被 耗 尽 ， 没 了 
救命 稻草 ， 加 之 文件 系统 空间 已 满 的 话 ， 那 么 SSD 效 率 就 会 大 大 降低 。 


但 是 ， 我 们 在 这 里 讨论 的 SSD 写 效率 降低 ， 不 是 与 机 械 人 硬盘 相 比 
的 。 瘦 死 的 骆驼 比 马 大 ，SSD 比 起 机 械 人 硬盘 来 讲 其 优势 还 是 不 在 一 个 数 
量 级 上 的 。 


可 以 将 多 块 SSD 组 成 Raid 阵 列 来 达到 更 高 的 性 能 。 但 是 可 惜 的 是 ， 
Raid 卡 目前 尚未 支持 TRIM。 





为 了 适应 Flash 的 存储 方式 ， 有 多 种 Flash Aware FS 被 开发 出 来 ， 这 
些 Flash FS 包括 TrueFFS、ExtremeFFS 等 。 这 些 能 够 感知 Flash 存 储 方式 
的 FS， 可 以 将 大 部 分 SSD 内 部 所 执行 的 逻辑 拿 到 FS 层 来 实现 ， 这 样 就 可 
以 直接 在 上 层 解 决 很 多 问题 。 








SSD 看 似 风 光 无 限 ， 但 是 其 技术 壁垒 比较 大 ， 为 了 解决 所 产生 的 多 
个 问题 ， 设 计 了 多 种 补救 措施 ， 需 要 靠 TRIM 维 持 ， 而 且 数 据 不 能 占 空 
间 太 满 ， 否 则 无 药 可 救 。 基 于 目前 NAND Flash 的 SSD 很 有 可 能 是 县 花 一 
现 。 目 前 市 场 上 已 经 出 现 SRAM、RRAM 等 更 快 的 永久 存储 介质 ， 随 着 
科技 的 发 展 ， 更 多 更 优良 的 存储 介质 和 存储 方式 必 将 替代 机 械 便 盘 的 磁 
碟 ，SSD 数 据 存储 次 世代 即将 到 来 。 











此 外 ，SSD 在 使 用 的 时 候 也 比较 旭 和 界 ，SSD 的 成 本 还 是 太 高 ， 比 如 
用 户 需 要 一 个 10TB 的 存储 系统 ， 不 可 能 都 用 SSD， 此 时 怎么 规划 ?对 某 
个 Raid 组 专门 使 用 SSD 来 构建 ， 比 如 8 个 256GB 的 SSD 组 成 某 Raid 组 ， 有 
效 容量 1TB， 再 在 其 上 划分 若干 LUN。 用 户 使 用 一 段 时 间 后 发 现 原来 人 
工 预 测 的 热点 数据 已 经 冷 了 ， 而 原来 的 冷 数据 热 了 ， 那 么 此 时 需要 数据 
迁移 ， 这 就 要 兴 师 动 众 了 。 或 者 用 户 发 现 某 个 应 用 所 需 的 数据 量 庞大 ， 
但 是 又 不 可 能 将 其 分 割 开 一 部 分 放 到 SSD 中 一 部 分 放 到 传统 磁盘 中 。 这 
些 蔓 从 的 境况 都 限制 了 SSD 的 应 用 ， 也 是 多 个 三 商 相 继 开发 了 
Automatically Storage Tiering 技 术 的 原因 〈( 见 后 面 章节 ) 。 











针对 传统 SSD 使 用 时 候 的 槛 雁 境 况 ，Seagate 等 厂商 也 相继 推出 了 
SSD 十 HDD 混 合式 存储 人 硬盘。 这 种 人 硬盘 其 实 是 将 Flash 心 片 用 于 磁盘 的 二 
级 缓存 ， 一 级 绥 存 是 Ram， 二 级 是 Flash， 三 级 则 是 磁盘 片 。 利 用 这 种 多 
级 缓存 更 大 程度 地 降低 了 磁头 寻 道 的 影响 。 有 人 质疑 说 ， 传 统 磁盘 自身 
已 经 有 了 多 达 64MB 的 RAM 缓 存 ， 还 需要 Flash 再 作为 下 一 级 的 缓存 么 ? 
是 的 ，64MB 的 容量 还 是 太 小 ， 虽 然 速 度 高 ， 但 是 很 快 就 被 充满 ， 同 时 





没有 挤 电 保护 机 制 ， 所 以 盘 阵 控制 器 不 会 让 磁盘 以 WriteBack 模 式 操 
作 ， 充 满 了 则 一 定 要 连续 地 刷 到 盘 片 中 ， 这 样 就 不 可 避免 地 直接 导致 可 
见 的 性 能 又 降 ， 而 使 用 Flash 忌 片 再 加 入 一 级 缓存 ， 比 如 用 8GB 甚 至 
16GB 的 Flash 心 厂 ， 数 据 从 RAM 缓 存 出 来 后 先 被 存 入 Flash， 不 用 寻 道 ， 
同时 可 以 掉 电 保护 ，Write ” Back 之后， 磁盘 驱 动 器 再 在 后 台 将 数据 从 
Flash 中 写 入 磁盘 片 保 存 并 清空 Flash 中 的 内 容 。 这 样 的 做 法 ， 既 比 传统 
纯 SSD 便 宜 ， 还 保证 了 性 能 ， 有 效 屏 蔽 了 人 磁头 寻 道 带 来 的 高 延 妈 ， 同 时 
又 保证 了 容量 〈 数 据 后 台 被 刷 入 磁盘 片 ) ， 传 统 SSD 在 容量 方面 的 问题 
就 这 么 被 解决 了 。 这 种 磁盘 短期 内 尚 无 法 取代 传统 纯 SSD， 因 为 其 读 取 
操作 依然 需要 从 厂 盘 片 中 读 取 几乎 所 有 数据 而 不 是 从 Flash 中 ， 无 法 与 纯 
SSD 抗 衡 ， 但 是 其 取代 传统 磁盘 的 趋势 是 存在 的 ， 今 后 的 磁盘 如 果 都 这 
么 做 ， 会 大 大 增加 单个 磁盘 的 随机 写 性 能 ， 对 磁盘 阵列 控制 器 的 更 新 与 
设计 也 是 一 个 挑战 。 























提示 : ”试想 一 下 ， 破 盘 阵列 控制 器 作为 一 个 侍 在 主机 与 后 端 
物理 磁盘 之 间 的 角色 ， 其 一 个 本 质 作 用 就 是 提升 性 能 ， 其 性 能 
提升 的 原理 就 是 让 众多 磁盘 同时 工作 以 屏蔽 磁头 寻 道 所 浪费 的 
时 际 ， 而 现在 ， 每 块 磁 副 自身 就 能 够 利用 Flash 心 片 来 屏蔽 寻 道 
的 时 际 ， 如 何 办 ? 充分 地 想象 吧 。 


3.11 Memblaze 闪 存 产品 介绍 





机 械 磁盘 由 于 其 高 复 某 度 的 机 械 部 件 、 心 片 及 固件 ， 让 人 望 而 却 
步 ， 其 技术 只 被 擎 握 在 少数 几 家 巨头 手中 。 因 为 初期 成 本 非 党 高， 如果 
没有 销量 ， 那 就 是 赔本 。 而 近年 来 出 现 越 来 越 多 的 国产 企业 级 固态 存储 
产品 ，SSD 相 对 机 械 磁盘 为 何 会 有 这 么 低 的 门槛 ? 那 是 必须 的 。 组 成 
SSD 的 主要 是 Flash 颗 粒 和 控制 问 ， 而 这 些 部 件 ， 都 可 以 从 各 种 渠道 购 
买 ， 当 然 ， 品 质 和 规格 也 是 参差 不 齐 ， 但 是 ，SSD 是 对 各 种 部 件 的 集 
成 ， 只 要 有 足够 的 集成 能 力 ， 能 快速 看 懂 这 些 部 件 提供 两 的 手册 ， 对 整 
个 存储 系统 有 基本 了 解 ， 那 么 只 要 具有 一 定 水 平和 经 验 的 硬件 研发 者 ， 
都 可 以 进入 这 个 领域 。 








但 是 ， 目 前 各 种 固态 介质 充斥 市 场 ， 从 TE 卡 、U 盘 到 消费 级 SATA 
SSD， 再 到 企业 级 SATA SSD， 再 到 企业 级 PCIE 闪 存 卡 ， 每 个 档次 要 求 
很 不 一 样 。 


要 做 成 企业 级 SSD， 不 但 需要 有 技术 能 力 ， 还 得 有 充分 的 产品 定制 
化 能 力 。 我 们 很 欣喜 地 看 到 Memblaze 同 时 具有 了 这 两 种 能 力 。 


3.11.1 技术 能 








评判 一 个 存储 团队 的 技术 能 力 ， 第 一 看 他 们 是 贴 牌 还 是 有 自己 的 特 
色 ; 第 二 看 其 产品 设计 采用 硬 加 速 还 是 软 加 速 。 说 到 软 加 速 ， 也 就 是 把 
原本 由 人 硬件 心 厂 实现 的 功能 ， 上 提 到 由 主机 CPU 运 行 代码 来 实现 ， 也 残 
是 常 说 的 “软件 定义 ”概念 里 的 一 个 意思 。 个 人 感觉 软件 定义 是 个 好 事 
情 ， 但 是 不 能 过 分 定义 ， 人 否则 会 适得其反 。 比 如 一 些 便 加 速 DSP、 底 层 
特定 协议 编 解码 器 ， 这 些 如 果 用 通用 CPU 来 实现 也 可 以 ， 只 要 你 能 恕 受 


性 能 的 极度 下 降 以 及 几 近 100% 的 CPU 负荷 。 曾 经 有 某国 外 厂商 的 PCIE 
闪存 卡 使 用 的 就 是 软 加 速 方案 。 


我 们 首先 得 了 解 一 下 对 于 Flash 闪 存 卡 ， 其 控制 器 都 需要 做 哪些 工 
作 ， 然 后 才能 判断 到 底 是 软 加 速 就 够 了 ， 还 是 必须 用 硬 加 速 。 通 过 本 章 
前 文 的 描述 ， 我 们 已 经 充分 了 解 了 对 Flash 的 读 写 过 程 ， 也 深 知 其 复杂 
性 ， 就 因为 不 能 够 对 同一 个 Page 里 的 不 同 Cell 同 时 放电 和 充电 ， 导 致 了 
后 续 一 系列 严重 后 果 ， 此 外 ，Flash Cell 单 元 的 低 寿 命 和 高 出 错 率 ， 也 是 
个 令 人 头疼 的 事 。 处 理 所 有 这 堆 烂 挫 子 的 角色 ， 其 学 术 名 词 叫 做 
FTL (Flash Translation Layer) ， 其 意思 一 个 是 把 Flash 基 于 页 面 为 最 小 
IO 单元 映射 成 传统 的 块 设备 以 512B 扇 区 为 最 小 IO 单位 ， 另 一 个 是 把 逻 
辑 IO 地 址 映射 为 物理 IO 地 址 ， 因 为 每 个 Page 的 实际 物理 地 址 都 会 不 断 变 
化 。 当 然 ， 这 只 是 地 址 方面 的 映射 处 理 ，FTL 需 要 同时 掌管 映射 处 理 和 
对 Flash 的 磨损 均衡 、 垃 圾 回收 、 纠 错 等 等 处 理 。 








我 们 继续 分 析 这 套 架构 都 需要 哪些 数据 结构 。 首 先 需 要 多 张 超 大 二 
维 表 来 存储 多 辑 地 址 、 物 理 地址 的 映射 记录 ， 后 端 挂 接 的 Flash 颗 粒 容 量 
越 大 ， 这 些 表 (数组 ) 束 越 大 ; 其 次 是 为 了 加 速 但 询 所 做 的 索引 、 位 图 
之 类 的 元 数据 结构 ， 还 有 就 是 存储 IO 栈 里 常用 的 一 种 数据 结构 一 一 链 
表 ， 或 者 称 其 为 “描述 体 "， 用 来 追踪 分 散在 多 个 物理 内 存 处 但 是 逻辑 上 
古 一 个 整体 的 事物 ， 比 如 逻辑 连续 空间 ， 或 者 某 个 IO 任 务 等 ， 男 外 ， 状 
态 机 也 非常 复杂 。 

















我 们 分 析 一 下 ， 上 面 这 套数 据 结构 和 状态 机 ， 如 果 完 全 将 其 运行 在 
主机 OS 底 层 的 设备 驱动 层 ， 或 者 干脆 运行 在 用 户 态 《〈 一 般 都 会 是 在 用 
户 态 运 行 ， 因 为 驱动 层 不 适合 做 复杂 的 逻辑 处 理 ) ， 效 率 完 竟 有 多 高 。 
这 一 点 想 想 就 可 以 大 致 推断 ， 比 如 TCPIP 协 议 栈 是 个 纯 软 协议 栈 ， 其 不 
需要 维护 太 多 元 数据 ， 多 数 计算 量 位 于 状态 机 的 判断 和 输出 上 ， 即 便 是 














这 样 ， 一 个 万 兆 网 口 之 上 承载 iSCSI 协议 的 场景 ， 在 IOPS 跑 满 之 后 ， 
CPU 利用 率 基 本 都 超过 50% 了 ， 何 况 是 需要 查 表 映射 的 场景 。 男 外 ， 软 
A 这 直接 导致 中 断 次 数 激 

还 有 ， 软 加 速 方案 需要 在 主机 端 保存 大 量 的 元 数据 ， 对 内 存 的 占用 
人 量 多 加 价 ， 而 硬 加 速 方案 只 有 主机 端 驱 
动 运行 耗费 一 部 分 内 存 ， 通 党 1MB 起 步 。 











如 果 是 使 用 硬 加 速 方案 ， 所 有 的 元 数据 、 状 态 机 ， 都 在 Flash 控 制 器 
内 部 维护 和 计算 ， 束 能 大 大 降低 主机 端 CPU 的 负荷 ， 主 机 端 CPU 的 负 谷 
只 体现 在 响应 外 部 设备 的 中 断 上 了 。 硬 加 速 的 好 处 就 是 可 以 将 一 些 专用 
逻辑 直接 做 成 硬 逻 辑 电 路 ， 在 一 个 或 者 几 个 时 钟 周期 内 就 可 以 完成 通用 
CPU 需要 耗费 几 百 个 或 者 几 千 个 时 钟 周 期 才能 完成 的 任务 。 举 个 例子 ， 
对 ECC 码 的 计算 ， 就 可 以 单独 拿 出 来 做 成 硬 加 速 电路 。 有 些 逻 辑 不 能 完 
全 被 翻译 成 纯 数 字 电 路 ， 比 如 地 址 映射 查 表 等 ， 一 小 部 分 逻辑 必须 依靠 
通用 CPU 来 运行 对 应 的 固件 〈 或 者 说 微 码 ) 来 协调 完成 全 部 逻辑 ， 当 然 
那些 重复 运算 还 是 交 给 数字 电路 ， 微 码 只 是 负责 协调 和 总 探 ， 这 一 点 如 
果 是 一 些 比较 复杂 的 逻辑 的 话 ， 靠 纯 数字 电路 是 无 法 完成 的 。 这 里 
的 “通用 CPU” 并 非 指 主 机 端 CPU， 而 是 指控 制 器 内 部 的 众 入 式 CPU 核 
心 ， 一 个 控制 其 芯片 内 部 集成 的 通用 CPU 核心 数量 可 能 在 几 个 到 十 几 个 
这 种 级 别 。 





我 们 可 以 看 到 ， 如 果 用 便 加 速 方案 ， 对 设计 者 的 要 求 ， 不 仅仅 是 了 
解 Flash FIL 层 的 全 部 逻辑 ， 还 得 有 充分 的 技术 实力 把 这 些 逻 辑 梳理 成 数 
据 结 构 ， ei he 然后 还 得 具备 将 软件 翻译 成 
人 硬件 逻辑 的 技能 ， 除 此 之 外 ， 还 得 具有 熟练 驾驭 FPGA 的 技能 ， 因 为 不 
可 能 让 建 秩 中 师 去 烧 窗 制 造 砖头 ， i 要 买 ， FPGA 也 得 用 现成 
的 。 





另外 ， 一 称 固 态 存 储 产品 ， 选 择 使 用 什么 样 的 IO 协议 也 是 至 关 重 要 
的 。 对 于 基于 ATA 协 议 的 SATA 接 口 来 讲 ， 是 无 法 发 挥 出 Flash 最 优 性 能 
的 ， 直 接 使 用 PCIE 接 口 接 入 主机 总 线 是 目前 离 CPU 最 近 的 途径 ， 但 是 这 
样 就 无 法 使 用 SATA 协 议 的 一 切 已 有 软 硬 件 了 ， 包 括 成 熟 的 SATA 控 制 
器 人 硬件， 以 及 主机 端 OS 系 统 内 核对 SATA 的 原生 驱动 支持 。 选 择 PCIE 就 
意味 着 必须 自己 开发 一 套 轻 量 级 10 访问 协 议 。 





提示 : ”目前 针对 PCIE Flash 的 专用 IO 协议 有 NVMe 和 SCSIe 两 
种 ， 现 在 看 来 VNMe 似 乎 已 经 占 了 上 风 ， 因 为 SCSI 协 议 徐 的 庞 
大 腑 肿 已 经 完全 不 适合 Flash 这 种 高 速 介 质 了 。Memblaze 在 第 
一 代 产 品 中 并 没有 使 用 NVMe， 而 是 使 用 了 自己 的 私有 协议 ， 
下 一 代 产 品 很 有 可 能 会 过 渡 到 NVMe 标 准 上 来 。 








Memblaze 很 显然 是 充分 掌握 了 这 条 线 上 的 所 有 技能 。 图 3-40 是 
Memblaze 的 Flash 控 制 嚣 框图。 其 使 用 了 成 品 FPGA， 其 中 IP 硬 核 部 分 为 
PCIE 控 制 器 及 DDR3 控 制 嚣 ;IP 软 核 部 分 为 DMA 控 制 器 、 骸 入 式 通 用 
CPU 等 等 ， 可 以 任意 生成 ， 其 他 都 是 需要 用 户 自 定义 设计 的 部 分 。 其 中 
纯 硬 逻辑 包含 Flash 通 道 控 制 器 、ECC 计 算 电路 等 ， 需 要 赎 入 式 通 用 CPU 
辅助 的 有 : 地 址 映射 器 、 磨 损 均衡 和 垃圾 回收 模块 以 及 整个 控制 器 的 中 
央 协 调控 制 逻辑 处 理 部 分 等 。 





图 3-40 ”Memblaze 的 Flash 控 制 嚣 框图 





除了 对 硬件 的 掌控 能 力 之 外 ，Memblaze 还 拥有 IO 延 时 平滑 的 专利 
技术 ， 可 以 针对 个 别 超 长 延 时 的 IO 请 求 进行 削 峰 滤波 处 理 〈 类 似 电 容器 
滤 除 高 电压 脉冲 的 工作 原理 ， 对 IO 延 时 进行 滤波 ) ， 当 运行 在 较 高 
IOPS 情 况 下 ， 控 制 器 会 自动 调整 垃圾 回收 算法 和 内 部 等 待 队 列 深度 ， 并 
将 IO 延 时 进行 平滑 处 理 ， 从 而 避免 产生 超 长 延 时 的 IO， 减 少 对 后 端 系统 





的 影响 ， 使 得 用 户 的 应 用 运行 得 更 加 平稳 顺 滑 。 图 3-41 为 实测 结果 ， 可 
以 看 到 拌 动 很 少 ， 有 些 场景 根本 没有 拌 动 。 这 项 拉 术 主要 是 采用 排队 论 
和 现代 控制 理论 对 SSD 的 一 些 指 标 进 行 采 样 ， 根 据 采 样 结果 去 控制 系统 
通路 上 的 参数 ， 用 来 优化 IO 的 拌 动 和 延 运 。 比 如 ， 用 户 发 给 SSD 的 请 求 
可 能 是 顺序 写 入 ， 也 可 能 是 随机 写 入 。 不 同 的 写 入 模式 对 应 的 写 放 大 倍 
数 是 不 同 的 。 在 这 种 情况 下 ， 后 端的 处 理 速度 在 不 同 的 输入 下 就 会 有 不 
同 的 通道 阻 窗 程度 ， 对 于 IO 来 说 束 会 造成 拌 动 和 服务 质量 较 低 。 如 果 采 
用 通道 的 阻 赛程 度 作 为 控制 变量 ， 运 用 目 动 控制 理论 ， 就 可 以 动态 地 均 
衡 前 端的 压力 ， 降 低 整 个 系统 的 延迟 和 拌 动 。 














图 3-41 Memblaze 的 时 延平 滑 技术 








最 后 ， 对 于 固态 存储 三 商 来 讲 ， 能 够 雪 驭 各 Flash 颗 粒 厂 商 的 NAND 
Flash 也 显得 至 关 重 要 。 不 同 颗粒 使 用 不 同 的 规格 ， 比 如 ECC 位 比例 、 页 
面 大 小 、 访 问 协 议 等 等 。 这 些 都 需要 人 花 上 足够 的 时 间 去 测试 、 调 优 。 


提示 : 本文 落 笔 时 ，Memblaze 的 最 终 产 品 性 能 已 经 可 以 达到 
70w 十 的 IOPS， 已 经 是 目前 PCIe 闪 存 卡 的 最 高 纪录 。 








另外 ，NAND Flash 的 写 放 大 是 导致 性 能 和 寿命 下 降 的 主要 原因 ， 
是 否 能 够 充分 降低 写 放 大 效应 ， 也 是 体现 技术 实力 的 地 方 。 如 图 3-42 所 
示 ，Memblaze 对 写 放 大 的 压制 还 有 很 不 错 的 。 








图 3-42 Memblaze 对 写 放 大 的 压制 








技术 是 技术 ， 产 品 是 产品 ， 有 好 技术 不 一 定 能 出 好 产品 ， 但 是 没有 
好 技术 一 定 出 不 了 好 产品 ， 当 然 忽悠 除外 。 令 人 眼前 一 腕 的 是 ， 





是 非常 有 感觉 的 ， 深 知 “ 个 性 ”对 于 一 球 产 品 


SF 


Memblaze 对 产品 这 个 概念 
来 说 是 多 么 重要 。 





在 我 们 的 脑海 里 ，PC 了 下 闪存 卡 惑 是 一 锤子 买卖 ， 比 如 ， 卡 上 和 焊 上 了 
多 少 容 量 的 Flash 颗 粒 ， 它 就 是 多 大 容量 了 ， 比 如 1TB 容 量 ， 如 果 用 户 不 
需要 这 么 大 容量 ， 比 如 只 需要 500GB 容 量 ， 那 么 厂商 就 不 得 不 再 去 定制 
一 批 只 焊 了 500GB 容 量 颗粒 的 板子 。 这 个 问题 谁 都 清楚 ， 但 是 Memblaze 
古 第 一 个 提出 方案 并 且 成 功 商用 的 公司 。 








“琴键 ”技术 是 他 们 对 这 个 技术 的 命名 ， 通 过 将 Flash 控 制 器 与 Flash 
颗粒 之 间 的 连接 方式 从 完全 PCB 布 线 转 为 插 模 的 形式 ， 然 后 通过 生产 不 
同 容量 的 子 卡 ( 琴 键 ) 插 在 插 模 上 从 而 生成 不 同 整体 容量 的 内 存 卡 产 
品 ， 如 图 3-43 和 图 3-44 所 示 。Memblaze 组 合 容量 和 规格 如 图 3-45、 图 3- 
46 所 示 。 





图 3-43” Memblaze 的 琴键 技术 





图 3-44 ”Memblaze 的 琴键 技术 


图 3-45 ”Memblaze 的 琴键 技术 不 同 组 合 容 量 





图 3-46 ”Memblaze 闪 存 卡 其 他 规格 





说 明 : Memblaze 是 一 家 让 人 钦佩 的 初创 公司 ， 在 此 我 也 得 知 
他 们 后 续 有 很 长 远 的 规划 ， 也 非常 期 待 能 够 早日 见 到 其 更 有 特 
色 的 产品 。 


3.12 ”小结 : 网 中 有 网， 网 中 之 网 
我 们 用 图 3-47 来 作为 本 章 的 结 








图 3-47 三 台 计 算 机 组 成 的 网 一 一 网 中 有 网 





第 4 章 七 性 北斗 一 一 大 话 / 详 解 七 
种 RAID 

四 RRAID ITIL 

别 RAID 2 

RAID 3 

别 RAID 4 

别 RAID5 

RATID 5E 

RAID 5EE 

别 RAID 6 


第 3 章 介 绍 了 磁盘 的 内 部 原理 、 构 造 以 及 外 部 的 接口 系统 。 但 一 块 

磁盘 的 容量 是 有 限 的 ， 速 度 也 是 有 限 的 。 对 一 些 应 用 来 说 ， 可 能 需要 上 

吉 字 节 〈GB ) 甚至 几 太 字 节 (TB)〉 大 小 的 分 区 来 存放 数据 。 目 前 的 
磁盘 单 块 容量 最 多 能 到 1TB， 这 对 于 现代 应 用 程序 来 说 远 远 不 够 。 


那么 必须 要 制造 单 盘 容 量 更 大 的 硬盘 么 ?为 解决 这 个 问题 ， 人 们 发 
明了 RAID 技 术 ， 即 Redundant Array of Independent Disks 技 术 ， 中 文 意思 
是 由 独立 的 磁盘 组 成 的 上 共有 宛 余 特性 的 阵列 。 既 然 是 阵列 ， 那 一 定 需要 
很 多 磁盘 来 组 成 ; 既然 是 具有 元 余 特 性 的 ， 那 一 定 可 以 允许 某 块 磁盘 损 





坏 之 后 ， 数 据 仍然 可 用 。 下 面 我 们 束 来 看 一 下 RAID 是 怎样 炼 成 的 。 


4.1 大 话 七 种 RAID 武 磺 


话说 几 干 年 前 ， 有 位 双 刀 大 侠 ， 左 右手 各 拿 一 把 大 刀 。 开 始 的 时 
候 ， 他 总 是 单独 使 用 每 把 刀 ， 要 么 用 左手 刀 ， 要 么 用 右手 刀 ， 但 是 总 被 
人 打败 ， 郁 癌 至 极 ， 于 是 震 心 悟道 ， 静 心 修 炼 。 他 逐渐 摸索 出 一 套 刀 
法 ， 目 称 “ 合 一 刀 法 ”， 即 双 刀 并 用 。 外 人 看 不 见 他 的 第 二 把 刀 ， 只 能 
到 他 拿 着 一 把 刀 。 他 把 两 把 刀 的 威力 ， 合 二 为 一 ， 成 为 一 把 大 刀 ! 








而 这 种 双 刀 合 一 的 刃 法 ， 又 可 以 分 为 两 条 路 子 。 一 条 是 常规 路 子 ， 
即 这 把 合 二 为 一 的 大 刀 ， 其 实 每 出 一 招 只 有 原来 一 把 刀 的 威力 ， 但 是 后 
劲 更 足 了 。 一 把 刀 顶 不 起 来 的 时 候 ， 可 以 第 二 把 刀 上 阵 。 对 于 收 人 来 
说 ， 还 是 只 看 见 一 把 大 思 。 男 一 条 是 野 路 子 ， 野 路 子 往往 效果 很 好 ， 每 
出 一 招 总 是 具有 两 把 刀 的 威力 之 和 ， 而 且 也 具有 两 把 刀 的 后 劲 ! 他 实现 
这 个 野 路 子 的 方法 ， 便 是 界 内 早 有 的 思想 一 一 分 而 治之 ! 也 就 是 说 他 把 
一 把 刀 又 分 成 了 很 多 细小 的 元 系 ， 每 次 出 招 时 把 两 把 刀 的 元 素 组 合 起 
来 ， 所 以 不 但 威力 大 了 ， 后 劲 也 足 了 ! 


























不 过 大 侠 的 这 个 刀 法 有 个 致命 的 弱 反 ， 束 是 双 刀 恩 恩 相关 。 一 旦 其 
中 一 把 刀 有 所 损坏 ， 男 一 把 思 相 应 的 地 方 也 跟着 损坏 。 如 果 一 把 思 完 全 
失去 效力 ， 那 么 男 一 把 刀 也 跟着 失效 。 





双 刀 大 侠 一 直到 临终 也 没有 收 一 个 徒弟 ， 不 是 因为 他 武艺 不 精 ， 而 
是 因为 他 的 合 一 刀 法 在 当时 被 认为 是 野 路 子 ， 牌 门牙 路 的 功夫 ， 所 以 郁 
韶 一 生 。 临 终 时 他 用 尽 自己 最 后 一 点 力气 在 纸 上 写 下 了 4 句 诗 后 ， 抱 憾 
而 终 ! 





刀 于 我 手 不 为 刀 ， 


横 分 竖 割 成 龙 毕 。 
化 作 神 龙 游 天 际 ， 
龙 在 我 心 任 道 遥 ! 


这 就 是 后 世 流 传 的 “ 合 一 刀 谱 ”! 俗称 “ 龙 谱 ”。 





世上 最 蜗 的 思 法 在 心中 ， 而 不 是 手 上 ! 双 刀 大 侠 练 就 的 是 一 门 “ 海 
瀚 ”绝学 ， 一 招 一 式 都 古 铺 天 蓄 地 ， 势 不 可 挡 ! 





儿 百 年 后 ， 七 星 大 侠 在 修炼 了 人 磁盘 大 挪移 神功 和 龙 谱 之 后 的 某 一 
天 ， 他 突然 两 眼 发 情 :“ 我 悟 到 了 ! ”然后 奋 笔 疾 书 ， 成 束 了 “七 星 北 斗 
阵 ? 这 个 空前 绝 后 的 阵 式 ! RAID 0 阵 式 就 是 这 个 阵 式 的 第 一 个 阵 式 ! 下 
面 来 看 看 这 个 阵 式 的 绝妙 之 处 吧 ! 


4.1.1 RAID 0 阵 式 





首先 ， 这 位 七 星 大 侠 一 定 是 对 磁盘 大 挪移 神功 有 很 高 的 造 放 ， 因 为 
他 熟知 每 块 磁盘 上 面 的 磁性 区 域 的 构造 ， 包 括 磁道 、 磁 头 、 书 区 和 柱 面 
等 ， 这 些 口诀 心 法 已 经 烂熟 于 心 。 在 他 看 来 ， 盘 片 束 像 一 个 蜂 富 ， 上 和 面 
的 每 一 个 孔 都 是 一 个 届 区 ， 可 以 说 他 已 经 参透 了 人 磁盘。 其 次 ， 七 星 大 侠 
一 定 是 对 合 一 思 法 的 精髓 有 很 深 的 领情， 即 他 能 领会 双 刀 大 侠 那 4 句 诗 
的 含义 ， 特 别 是 第 二 句 给 了 他 很 大 的 局 发 !“ 模 分 竖 制 成 龙 绿 ”， 上 暗示 者 
双 刀 大 侠 把 他 的 刀 在 心中 分 割 成 了 模 条 带 和 竖 条 市 ， 所 以 叫 “ 模 分 竖 
割 ”。 分 割 完 毕 之 后 ， 双 刀 大 侠 把 这 些 分 割 后 所 谓 的 “ 缘 ”， 即 细 条 市 ， 
在 心中 组 合 起 来 形成 一 条 虚拟 的 “ 龙 ”， 然 后 用 龙 来 当 作 武 器 ， 即 “万 在 
我 心 任 道 遥 ”。 


这 显然 给 了 七 星 大 侠 很 大 的 局 及 ， 何 不 把 儿 块 磁盘 也 给 “ 模 分 竖 
割 ”， 然 后 组 成 * 龙 ? 呢 ? 对 ， 就 这 么 干 ! 七 星 大 侠 卖 血 换 来 两 块 磁盘 ， 





找 了 个 破 庙 ， 在 后 面 搭 了 个 草 堆 ， 成 天 摆弄 他 那 两 块 用 血 换 来 的 磁 副 。 
日 天 出 去 要 饭 ， 晚 上 回来 潜心 钻研 ! 他 首先 决定 把 两 块 磁盘 都 分 割 成 条 
珊 ， 形 成 < 缘 ”， 可 是 该 怎么 分 好 呢 ? 合 一 刀 法 的 思想 主要 有 两 条 路 ;一 
条 是 懒 人 做 法 ， 不 想 动 脑子 ， 即 威力 小 、 后 劲 足 那 种 ， 必 一 种 是 需要 动 
脑子 算 的 ， 即 威力 足 、 后 劲 也 足 那 种 。 








第 一 种 怎么 实现 呢 ? 七 星 大 侠 冥 思 苦 想 ， 却 发 现 被 误导 了 。 因 为 第 
一 种 根本 不 需要 做 “ 缘 ”。 双 刀 大 侠 的 许 只 是 描述 了 威力 巨大 的 第 二 种 路 
子 。 所 以 三 下 五 除 二 ， 七 星 大 侠 写 出 了 RAID 0 阵 式 中 的 第 一 个 套路 : 味 
加 式 。 也 就 是 说 ， 磁 盘 还 是 那些 磁盘 ， 什 么 都 不 动 ， 也 不 用 “ 模 分 竖 
割 ”。 数 据 来 了 ， 先 往 第 一 块 磁盘 上 写 。 等 写 满 之 后 ， 再 往 第 二 块 上 
写 。 然 后 将 这 两 块 磁盘 在 心中 组 成 一 条 龙 ， 这 束 符 合 了 合 一 刀 法 的 思 
想 。 只 不 过 这 条 龙 威力 比较 弱 ， 因 为 每 次 IO 只 用 到 了 一 块 磁盘 ， 另 一 块 
磁盘 没有 动作 。 但 是 这 条 龙 的 后 劲 ， 比 单个 磁盘 足 了 ， 因 为 容量 相对 一 
块 磁 盘 来 说 ， 增 大 了 。 











第 一 套路 子 实现 了 ， 可 第 二 套路 子 就 难 了 。 其 实 磁 盘 已 经 被 分 割 
了 ， 刷 区 不 就 是 被 分 割 的 么 ?但 是 一 个 而 区 只 有 512B 大 小 ， 这 不 符合 合 
一 刃 法 。 因 为 合 一 刃 法 中 是 “ 缘 ?" 而 不 是 “ 粒 ”， 分 割 成 粒 的 话 ， 不 仅 开销 
太 大 ， 而 且 组 合 起 来 也 很 困难 。 所 以 七 星 大 侠 决 定 完 全 照搬 合 一 思 法 的 
思想 ， 但 是 义 不 能 丢弃 磁盘 已 经 分 割 好 的 而 区 ， 所 以 七 星 绞 尽 脑 汁 想 出 
这 么 一 个 办 法 ， 如 图 4-1 和 图 4-2 所 示 。 
































图 4-1 正常 的 4 块 硬盘 图 4-2 ”被 分 割 的 4 块 便 盘 











图 4-1 所 示 的 是 4 块 普 通 硬盘 ， 其 上 布 满 了 局 区 。 忆 区 是 实 实在 在 存 
在 于 盘 片 上 的 ， 具 有 上 自己 的 格式 。 图 4-2 所 示 的 是 引入 分 割 思想 之 后 的 


硬盘 。 由 于 许多 文件 系统 或 者 卷 管理 软件 都 使 用 块 而 不 是 扇 区 作为 基本 
存储 单元 ， 所 以 图 4-2 中 也 使 用 由 4 个 鹿 区 组 成 的 块 作为 基本 单元 。 不 同 
磁盘 的 相同 偏 移 处 的 块 组 合成 Stripe， 也 就 是 条 市 。 


块 的 编号 也 是 以 横 辣 条 带 方向 开始 一 条 一 条 的 辣 下 。 这 样 ， 对 于 一 
个 全 新 的 文件 系统 和 RAID 0 磁盘 组 ， 如 果 有 大 块 数 据 写 入 时 ， 则 数据 在 
很 大 几率 上 可 以 以 条 带 为 单位 写 入 。 也 就 是 说 数据 被 分 成 多 块 写 入 4 个 
硬盘， 而 不 是 单 便 盘 系统 中 的 顺序 写 入 一 个 硬盘 ， 这 束 大 大 提高 了 速 
度 。 图 4-3 所 示 的 为 多 块 磁 盘 组 成 的 逻辑 磁盘 示意 图 。 








图 4-3 ”心中 之 龙 





提示 : ”磁盘 上 实 实 在 在 存在 的 只 有 山区 结构 ，Stripe 并 不 是 一 
个 实 实在 在 的 结构 ， 它 只 是 由 程序 根据 算法 公式 现 套 现 用 的 。 
就 像 戴 了 一 副 有 格子 的 眼镜 看 一 张 白 纸 ， 那 么 会 认为 这 张 白 纸 
被 格式 化 了 ， 其 实 并 没有 。 另 外 ， 条 市 化 之 后 的 多 块 硬 盘 ， 数 
据 是 被 并 行 写 入 所 有 磁盘 的 ， 也 就 是 多 管 齐 下 ， 而 不 是 横向 写 


满 一 个 条 带 ， 再 写 下 一 个 条 带 。 








七 星 大 侠 就 这 样 埋头 百 苗 思考 了 整整 1 年 ， 基 于 合 一 思 法 的 横 分 竖 
制 的 思想 ， 完 成 了 “七 星 北 斗 阵 ”的 第 一 个 阵 式 一 一 RAID 0 阵 式 。 


4.1.2 ”RAID 1 孟 式 





伦 开 七 汞 ， 各 表 其 一 。 话 说 七 星 在 完成 RAID 0 阵 式 之 后 ， 并 没有 沾 
沾 自 喜 ， 而 总 是 想 在 合 一 刀 法 上 有 所 创新 。 








提示 : ”RAID 0 阵 式 纵然 威力 无 比 ， 但 弱点 也 很 明显 : 一 旦 其 
中 一 块 磁盘 废 掉 ， 整 个 阵 式 将 会 被 轻易 攻破 。 因 为 每 次 出 招 第 


的 就 是 “ 合 一 ”， 如 采 任 意 一 块 坏 挥 ， 也 就 没有 “ 合 ” 的 意义 了 。 
也 就 是 说 ， 数 据 被 我 在 心中 分 割 ， 本 来 老 老实 实 写 到 一 块 盘 束 
完事 了 ， 可 为 了 追求 威力 ， 非 要 并 发 写 盘 ， 第 一 、 三 、 五 、 
有 块 数 据 写 到 了 1 号 盘 ， 第 二 、 四 、 六 、.…… 块 数据 写 到 了 2 
号 盘 。 但 是 对 于 外 界 来 说 ， 会 认为 是 把 数据 都 写 到 了 我 心中 的 
一 块 虚拟 盘 上 。 这 样 不 坏 则 已 ， 一 旦 其 中 任何 一 块 磁盘 损坏 ， 
就 会 数据 全 毁 ， 因 为 数据 是 被 分 割 开 存放 在 所 有 磁盘 上 的 。 不 
行 ， 太 不 保险 了 。 为 了 退 求 威力 ， 时 的 险 太 大 ， 要 想 个 稳 受 的 
办 法 。 











于 是 七 星 再 次 冥 思 苗 想 ， 终 于 创 出 了 RAID 1 阵 式 ! 


这 话 要 说 到 800 年 前 ， 有 位 “独行 侠 "， 心 独 喘 独 终日 孤单 一 人 。 据 
称 他 每 次 出 招 从 来 不 用 双手 ， 总 是 单 手打 出 单 党 ， 练 就 了 一 门 “ 独 孤 影 
子 营 ”。 虽 说 此 和 车 法 威力 不 高 ， 但 是 目 有 其 妙 处 。 每 当 他 敌 不 过 他 人 ， 
单 党 被 击 温 的 时 候 ， 束 会 立即 换 用 夯 一 只 从 来 都 没 用 过 的 营 继 续 出 招 。 
这 一 绝学 往往 令 目 以 为 已 经 占 了 上 风 的 敌人 在 还 没有 回 过 神 来 的 情况 
下 ， 就 被 打 个 落花 流水 ! 不 但 他 的 掌 法 绝妙 ， 就 连 他 的 喘 法 都 达到 了 炉 
火 纯 青 的 地 步 。 他 能 修炼 出 一 个 影子 ， 这 个 影子 平时 总 古 跟随 着 他 ， 他 
做 什么 ， 影 子 就 做 什么 。 一 旦 真 身 损毁 ， 其 影子 便 代 蔡 他 的 真 号 来 动 
作 。 这 位 独行 侠 遗 留 的 “孤独 影子 掌 ” 秘 笈 如 下 : 

















心 膝 肛 ， 笛 腾 胱 。 
掌 由 独 心 生 。 
身 朋 肛 ， 影 朋 胱 。 
身影 心 相同 。 
化 腊 腌 ， 夜 采 胱 。 
独 饮 党 月 容 。 


灯 滕 肛 ， 人 腊 胱 。 
此 景 何 时 休 ? 


独行 侠 的 这 段 诗 句 不 难 理解 ， 孤 独 给 了 他 灵感 ， 里 独 心 也 独 ， 如 此 
练 就 的 功夫 ， 也 是 独孤 残 影 。 最 后 一 句 说 出 了 大 侠 的 无 共 ， 其 实 他 也 不 
想 孤 独 ， 但 是 没 人 能 理解 他 。 


七 星 大 侠 领 避 了 独行 侠 的 昔 囊 ， 感 受 了 他 的 心境 。 独 行 侠 练 束 的 是 
一 门 “ 无 条 ?绝学 ， 处 处 体现 独 凄 惨 与 流 迫 。 只 有 残 了 了， 才能 重 获 新 生 。 
一 只 掌 断 了 ， 男 一 只 掌 才能 接 普 ， 这 是 何等 凄惨 ? 简直 凄惨 全 极 ! 不 过 
往往 扳 独 姜 兰 的 人 都 很 注意 目 保 ， 虽 然 招式 的 威力 是 最 小 的 ， 但 是 这 门 
学 问 是 武林 中 用 于 自 保 的 最 佳 选择 。 





七 星 大 侠 没 有 理由 不 选择 这 门 目 保 神功 来 解决 他 在 RAID 0 阵 式 中 的 
破 丝 ， 也 就 是 安全 问题 。 坚 无 疑问 ，RAID 0 是 强大 的 ， 但 是 也 是 脆弱 
的 ， 一 点 扩 挫 折 束 足以 让 RAID 0 解体 。 





七 星 大 侠 决 定 完全 抛弃 RAID 0 的 思想 ， 采 用 独行 侠 的 思想 。 将 两 块 
磁盘 中 的 一 块 用 于 正常 使 用 ， 男 一 块 用 作 正 第 使 用 磁盘 的 影子 。 影 子 总 
是 跟随 主人 ， 主 人 做 什么 ， 影 子 就 做 什么 。 工 作 盘 写 了 一 个 数据 ， 影 子 
盘 在 相同 位 置 也 写 上 了 数据 。 读 数据 的 时 候 ， 因 为 数据 有 两 份 ， 可 以 在 
工作 盘 读 ， 也 可 以 到 影子 盘 读 ， 所 以 增加 了 并 发 性 。 即 修 烁 这 个 阵 陈 的 
人 ， 可 以 同时 应 付 两 个 敌人 的 挑 昱 ， 目 映 应 付 一 个 ， 影 子 应 付 一 个 ， 这 
无 疑 是 很 高 明 的 ! 





但 是 应 付 一 个 敌人 的 时 候 ， 不 像 RAID 0 阵 式 那样 可 以 同时 使 用 多 块 
磁盘 ， 只 能 使 用 一 块 磁盘 。 当 其 中 一 英 磁盘 坏 掉 ， 或 者 其 中 一 块 磁盘 上 
菏 个 区 域 坏 掉 ， 那 么 对 应 影子 盘 或 者 影子 奶 上 对 应 的 位 置 便 会 立即 接替 











工作 盘 ， 政 人 看 不 出 变化 。 可 能 独行 侠 一 生 都 没有 直到 同时 和 两 个 对 手 
过 招 的 情况 ， 所 以 在 他 的 秘笈 中 ， 并 没有 体现 “并 发 读 " 这 个 功能 ， 只 体 
现 了 安全 目 保 。 


然而 七 星 并 没有 全 面 抛弃 双 刀 大 侠 的 思想 ， 而 是 保留 了 双 刀 的 精 
华 ， 即 “ 横 分 紧 割 ”的 基本 思想 ， 抛 弃 了 他 的 算法 ， 即 鲁 藉 而 不 计 后 果 的 
并 发 往 各 个 磁盘 上 与 数据 的 方法 。 所 谓 算法 ， 也 即 指 大 侠 对 付 敌 人 招数 
的 时 候 ， 在 心中 盘算 的 过 程 。 心 算 的 速度 远 远 快 于 出 招 的 速度 ， 所 以 心 
算 引 发 的 延 时 并 不 会 影响 出 招 。 现 在 江湖 人 士 也 大 多 部 是 精 于 钻研 算 
法 ， 而 只 有 制造 兵 圳 的 铁匠 才 去 钻研 如 何 用 料 ， 考 虑 如 何 才 能 减轻 兵器 
重量 而 不 影响 兵器 的 人 硬度 和 耐 诺 度 等 。 


可 以 说 ， 兵 絮 的 材质 、 设 计 加 上 大 侠 们 精心 的 算法 才 形 成 了 江湖 上 
形形色色 的 功夫 秘 航 ! 而 材质 在 很 大 程度 上 发 展 是 很 慢 的 ， 想 有 突破 非 
常 困难 。 但 是 算法 就 不 同 了 ， 大 侠 可 以 研究 出 各 种 使 用 兵 句 的 方法 ， 将 
兵器 用 得 神 乎 其 神 ! 磁盘 的 转速 、 磁 密度 、 电 路 等 ， 虽 然 一 直 在 提升 ， 
但 是 终 完 太 慢 。 所 以 出 现 了 以 七 星 大 侠 为 代表 的 算法 派 ， 他 们 舌 研 算 
法 ， 用 来 提高 磁盘 的 整体 性 能 。 假 想 东 天 一 旦 某 个 铁 折 造 出 了 屠 龙 刀 、 
倚天 剑 这 般 的 神器 ， 我 想 七 星 这 等 大 侠 也 就 无 用 武之 处 了 。 可 惜 这 两 把 
神器 已 经 在 自 相 残杀 中 玉石 俱 机 了 。 





七 星 大 侠 最 后 给 这 个 阵 式 起 名 叫做 “RAID 1”。 图 4-4 显 示 了 RAID 1 
组 成 的 逻辑 磁盘 。 


图 4-4” RAID 1 示意 图 








但 是 七 星 也 深 深 认识 到 ， 这 个 RAID 1 阵 式 还 是 有 两 个 大 弱点 。 


在 修炼 的 时 候 ， 速 度 会 和 慢 ， 因 为 每 次 修炼 ， 除 了 练 真 映 之 外 ， 还 





要 练 影子 。 不 然 影 子 不 会 ， 出 招 的 时 候 影子 就 无 法 使 用 。 这 会 对 实际 使 
用 有 一 定 影响 ， 数 据 写 到 工作 盘 上 ， 也 必须 写 到 影子 盘 上 一 份 。 








虽然 上 自己 有 个 影子 ， 但 是 影子 没有 给 真 身 增加 后 劲 。 真 刁 寂 了 ， 影 
子 也 会 被 拖累 。 不 管 修炼 了 几 个 影子 ， 整 体 的 耐力 和 体力 只 等 于 其 中 一 
个 的 体力 耐力 ， 也 就 是 真 导 的 体力 和 耐力 。 整 体 的 体力 和 耐力 都 被 限制 
在 体力 耐力 最 小 的 影子 盘 或 者 真 导 上 。 也 就 是 说 RAID 1 提供 的 最 大 容量 
等 于 所 有 组 成 RAID ”1I1 的 磁盘 中 容量 最 小 的 一 块 ， 剩 余 容 量 不 被 使 用 ， 
RAID 1 磁盘 组 的 写 性 能 等 于 所 有 磁盘 中 性 能 最 低 的 那 块 磁盘 的 写 性 能 。 














七 星 看 了 看 RAID 0， 又 看 了 看 RAID 1， 一 个 鲁莽 急躁 但 威力 无 
比 ， 一 个 独孤 残 知 自嘲 目 保 。 锋 ! 吗 呼 哉 ! ! 七 星 心 想 ， 我 怎么 走 了 两 
个 极端 昵 ? 不 慨 ， 不 妥 ， 二 者 皆 不 合 我 意 ! 于 是 ， 七 星 大 侠 又 开始 了 知 
心 钻 研 ， 这 一 下 就 是 2 年 ! 








4.1.3 RAID 2 孟 式 


史话 : ”话说 明 末 清 初 时 期 ， 社 会 动荡 ， 英 雄 幸 出 。 有 这 么 一 
位 英雄 ， 号 称 “ 优 雅 剑 侠 ”， 他 持 双 手 剑 ， 得 葵 于 流传 甚 广 的 合 
一 思 法 ， 并 加 入 了 自己 的 招式 ， 修 炼 成 了 一 套 “ 合 一 优雅 剑 
法 ”。 剑 侠 深 知 合 一 思 法 的 鲁 莫 招式， 虽然 威力 巨大 ， 但 必 会 
酿 成 大 祸 。 所 以 他 潜心 研究 ， 终 于 找到 一 种 办 法 ， 可 以 避免 合 
一 的 鲁 磊 造 成 的 不 可 挽回 的 祸患 。 他 分 析 过 ， 合 一 之 所 以 鲁 项 
就 是 因为 他 没有 备份 措施 ， 兵 器 有 任何 一 点 损坏 都 会 一 损 俱 
损 。 那 么 是 不 是 可 以 找 一 种 方法 ， 对 兵器 上 的 每 个 条 市 都 做 一 
个 备份 ， 就 像 当 年 独行 侠 那 样 ? 但 是 又 不 能 一 个 对 一 个 ， 那 就 
和 独行 侠 无 寞 了 。 











剑侠 的 脑子 很 好 用 ， 他 从 小 精 于 算术 ， 有 第 人 不 及 之 算术 功夫 。 如 
今 他 终于 发 挥 出 他 的 算术 技能 了 ， 他 人 移 找 来 一 张 纸 ， 然 后 把 他 的 两 把 剑 
和 这 张 纸 ， 并 排 摆 在 地 上 ， 人 然后 对 剑 和 纸 进 行 横 分 紧 制 ， 然 后 一 一 对 
照 ， 将 第 一 把 剑 的 第 一 格 写 上 一 个 1， 然 后 在 第 二 把 剑 的 相同 位 置 上 写 
上 一 个 0， 然 后 在 纸 的 对 应 位 置 上 算出 前 三 者 的 和 ， 即 1 十 0 二 1。 然 后 剑 
侠 设 想 ， 一 旦 第 一 把 剑 被 损坏 ， 现 在 只 剩 第 二 把 剑 和 那 张 记 满 数字 的 
纸 ， 剑 侠 悦 然 大 悟 : 原来 如 此 精妙 ! 


为 什么 呢 ? 虽然 第 一 把 剑 损坏 ， 但 是 此 时 仍然 可 以 出 招 ， 因 为 第 一 
把 剑 上 的 数字 可 以 用 纸 上 对 应 位 置 的 数字 ， 减 去 第 二 把 剑 对 应 位 置 上 的 
数据 ! 也 惑 是 1 一 0 三 1， 就 可 以 得 出 第 一 把 剑 上 已 经 丢失 的 数字 ! 而 在 
收 人 看 来 ， 仍 旧 是 手持 一 把 大 剑 ， 只 不 过 威力 变 小 了 ， 因 为 每 次 出 招 都 
要 计算 一 次 。 而 且 修炼 的 时 候 也 更 加 难 了 ， 因 为 每 练 一 招 就 要 在 纸 上 记 
录 下 双 剑 之 和 ， 而 且 还 需要 用 脑子 算 ， 速 度 比 合 一 刀 法 慢 了 不 少 。 





哇 哈 哈 ， 剑 侠 仰 天 长 笑 ! 他 给 自己 的 剑 法 取 名 “优雅 合 一 剑 法 ”， 意 
即 他 的 剑 法 比 合 一 刀 法 虽然 威力 不 及 ， 但 也 差不多 少 。 最 重要 的 是 ， 他 
克服 了 合 一 思 法 鲁莽 不 计 后 果 的 弱点 ， 所 以 要 比 合 一 思 法 来 得 优雅 。 但 
是 这 个 剑 法 也 有 弱点 ， 就 是 他 额外 增加 了 一 张 纸 和 用 了 更 多 的 脑筋 来 计 
算 。 脑 子 计算 倒是 不 成 问题 ， 努 力学 习 算 法 便 可 ， 但 是 额外 增加 了 一 张 
纸 ， 这 个 难免 有 些 遗 憾 ， 但 是 也 没有 办 法 ， 总 比 独行 侠 那 一 套 上 自 保 好 得 
多 。 目 保 的 代价 是 修炼 一 个 平时 几乎 用 不 到 的 影子 ， 是 一 比 一 。 优 雅 合 
一 剑 法 是 二 比 一 ， 降 低 了 修炼 的 代价 ， 而 威力 却 较 合 一 刀 法 没 减 多 少 。 











然而 ， 这 套 剑 法 虽然 声名 大 品 ， 但 古 优雅 剑侠 还 是 被 一 个 突如其来 
的 问题 一 直 折 磨 着 ， 直 到 临终 也 没有 想 出 办 法 解决 。 











疑问 : 如 果 我 使 用 3 把 剑 、4 把 剑 、5 把 剑 ， 这 套 剑 法 还 奏效 


么 ? 因为 3 把 剑 的 数字 之 和 ， 就 不 是 一 个 数字 ， 而 是 两 个 数字 
了 ， 比 如 1 十 0 十 1 二 10。 而 这 套 剑 法 只 有 一 张 纸 ， 一 个 格 不 能 
放 两 个 数字 ， 这 样 就 必须 再 加 一 张 纸 ， 这 样 不 就 和 独行 侠 那 一 
套 无 异 了 么 ? 比例 太 高 ， 不 妥 。 所 以 优雅 剑侠 一 直 再 考虑 这 个 
问题 ， 临 终 前 留 下 一 段 诗句 ， 也 抱 憾 而 终 。 





独行 合 一 音 非 道 ， 
二 者 中 庸 方 优雅 。 
加 减 算术 惑 思 考 ， 


世间 正道 为 算法 ! 


优雅 剑侠 这 段 诗 的 最 后 一 句 ， 指 明了 后 人 奉 要 解决 这 个 问题 ， 必 须 
要 找到 一 种 算法 。 不 管 多 少 个 数字 ， 如 果 撼 盖 一 个 数字 ， 可 以 将 其 他 数 
字 代 入 这 个 算法 ， 就 可 以 得 到 被 掩盖 的 数字 的 值 。 这 在 当时 简直 就 是 不 
可 能 的 事 。 “世间 正道 为 算法 ”这 句 话 后 来 被 作为 推动 武林 发 展 的 一 句 至 
理 名 言 。 随 着 近代 西方 科技 传 入 中 国 ， 这 种 算法 终于 被 人 了 解 了 ! 他 是 
如 此 简单 而 美丽 ! 他 改变 了 整个 世界 ! 





峰回路转 ， 七 星 大 侠 在 优雅 剑 法 的 基础 上 ， 把 剑 换 成 了 磁盘 。 那 张 
记录 数字 之 和 的 纸 ， 七 星 也 改 用 磁盘 来 记录 。 这 样 ， 组 成 了 一 个 三 磁盘 
系统 ， 两 块 数据 盘 ， 一 块 所 谓 “ 校 验 盘 ”"。 当 数据 损坏 时 ， 根 据 校 验 盘 上 
的 数字 ， 可 恢复 损坏 磁盘 上 的 数字 。 两 个 磁盘 系统 每 次 只 能 传输 2 路 数 
据 ， 因 为 数据 盘 就 两 块 ， 而 每 块 磁盘 每 次 就 传输 出 去 一 路 。 





RAID 2 的 具体 实现 如 图 4-5 所 示 。 





图 4-5 ”RAID 2 的 具体 实现 


看 看 RAID 2 的 具体 实现 。 值 得 研究 的 是 ， 七 星 大 侠 并 没有 使 用 加 减 
法 来 进行 校 验 ， 而 是 用 了 一 种 算法 复杂 的 所 谓 “ 汉 明码 ”来 校 验 。 这 可 不 
是 信 手 牛 来 ， 而 是 有 一 定 原因 的 。 用 加 减 算 法 进行 校 验 ， 并 没有 对 数据 
纠 错 的 能 力 。 加 减法 情况 下 ， 比 如 1 十 0 十 1 二 10， 这 段 数据 在 从 磁盘 被 
传输 给 控制 器 的 时 候 ， 校 验 位 会 一 同 传输 ， 即 数据 位 101， 校 验 位 10， 
此 时 经 过 控制 器 的 校 验 ， 他 会 算出 1 十 0 十 1 二 10， 和 一 同 传 过 来 的 校 验 
位 进行 比 对 。 如 果 相 同 ， 则 证 明 数 据 都 无 误 。 但 是 此 时 如 果 在 传输 的 过 
程 中 ， 电 路 受到 干扰 ， 数 据 位 其 中 有 一 位 畸变 了 ， 比 如 变 成 111 了 ， 也 
就 是 中 间 那 个 0 变 成 1 了， 其 他 不 变 ， 此 时 控制 器 进行 计算 1 十 1 十 1 三 
11， 和 一 同 传 过 来 的 10 不 同 ， 那 么 控制 器 会 怎么 认为 ? 它 可 以 认为 数据 
位 全 部 正确 ， 而 校 验 位 被 畸变 ， 也 可 以 认为 数据 位 被 畸变 ， 校 验 位 正 
确 。 所 以 根本 不 能 判断 到 底 是 哪 种 情况 ， 所 以 不 能 修复 错误 。 而 七 星 引 
入 了 汉 明 码 ， 汉 明码 的 设计 使 得 接收 方 可 以 判断 到 底 是 哪 一 位 出 错 了 ， 
并 且 能 修正 一 位 错误 ， 但 是 如 果 有 两 位 都 错 了 ， 那 么 就 不 能 修正 了 。 











Hamming Code ECC〈 汉 明码 错误 检测 与 修正 ) 


RAID “2 算法 的 复杂 性 在 于 它 使 用 了 很 早期 的 纠 错 技术 一 一 汉 明 码 
(Hamming Code) 校 验 技 术 。 现 在 就 来 看 一 下 汉 明 人 码 的 算法 。 





汉 明 码 在 原 有 数据 位 中 插入 一 定数 量 的 校 验 位 来 进行 错误 检测 和 纠 
错 。 比 如 ， 对 于 一 组 4 位 数据 编码 为 例 ， 汉 明码 会 在 这 4 位 中 加 入 3 个 校 
验 位 ， 从 而 使 得 实际 传输 的 数据 位 达到 7 位 ， 它 们 的 位 置 如 图 4-5 所 示 。 





需要 被 插入 的 汉 明 码 的 位 数 与 数据 位 的 数量 之 间 的 关系 为 2P>P 十 D 
十 1， 其 中 P 代 表 汉 明码 的 个 数 ，D 代 表 数 据 位 的 个 数 。 比 如 4 位 数据 ， 
加 上 1 就 是 5， 而 能 大 于 5 的 2 的 才 数 就 是 3 (23 三 8，22 三 4) 。 所 以 ，7 位 
数据 时 需要 4 位 汉 明 码 (24>4 十 7 十 1) ，64 位 数据 时 就 要 7 位 汉 明 码 


《27 之 64 十 7 十 ]7 3 








在 RAID 2 中 ， 每 个 IO 下 发 的 数据 被 以 位 为 单位 平均 打 散 在 所 有 数 
据 盘 上 。 如 图 4.5 中 所 示 ， 左 边 的 为 数据 盘 阵 列 ， 如 果 某 时 刻 有 一 个 4KB 
的 IO 下 发 给 这 个 RAID 2 系统 ， 则 这 4KB 中 的 第 1、5、9、13 等 位 将 被 存 
放 在 第 一 块 数据 盘 的 一 个 扇 区 中 ， 第 2、6、10、14 等 位 被 存放 在 第 二 个 
磁盘 的 对 应 条 带 上 的 扇 区 ， 依 此 类 推 。 这 样 ， 数 据 强行 打 散在 所 有 磁盘 
上 ， 迫 使 每 次 IO 都 要 全 组 联动 来 存 取 ， 所 以 此 时 要 求 各 个 磁盘 主轴 同 
步 ， 才 能 达到 最 佳 效果 。 因 为 如 果 某 时 刻 只 读 出 了 一 个 IO 的 某 些 耐 区 ， 
另 一 些 而 区 还 没有 读 出 ， 那 么 先 读 出 来 的 数据 都 要 等 待 ， 这 就 造成 了 瓶 
有 颈 。 主 轴 同 步 之 后 ， 每 块 磁盘 盘 片 旋转 同步 ， 某 一 时 刻 每 块 磁盘 都 旋转 
到 同一 个 扇 区 偏 移 的 上 方 。 同 理 ， 右 边 的 阵列 〈 我 们 称 之 为 校 验 阵列 ) 
则 存储 相应 的 汉 明 码 。 





RAID 2 在 写 入 数据 块 的 同时 还 要 计算 出 它们 的 汉 明 码 并 写 入 校 验 阵 
列 ， 该 取 时 也 要 对 数据 即时 地 进行 校 验 ， 最 后 再 发 同系 统 。 通 过 上 文 的 
介绍 ， 我 们 知道 汉 明 码 只 能 纠正 一 个 位 的 错误 ， 所 以 RAID 2 也 只 能 允许 
一 个 人 硬盘 出 问题 ， 如 果 两 个 或 以 上 的 硬盘 出 问题 ，RAID 2 的 数据 就 将 受 
到 破坏 。 





RAID 2 是 早期 为 了 能 进行 即时 的 数据 校 验 而 研制 的 一 种 技术 (这 在 
当时 的 RAID 0、1 等 级 中 是 无 法 做 到 的 ) ， 从 它 的 设计 上 看 也 是 主要 为 
了 即时 校 验 以 保证 数据 安全 ， 针 对 了 当时 对 数据 即时 安全 性 非常 敏感 的 
领域 ， 如 服务 器 、 金 融 服 务 等 。 但 由 于 校 验 盘 数量 太 多 、 开 销 太 大 及 成 

昂贵 ， 目 前 已 基本 不 再 使 用 ， 转 而 以 更 高 级 的 即时 检验 RAID 所 代 
蔡 ， 如 RAID 3、5 等 。 




















七 星 大 侠 现在 已 经 创造 了 三 种 阵 式 了 ， 根 据 合 一 刀 法 所 创 的 RAID 


0， 根 据 独 孤 掌 所 创 的 RAID 1， 根 据 优雅 合 一 剑 法 所 创 的 RAID 2。 而 七 
星 大 侠 的 郁 闽 之 处 和 当年 优雅 剑侠 一 样 ， 束 是 至 于 找 不 到 一 种 一 和 劳 永 侈 
的 绝妙 算法 ， 一 种 集 各 种 优点 为 一 身 而 且 开 销 小 的 算法 。 


4.1.4 ”RAID 3 阵 式 


话说 到 了 清末 ， 清 政府 开展 洋务 运动 ， 师 夷 长 技 以 治 夷 。 还 别 说 ， 
真 引入 了 不 少 好 技术 ， 比 如 布尔 逻辑 运算 式 。 这 话 要 从 布尔 说 起 ， 布 尔 
有 一 次 在 家 的 或 继 电 桌 ， 他 将 多 个 继电器 时 而 串联 ， 时 而 并 联 ， 时 而 串 
并 一 同 使 用 ， 逐 渐 摸 索 出 一 些 规律 。 比 如 两 个 继电器 在 串联 时 ， 必 须 同 
时 闭合 两 个 开关 ， 电 路 才能 接 通 ， 人 灯泡 才能 渤 。 如 采 把 开关 闭合 当 作 
1， 开 关 关 闭 当 作 0， 灯 泡 点 亮 当 作 1， 灯 泡 不 亮 当 作 0， 那 么 这 种 串联 电 
路 的 逻辑 就 可 以 这 样 写 : 1 和 1 二 1。 也 就 是 两 个 开关 都 闭合 ， 灯 泡 才能 


so CE 








然后 ， 他 还 发 现 一 个 馆 辑 ， 如 宁 在 这 个 串联 电路 上 增加 一 个 元 件 ， 
如 宁 两 个 开关 都 财 合 的 时 候 ， 电 路 反而 是 断 开 的 。 有 人 说 不 可 能 ， 那 么 
请 仔细 想 一 想 ， 闭 合 开 关 电 路 断 开 ， 这 有 什么 难 的 么 ? 完全 可 以 通过 继 
电器 来 实现 ， 比 如 电路 闭合 之 后 ， 电 磁铁 通电 ， 把 铁 户 吸引 下 来 ， 而 这 
个 铁 片 是 男 一 个 电路 的 开关 ， 铁 片 下 来 了 ， 为 一 个 电路 也 束 断 开 了 ， 所 
以 通过 把 这 两 个 电路 组 合 ， 完 全 可 以 得 到 这 种 逻辑 :1 和 1 二 0。 





还 有 一 种 逻辑 ， 就 是 当 两 个 开关 任意 一 个 闭合 时 ， 电 路 就 通路 ， 也 
就 是 并 联 电路 。 这 种 逻辑 可 以 这 么 表达 : 1 或 1 二 1，1 或 0 二 1。 经 过 多 种 
组 合 ， 布 尔 得 到 了 1 或 1 二 1、1 或 0 二 1、1 和 1 二 1、1 和 0 二 0。 





这 就 是 4 种 基本 逻辑 电路 。 这 种 “和 ”“ 或 ?的 运算 ， 很 多 人 都 不 理 
解 。 人 们 理解 的 只 是 加 减 运算 ， 因 为 加 减 很 党 用。 人们 不 理解 的 原因 束 


征 不 知道 除了 加 减 算 术 之 外 ， 还 有 一 种 叫做 “ 馆 辑 ”的 东西 ， 也 瓯 是 因 采 
的 运算 。 人 们 往往 把 1 当成 数量 ， 代 表 1 个 ， 而 在 因果 率 中 ，1 不 代表 数 
量 ， 它 只 代表 真 假 ， 其 实 我 们 完全 可 以 不 用 1 这 个 符号 来 代表 真 ， 我 们 
就 用 中 文 “ 真 ”代表 真 ， 可 人 否 ? 














当然 可 以 ， 但 是 因为 笔画 太 多 ， 不 方便 ， 还 是 用 1 和 0 代表 真 假 比 较 
方便 。 其 实 磁盘 上 的 数据 ， 也 不 是 1 就 代表 1 个 ， 而 是 1 代表 磁性 的 取 
问 ， 因 为 磁性 只 有 两 个 取 回 ， 仿 佛 对 称 就 是 组 成 宇宙 的 基石 一 样 ， 比 如 
正 、 负 ， 对 、 错 等 。 当 因 末 率 和 被 用 数学 方程 式 表 达 出 来 并 赋予 电路 的 物 
理 意义 之 后 ， 整 个 世界 也 就 进入 了 新 世纪 的 歼 明 ， 这 个 世纪 是 计算 机 的 
世纪 。 





提示 : ”从 数学 到 物理 意义 ， 我 们 仿佛 看 出 点 什么 来 ， 现 代 量 
子 力学 那 一 大 堆 数学 式 ， 折 服 了 太 多 的 科学 家 ， 包 括 爱 因 斯 
坦 ， 到 他 去 世 前 ， 爱 因 斯 坦 都 没有 理解 量子 力学 所 推演 出 来 的 
数学 式 子 在 物理 上 到 底 代 表 了 什么 意义 。 而 且 直 到 21 世 纪 ， 也 
没有 人 给 予 这 些 式 子 以 “目前 ”可 理解 的 物理 意义 。 我 们 可 以 想 
象 一 下 布尔 逻辑 算 陈 公布 的 时 候 ， 物 理 意 义 到 确 是 什么 ? 没 人 
知道 ， 甚 至 布尔 自己 估计 也 不 知道 ， 就 只 是 一 对 式 子 而 已 。 直 
到 有 一 天 一 个 人 在 家 揭 吾 继电器， 突然 风 马 牛 不 相 及 地 想到 
了 ， 这 不 就 是 布尔 逻辑 么 ? 从此， 数字 电路 ， 计 算 机 时 代 ， 改 
变 了 我 们 的 世界 。 











七 星 在 学 习 了 布尔 逻辑 算式 之 后 ， 也 古稀 里 糊涂 地 把 它 用 在 RAID 2 
那 一 直 困 扰 他 的 问题 上 面 ， 看 看 能 否 有 所 突破 。 





布尔 运算 中 有 一 个 XOR 运 算 ， 即 1 XOR 0 二 1，1 XOR 1 二 0，0 XOR 
0 二 0。 布 尔 也 总 结 出 了 与 加 法 结合 率 、 加 法 交换 率 等 类 似 的 逻辑 运算 


率 ， 并 发 现 了 一 些 规律 : 


1 XOR © XOR 1=0 
© XOR 1 XOR 0=1 


假如 第 一 个 式 子 中 ， 中 间 的 0 被 掩盖 ， 完 全 可 以 从 结果 推出 这 个 被 
掩盖 的 逻辑 数字 。 不 管 多 少 位 ， 进 行 效 辑 运算 之 后 还 是 一 位 。 仔 细 一 想 
也 是 理 押 当然 的 ， 馆 辑 结 果 只 有 两 个 值 ， 不 是 真 ， 惑 是 假 ， 当 然 只 用 一 
位 束 可 以 代替 了 。 


提示 : 大 家 可 以 目 己 算 算 ， 不 管 等 式 左 边 有 多 少 位 进行 运 
算 ， 这 个 规律 都 运用 。 但 是 在 加 减法 中 ， 知 要 保持 等 式 右 边 有 
一 位 ， 则 左边 参与 运算 的 只 能 是 1 十 0 或 者 0 十 1， 再 多 一 个 数 的 
话 ， 右 边 束 是 两 位 了 。 但 是 逻辑 运算 中 等 式 右边 永远 都 是 一 

位 ! 就 是 如 此 绝妙 。 为 什么 如 此 精妙 呢 ? 没 人 能 解释 为 什么 ， 

就 像 问 为 什么 有 正 电荷 、 负 电荷 一 样 ， 它 们 到 底 是 什么 东西 ， 

谁 也 说 不 清 。 




















七 星 大 侠 开 始 并 不 觉得 这 是 真 的 ， 他 反复 演算 ， 想 举 出 一 个 伪证 ， 
可 是 徒劳 无 功 。 七 星 不 得 不 为 布尔 的 绝学 所 折服 ! 同时 也 为 西方 发 达 的 
基础 科学 所 赞叹 ! 


至此， 困扰 七 星 大 侠 多 年 的 关于 算法 的 问题 ， 终 于 随 着 西方 科学 的 
介入 ， 得 以 顺利 解决 ! 而 且 解决 得 是 那么 完美 ， 那 么 畅快 ! 


七 星 立 即 决定 投入 其 下 一 个 阵 式 RAID 3 的 创立 过 程 中 。 他 发 狂 似 地 
抛弃 了 那 元 余 的 让 人 看 大 就 不 顺眼 的 RAID ”2 的 几 块 校 验 盘 ， 只 留 下 一 
块 。 按 照 布尔 的 思想 ， 数 据 盘 的 每 一 个 位 之 间 做 XOR 运 算 ， 然 后 将 结果 
写 入 校 验 盘 的 对 应 位 置 。 这 样 ， 任 何 一 块 数据 盘 损 坏 ， 或 者 其 中 的 任何 








一 个 扇 区 损坏 ， 都 可 以 通过 剩余 的 位 和 校 验 位 一 同 进 行 XOR 运 算 ， 而 运 
算 的 结果 就 是 这 个 丢失 的 位 。8 位 一 起 校 验 可 以 找 出 一 个 丢失 的 字 市 ， 
512 字 节 一 起 校 验 就 可 以 找到 一 个 丢失 的 而 区 。 


做 到 这 里 ， 已 经 算是 成 功 了 ， 但 是 七 星 还 不 太 满 足 ， 因 为 他 还 有 一 
桩 心事 ， 就 是 RAID 2 中 数据 被 打 得 太 散 了 。 七 星 大 侠 索 性 把 RAID 3 的 
条 带 长 度 设置 成 为 4KB， 这 样 刚好 适 配 了 上 层 的 数据 组 织 ， 一 般 文 件 系 
统 常 用 的 是 以 4KB 为 一 个 块 。 如 果 用 4 块 数据 盘 ， 则 条 带 深度 为 两 个 鹿 
区 或 者 IKB。 如 采用 8 个 数据 盘 ， 则 条 市 深度 为 1 个 而 区 或 者 说 512B。 总 
之 ， 要 保持 条 带 长 度 为 上 层 块 的 大 小 。 上 层 的 IO 一 般 都 会 以 块 为 单位 ， 
这 样 就 可 以 保证 在 连续 写 的 情况 下 ， 可 以 以 条 带 为 单位 号 入 ， 大 大 提高 
磁盘 并 行 度 。 














七 星 在 RAID 3 阵 式 中 ， 仍 旧 保 持 RAID 2 的 思想 ， 也 就 是 对 一 个 IO 
尽量 做 到 能 够 分 割 成 小 块 ， 让 每 个 磁盘 都 得 到 存放 这 些小 块 的 机 会 。 这 
样 多 磁盘 同时 工作 ， 性 能 高 。 所 以 七 星 在 RAID 3 中 把 一 个 条 带 做 成 4KB 
这 个 魔术 值 ， 这 样 每 次 IO 就 会 这 动 所 有 磁 检 并 行 读 写 。 到 此 我 们 了 解 
了 ，RAID 2 和 RAID 3 都 是 每 次 只 能 做 一 次 IO (在 IO 块 大 于 Block SIZE 
的 时 候 ) ， 不 适合 于 要 求 多 IO 并 发 的 情况 ， 因 为 会 造成 IO 等 待 。RAID 
3 的 并 发 只 是 一 次 IO 的 多 磁盘 并 发 存 取 ， 而 不 是 指 多 个 IO 的 并 发 。 所 以 
和 RAID 2 一 样 ， 适 合 IO 块 大 、IO SIZE/IO PS 比值 大 的 情况 。 








提示 : “在 极端 优化 的 条 件 下 ，RAID 3 也 是 可 以 做 到 IO 并 发 
的 。 控 制 器 同一 块 磁盘 发 送 的 该 写 指 令 ， 其 中 包含 一 个 所 要 读 
取 忆 区 的 长 度 ， 如 有 果 下 一 次 IO 与 本 次 IO 在 物理 上 是 连续 的 〈 连 
续 IO) ， 此 时 如 果 控 制 右 做 了 极端 的 优化 ， 则 可 以 将 这 两 次 IO 
合并 起 来 ， 向 磁盘 发 送 的 每 个 IO 指令 中 包含 了 两 次 上 层 IO 的 数 
据 ， 这 样 也 算是 一 种 并 发 IO。 当 然 ， 这 种 优化 不 仅仅 可 以 在 磁 


盘 控制 器 这 一 层 实现 ， 其 实 文件 系统 层 也 可 以 实现 。 

提示 : ”RAID 3 和 RAID 2 一 样 ， 要 达到 RAID 3 的 最 佳 性 能 ， 需 
要 所 有 磁盘 的 主轴 同步 。 也 融 是 说 ， 对 于 一 块 数据 ， 所 有 厂 盘 
最 好 同时 旋转 到 这 个 数据 所 在 的 位 置 ， 然 后 所 有 磁盘 同步 读 出 
来 。 不 然 ， 一 旦 有 磁盘 和 其 他 磁盘 不 同步 ， 就 会 造成 等 待 ， 所 
以 只 有 主轴 同步 才能 发 挥 最 大 性 能 。 








总 结 一 下 ，RAID 3 相 比 RAID 2 校 验 效率 提升 ， 成 本 减少 (使 用 磁 
盘 更 少 了 ) 。 缺 点 是 不 支持 错误 纠正 了 ， 因 为 XOR 算 法 无 法 纠正 错误 。 
但 是 这 个 缺点 已 经 不 重要 ， 发 生 错 误 的 机 会 少 之 又 少 ， 可 以 完全 靠 上 层 
来 处 理 错 误 了 。 正 可 谓 : 





与 非 异 或 同 ， 
一 语 解 千 入。 
今朝 有 酒 醉 ， 
看 我 数 风流 ! 


下 面 说 明 关 于 RAID 3 的 校 验 盘 有 没有 瓶 贷 的 问题 。 


不 妨 用 一 个 例子 来 深入 理解 一 下 RAID 3。 通 过 刚才 的 讲解 ， 大 家 知 
道 了 RAID 3 每 次 IO 都 会 分 散 到 所 有 盘 。 因 为 RAID 3 把 一 个 逻辑 块 又 分 
割 成 了 JN 份 ， 也 就 是 说 如 果 一 个 逻辑 块 是 4KB“〔〈 一 般 文件 系统 都 使 用 这 
个 值 ) ， 在 有 5 块 盘 的 RAID 3 系统 中 其 中 4 块 是 数据 盘 ，1 块 是 校 验 盘 。 
这 样 ， 把 4KB 分 成 4 块 ， 每 块 1KB， 每 个 数据 盘 上 各 占 1 块 ， 也 就 是 两 个 
扇 区 。 而 文件 系统 下 发 的 一 个 IO， 至 少 是 以 一 个 逻辑 块 为 单位 的 ， 也 就 
是 不 能 IO 半 个 逻辑 块 的 单位 ， 也 就 不 可 能 存在 一 个 IO， 大 小 是 小 于 4KB 
的 ， 要 么 是 1 个 4KB， 要 么 是 N 个 4KB。 但 这 只 是 针对 文件 系统 下 发 的 
IO， 磁 盘 控制 器 驱动 向 磁盘 下 发 的 IO 最 细 粒 度 可 以 为 一 个 扇 区 。 这 样 ， 





就 保证 了 文件 系统 下 发 的 一 次 IO， 不 管 多 大 都 被 跨越 了 所 有 数据 盘 。 


读 又 分 成 连续 读 和 随机 读 。 连 续 读 指 的 是 每 个 IO 所 需要 提取 的 数据 
块 在 序号 上 是 连续 的 ， 磁 头 不 必 耗 费 太 多 时 间 来 回 寻 道 ， 所 以 这 种 情况 
下 寻 道 消耗 的 时 间 就 很 短 。 我 们 知道 ， 一 个 IO 所 用 的 时 间 约 等 于 寻 道 时 
间 加 上 旋转 延迟 时 间 再 加 上 数据 传输 时 间 。IOPS 三 1/《〈 寻 道 时 间 十 旋转 
延迟 时 间 十 数据 传输 时 间 ) ， 由 于 寻 道 时 间 相 对 于 传输 时 间 要 大 几 个 数 
量 级 ， 所 以 影响 IOPS 的 关键 因素 就 是 寻 道 时 间 。 而 在 连续 IO 的 情况 
下 ， 仅 在 换 磁道 时 需要 寻 道 ， 而 磁道 都 是 相 邻 的 ， 所 以 寻 道 时 间 也 足够 
短 。 在 这 个 前 提 下 ， 传 输 时 间 这 个 分 母 就 显示 出 作用 来 了 。 由 于 RAID 3 
是 一 个 IO， 必 定 平均 分 推 到 了 N 个 数据 盘 上 ， 所 以 数据 传输 时 间 是 单 盘 
的 MHN， 从 而 在 连续 IO 的 情况 下 ， 大 大 增加 了 IOPS。 而 磁盘 总 体 传输 速 
率 约 等 于 IOPS 乘 以 IO SIZE。 不 管 IO SIZE 多 大 ，RAID 3 的 持续 读 性 能 
乎 就 是 单 盘 的 N 倍 ， 非 常 强大 。 








再 看 看 持续 写 ， 同 样 的 道理 ， 写 IO 也 必定 分 摊 到 所 有 数据 盘 ， 那 么 
寻 道 时 间 也 足够 短 〈 因 为 是 持续 IO) 。 所 以 写 的 时 候 所 耗费 的 时 间 也 是 
单 盘 的 MHN， 因 此 速率 也 是 单 盘 的 N 倍 。 有 人 说 RAID 3 的 校 验 盘 是 热点 
盘 ， 是 瓶 领 。 理 由 是 RAID 3 写 校 验 的 时 候 ， 需 要 像 RAID 5 一 样 ， 先 读 
出 原来 的 校 验 块 ， 再 读 出 原来 的 数据 块 ， 接 着 计算 出 新 校 验 ， 然 后 写 入 
新 数据 和 新 校 验 。 实 际 上 RAID ”3 中 每 个 IO 必定 要 改动 所 有 数据 盘 的 数 
据 分 块 。 因 为 一 个 文件 系统 IO 的 块 已 经 被 分 割 到 所 有 盘 了 ， 只 要 这 个 IO 
是 写 的 动作 ， 那 么 物理 磁盘 上 的 所 有 分 块 ， 就 必定 要 全 部 都 被 更 新 重 
写 。 既 然 这 样 ， 还 有 “ 旧 数 据 * 和 “ 旧 校 验 ” 的 概念 么 ? 没有 了 ， 因 为 这 个 
IO 上 的 所 有 分 割 块 需要 全 部 被 更 新 ， 包 括 校 验 块 。 数 据 在 一 次 写 入 之 
前 ， 控 制 器 就 会 计算 好 校 验 块 ， 然 后 同时 将 数据 块 和 校 验 块 号 入 磁盘 。 
这 就 没有 了 什么 瓶颈 和 热点 的 区 别 ! 

















RAID 4 是 有 热点 盘 ， 因 为 RAID 4 系统 处 理 文 件 系统 IO 不 是 每 次 都 
会 更 新 所 有 盘 的 ， 所 以 它 必 须 用 RAID 5 的 那个 计算 新 校 验 的 公式 ， 也 就 
是 多 出 4 个 操作 那个 步骤 ， 所 以 当然 有 瓶颈 了 ! 要 说 RAID 3 有 热点 盘 ， 
也 行 ， 所 有 盘 都 是 热点 盘 ， 数 据 、 校 验 ， 所 有 盘 ， 对 RAID 3 来 说 ， 每 次 
IO 必 将 牵动 所 有 盘 ， 那 么 就 可 以 说 RAID 3 全 部 都 是 热点 盘 ! 





再 来 看 看 RAID ”3 的 随机 读 写 。 所 谓 随机 IO， 即 每 次 IO 的 数据 块 是 
分 布 在 磁盘 的 各 个 位 置 ， 这 些 位 置 是 不 连续 的 ， 或 者 连续 几率 很 小 。 这 
样 ， 磁 头 就 必须 不 断 地 换 道 ， 换 道 操作 是 磁盘 操作 中 最 慢 的 环节 。 根 据 
公式 IOPS 二 1/( 换 道 时 间 十 数据 传输 时 间 〉 ， 随 机 IO 的 时 候 换 道 时 间 很 
大 ， 大 出 传输 时 间 几 个 数量 级 ， 所 以 传输 得 再 快 ， 翻 10 倍 也 才 增 高 了 一 
个 数量 级 ， 远 不 及 换 道 时 间 的 影响 大 ， 所 以 此 时 可 以 忽略 传输 时 间 的 增 
加 效应 。 由 于 一 次 IO 同样 是 被 分 割 到 了 所 有 数据 盘 ， 那 么 多 块 盘 同时 换 
道 ， 然 后 同时 传输 各 自 的 那个 分 块 ， 换 道 时 间 就 约 等 于 单 盘 。 其 传输 时 
间 是 单 盘 的 MN， 而 传输 时 间 带 来 的 增 效 可 以 忽略 。 所 以 对 于 随机 读 写 
的 性 能 ，RAID 3 并 没有 提升 ， 和 单 盘 一 样 ， 甚 至 不 及 单 盘 。 因 为 有 时 候 
磁盘 不 是 严格 主轴 同步 的 ， 这 样 换 道 慢 的 磁盘 会 拖累 其 他 磁盘 。 





再 来 看 看 并 发 IO。 显 然 ，RAID 3 执行 一 次 IO 必 将 牵动 占用 所 有 
盘 ， 那 么 此 时 其 他 排队 的 IO 就 必须 等 待 ， 所 以 RAID ”3 根本 就 不 能 并 发 
IO。 


注意 : ”上 文中 的 “IO0? 均 指 文件 系统 下 发 的 IO， 而 不 是 指 最 终 
的 倒 盘 IO 。 


4.1.5 RAID 4 阵 式 


七 星 自从 学 习 了 西方 先进 的 基础 科学 之 后 ， 一 发 而 不 可 收 。 以 前 已 


经 是 以 钻研 为 乐 ， 现 在 成 了 以 钻研 为 生 了 。 以 前 饿 了 还 知道 去 要 饭 吃 ， 
现在 七 星 已 经 感觉 不 到 饿 了 ， 只 要 有 东西 让 他 钻研 ， 束 等 于 吃饭 了 。 





话说 某 天 七 星 正在 闭 目 思 考 修 烧 ， 他 回想 起 了 双 刀 时 代 的 辉 焊 、 独 
行 时 代 的 凄 否 和 优雅 剑 时 代 的 中 庸 之 乐 。 往 事 历历 在 目 ， 再 看 看 如 今 已 
经 是 穷困 漆 倒 的 目 己 ， 他 不 蔡 光 然 泪 下 ， 老 泪 纵 横 。 





他 给 上 面 的 三 种 思想 ， 分 别 划 分 了 门派 ，RAID 0 属于 激进 派 ， 
RAID 1 属于 保守 派 ，RAID 2，RAID 3 属于 中 庸 派 。 中 庸 派 的 思想 一 方 
面 汲取 了 激进 派 的 横 分 竖 割 提高 威力 的 做 法 ， 一 方面 适当 地 降低 威力 来 
向 保守 派 汲 取 了 自 保 的 经 验 ， 而 创立 了 引 以 为 豪 的 校 验 盘 的 绝妙 技术 。 


七 星 想 大 激进 派 似乎 已 经 没有 什么 可 以 让 中 庸 派 值得 借鉴 的 地 方 

了 ， 倒 是 保守 派 的 一 个 关键 拉 术 中 庸 派 还 没有 移植 过 来 ， 那 束 是 同时 应 
付 多 个 敌人 的 技术 。 虽 然 当 年 独行 侠 根本 就 没有 意识 到 他 的 独 坂 影子 党 
可 以 同时 应 付 两 个 敌人 ， 因 为 独行 侠 一 生 都 没有 同时 和 两 个 人 交 过 手 。 
虽然 独孤 党 的 秘笈 中 也 没有 提 及 这 门 绝招 ， 但 是 七 星 赁 他 积累 多 年 的 知 
识 和 经 验 ， 强 烈 地 感觉 到 并 发 IJO 早 在 独 抓 党 时 代 束 已 经 被 实现 了 ， 只 不 
过 没有 被 记载 ， 而 且 一 直 被 人 忽略 ! 要 想 有 所 突破 就 必须 突破 这 一 关 ! 
想到 这 里 ， 七 星 立即 再 次 开始 了 他 的 实验 。 








RAID 2 阵 式 中 ， 数 据 块 被 以 位 为 单位 打 散 在 多 块 磁盘 上 存储 ， 这 种 
设计 确实 应 该 被 淘汰 了 ， 且 不 说 IO 设计 合理 与 否 ， 看 它 校 验 盘 的 数量 就 
让 人 气 不 打 一 处 来 。 那 么 再 看 看 RAID 3， 在 RAID 3 的 IO 设计 中 还 是 走 
了 RAID 2 的 老路 子 ， 也 就 是 一 次 IO 尽量 让 每 块 磁盘 都 参与 ， 而 控制 器 
的 一 次 IO 数据 块 不 会 很 大 ， 那 么 想 让 每 块 磁盘 都 参与 这 个 IO， 就 只 能 
为 地 减 小 条 带 深度 的 大 小 。 











事实 证 明 这 种 IO 设计 在 IOSIZE/IOPS (比值 ) 很 大 的 时 候 ， 确 实效 
果 明 显 。 但 在 现实 应 用 中 ， 很 多 应 用 的 IOSIZE/IOPS 都 很 小 ， 比 如 随机 
小 块 读 写 等 ， 这 种 应 用 每 秒 产生 的 IO 数目 很 大 ， 但 是 每 个 IO 所 请 求 的 数 
据 长 度 却 很 短 。 如 果 所 有 磁盘 同一 时 刻 都 被 一 个 IO 占用 着 ， 且 不 能 并 发 
IO， 只 能 一 个 IO 一 个 IO 的 来 做 ， 由 于 IO 块 长 度 小 ， 此 时 全 盘 联 动 来 传 
输 这 个 ID， 得不偿失， 还 不 如 让 这 个 IO 的 数据 直接 写 入 一 块 磁盘 ， 空 余 
的 磁盘 就 可 以 做 其 他 IO 了 。 








要 实现 并 发 TD， 就 需要 保证 有 空闲 的 磁盘 未 和 "IO 占用 ， 以 便 其 他 IO 
去 占有 磁盘 进行 访问 。 唯 一 可 以 实现 这 个 目的 的 方法 就 是 增 大 条 带 深 
度 ， 控 制 右 的 一 个 IO 过 来 ， 如 果 这 个 IO 块 小 于 条 融 深 度 ， 那 么 这 次 IO 就 
被 完全 “ 森 铀 ”在 一 块 磁盘 上 ， 直 接 束 写 入 了 一 个 磁盘 上 的 Segment 中 ， 
这 个 过 程 只 用 到 了 一 块 磁盘 。 而 其 他 IO 也 可 以 和 这 个 IO 同时 进行 ， 前 提 
是 其 他 IO 的 目标 不 是 这 个 IO 要 写 入 或 读 取 的 磁盘 。 所 以 实现 IO 并 有 还 需 
要 增 大 数据 的 随机 分 布 性 ， 而 不 要 连续 在 一 个 磁盘 上 分 布 。 这 里 七 星 大 
侠 忽 略 了 一 个 非常 重要 的 地 方 ， 下 面 会 看 到 。 





在 这 些 分 析 的 基础 上 ， 七 星 将 RAID 3 进行 了 简单 的 改造 ， 增 大 了 条 
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4.1.6 RAID 5 阵 式 


话说 七 星 大 侠 正 在 为 创立 了 RAID 4 阵 式 而 欢喜 的 时 候 ， 麻 烦 来 了 。 
很 多 江湖 上 的 朋友 都 给 他 撒 信 说 ， 修 炼 了 RAID 4 阵 式 之 后 ， 在 IO 写 的 
时 候 ， 好 像 性 能 相对 于 RAID 3 并 没有 什么 提升 ， 不 管 IJOSIZE/IOPS 的 值 
是 多 少 。 这 个 奇怪 的 问题 ， 让 七 星 大 侠 天 天 如 坐 针 秸 、 茶 饭 不 思 ， 终 日 
思考 这 个 问题 的 原因 。 他 不 停 地 拿 着 两 块 磁盘 和 一 张 纸 〈 校 验 盘 ) 比 
划 。 时 间 一 长 ， 七 星 有 一 天 突然 发 现 ， 纸 已 经 被 他 画 的 不 成 样子 了 ， 需 
要 另 换 一 张 。 这 引起 了 思维 活跃 的 七 星 大 侠 的 思考 ,“ 并 发 1JO， 并 发 
IO， 并 发 10，.………”， 他 不 停 地 在 中 里 念 明 着 。 突 然 他 两 眼 一 睁 ， 史 了 
一 句 之 后 ， 开 始 奋 笔 疾 书 。 











七 星 大 侠 想 到 了 什么 让 他 悦 然 大 悟 呢 ? 原 来 ， 七 星 经 过 思考 之 后 ， 
发 现 RAID 4 确实 是 他 的 一 大 败笔 ， 相 对 RAID 3 没有 什么 性 能 提升 ， 反 


而 误 人 子弟 ， 浪 费 了 很 多 人 的 时 间 去 修炼 一 个 无 用 的 功夫 。 








七 星 创立 RAID ”4 时 ， 太 过 大 意 了 ， 竟 然 忽略 了 一 件 事情 。 每 个 IO 
写 操作 必须 占用 校 验 盘 ， 校 验 盘 每 一 时 刻 总 是 被 一 个 IO 占用 ， 因 为 写 数 
据 盘 的 时 候 ， 同 时 也 要 读 写 校 验 盘 上 的 校 验 码 。 所 以 每 个 写 IO 不 管 占用 
了 哪 块 数据 盘 ， 校 验 盘 它 是 必须 占用 的 ， 这 样 校 验 盘 就 成 为 了 瓶颈 ， 而 
目 每 个 写 入 IO 都 会 拖累 校 验 盘 ， 使 得 校 验 盘 没有 休息 的 时 间 ， 成 了 “ 热 
点 盘 *"， 非 常 容易 损坏 。 











没有 引入 校 验 功 能 ， 数 据 盘 可 以 被 号 IO 并 发 ， 引 入 了 校 验 功 能 之 
后 ， 数 据 盘 还 可 以 并 发 ， 但 是 校 验 盘 不 可 以 并 发 ， 所 以 整体 上 还 是 不 能 
并 发 。 除 非 不 使 用 校 验 盘 ， 不 过 那 束 和 RAID 0 没什么 区 别 了 。 所 以 七 星 
在 RAID 4 上 掉 进 了 一 个 误区 ， 如 今 他 终于 醒悟 了 。 








创立 的 RAID 4 什么 都 不 是 ， 不 伦 不 类 。 七 星 这 个 郁闷 啊 ! 为 了 实现 
真正 的 写 IO 并 及， 他 这 次 是 苍 出 去 了 ， 一 定 要 创立 新 的 阵 式 ! 


思考 : ” RAID 4 的 关键 错误 在 于 忽略 了 校 验 盘 。 每 个 IO 不 管 目 
标 在 哪个 数据 盘 ， 但 是 一 定 要 读 写 校 验 盘 。 而 校 验 盘 只 有 一 

块 ， 不 读 也 得 读 ! 那 如 果 有 两 块 校 验 盘 ， 它 能 否 随机 选择 一 块 
来 读 写 ? 不 行 ， 这 两 块 校 验 盘 之 间 也 要 同步 起 来 ， 类 似 RAID 
1， 这 样 开销 太 大 ， 成 本 太 高 。 





不 妨 作 一 下 演绎 ， 首 先 ， 我 们 的 目标 是 并 发 TO。 要 并 发 1JO， 校 验 盘 
某 一 时 刻 必须 可 以 被 多 个 IO 占用 ， 这 是 必须 的 ， 和 否则 就 不 是 并 发 ID。 但 
是 “ 校 验 盘 某 一 时 刻 可 以 被 多 个 IO 占用 ”， 这 不 简直 是 扯淡 么 ? 一 块 磁盘 
怎么 可 以 同时 被 多 个 IO 占用 呢 ? 所 以 七 星 下 了 结论 ， 中 良 派 不 可 能 实现 
并 发 IO。 


结论 下 了 了， 七 星 也 病 了 ， 彻 彻底 底 的 病 倒 了 。 他 不 甘心 ， 在 他 心中 
一 定 有 一 个 完美 的 阵 式 。 他 和 拿 着 那 张 已 经 快 被 画 烂 的 纸 ， 气 愤 至 极 ， 将 
纸 撕 成 了 两 半 。 碎 片 束 像 七 星 那 破碎 的 心 ， 飘 冉 沙 下 ， 不 偏 不 位 ， 正 好 
分 别 落 到 了 地 上 的 两 把 全 上 ， 分 别 盖 住 了 剑 的 一 半 。 七 星 看 着 这 情景 
一 发 避 ， 仿 佛 景 景 中 一 直 有 个 神仙 在 指引 着 他 似 的 ， 双 一 次 让 七 星 芒 
顿 开 ， 悦 然 大 悟 :“ 老 天 助 我 啊 ! 哇 哈 哈哈 哈哈 ! ” 


七 星 疡 了 一 般 从 人质 上 滚 落 下 来 ， 他 又 找 来 一 把 剑 ， 把 纸 捧 成 三 块 ， 
分 别 盖 住 每 把 剑 的 三 分 之 一 。 同 样 ，4 把 剑 ， 把 纸 撕 成 4 块 ， 盖 住 剑 的 四 
分 之 一 。 民 久之 后 ， 七 星 仰天 长 叹 :“ 完 美 ， 太 完美 7 了! ” 


七 星 赶 紧 静 下 心 来 ， 他 深 知 ， 必 须 经 过 深思 熟 虑 ， 才 不 会 出 现 问 
题 ， 不 能 重 蹈 RAID 4 的 上 黎 狼 。 他 人 花 了 半 个 月 的 时 间 ， 0 
演算 ， 并 仔细 分 析 。 一 块 磁盘 同一 时 刻 不 能 被 多 个 I10 占 用 ， 这 是 绝对 真 
理 ， 不 可 质疑 的 真理 。 那 么 以 前 也 曾经 想 过 RE 可 
否 ? 也 不 好 ， 不 完美 。 这 次 把 校 验 盘 分 ) 制 开 ， 组 合 于 数据 明之 中 ， 依 队 
于 数据 盘 ， 这 样 就 完美 地 避 开 了 那个 真理 。 既 然 多 个 IO 可 以 同时 刻 访问 
多 英 数 据 盘 ， 而 校 验 盘 又 被 打 散在 各 个 数据 盘 上 ， 那 么 就 意味 痢 多 IO 可 
以 同时 访问 校 验 盘 《的 " 残 体 ”) 。 这 样 就 大 大 增加 了 多 IO 并 发 的 几率 ， 
纵使 发 生 多 个 IO 所 要 用 到 的 校 验 盘 的 “ 残 体 ?可 能 在 同一 块 数据 盘 上 ， 这 
样 还 是 可 以 IO 排队 等 待 的 。 











如 果 数 据 盘 足够 多 ， 校 验 盘 打 散 的 部 分 融会 分 布 得 足够 广泛 ， 多 IO 
并 有 的 几率 就 会 显著 增 大 ! 他 根据 这 个 推断 做 实验 ， 
盘 。 下 分 别 盖 住 两 把 剑 的 一 半 ， tn 
实 是 一 把 剑 的 容量 ， 校 验 盘 容量 也 是 一 把 剑 的 容 它们 分 别 占 了 总 容 
量 的 二 分 之 A 5 系统 ， 对 于 写 操作 来 说 不 能 并 发 
10， 因 为 一 个 IO 访问 其 中 一 所 盘 的 数据 的 时 候 ， 校 验 信息 必定 在 另 一 册 

















盘 ， 必 定 也 要 同时 访问 另 一 块 盘 。 同 样 ，3 块 盘 的 RAID 5 系统 也 不 能 
发 1JO0， 最 低 可 以 并 发 IO 的 RAID 5 系统 需要 4 块 盘 ， 而 此 时 最 多 可 以 并 发 
两 个 IO， 可 以 算出 并 发 几率 为 0.0322。 更 多 磁盘 数量 的 RAID 5 系统 的 并 
发 几率 将 更 高 。 图 4-6 为 一 个 RAID 5 系统 的 示意 图 。 








图 4-6 ”RAID 5 系统 示意 图 


七 星 这 次 可 谓 是 红星 ， 脸 色 红 润 ， 病 态 全 无 。 他 把 这 个 新 创立 
的 阵 式 叫 做 RAID 5。 a 


心 似 剑 ， 剑 如 心 ， 
剑 心 合 ， 方 不 侵 。 
分 久 必 合 合 久 分 ， 
分 分 合 合 天 地 真 ! 


RAID 5 也 不 是 那么 完美 无 缺 的 ， 可 以 说 RAID 5 是 继 RAID 0 和 RAID 
1 之 后 ， 又 一 个 能 实现 并 发 IO 的 阵 式 ， 但 是 比 RAID 1 更 加 划算 ， 比 RAID 
0 更 加 安全 。RAID 5 浪费 的 资源 ， 在 2 块 盘 的 系统 中 与 RAID 1 是 一 样 
的 ， 都 是 二 分 之 一 pe RAID 5 浪费 的 容量 比例 
越 来 越 小 ， 为 N 分 ， 而 RAID 1 则 永远 是 二 分 之 一 。 





RAID 5 和 RAID 0 都 是 利用 条 市 来 提升 性 能 ， 但 是 它 叉 克服 了 RAID 
0 的 鲁莽 急躁 ， 对 数据 用 校 验 的 方式 进行 保护 。 但 是 RAID ”5 的 设计 思 
想 ， 注 定 了 它 的 连续 读 性 能 不 如 RAID 3，RAID 3 由 于 条 带 深度 很 小 ， 
每 次 IO 总 是 能 牵动 所 有 磁盘 为 它 服 务 ， 对 于 大 块 连续 数据 的 读 写 速度 很 
快 。 但 是 RAID ”5 的 条 带 深 度 比 较 大 ， 每 次 IO 一 般 只 使 用 一 块 数据 盘 ， 
而 且 通 用 RAID 5 系统 一 般 被 设计 为 数据 块 都 是 先 放 满 一 个 Segment， 再 
去 下 一 个 磁盘 的 Segment 存 放 ， 块 编号 是 横向 进行 的 。 














RAID 5 在 随机 读 方 面 ， 确 实 是 首屈一指 的 ， 这 要 归功 于 它 的 多 IO 
并 发 的 实现 ， 这 里 指 的 是 随机 IO。 也 就 是 说 RAID 3 在 IOSIZE 值 大 的 时 
候 具 有 高 性 能 ，RAID 5 在 随机 IOPS 大 的 时 候 具 有 高 性 能 。 


RAID 5 的 一 大 缺点 就 是 写 性 能 较 差 。 写 性 能 差 是 中 庸 派 的 通病 ， 其 
根本 原因 在 于 它们 每 写 一 山区 的 数据 就 要 产生 其 校 验 而 区 ， 一 并 写 入 校 
验 盘 。 尤 其 是 更 改 数据 的 时 候 ， 这 种 效应 的 影响 尤其 严重 。 














RAID 5 写 的 基本 过 程 是 这 样 的 ， 新 数据 过 来 之 后 ， 控 制 占 立即 读 取 
竺 更 新 而 区 的 原 数 据 ， 同 时 也 要 读 取 这 个 条 市 上 的 校 验 数据 。 三 者 按照 
公式 运算 ， 便 可 得 出 新 数据 的 校 验 数据 ， 然 后 将 新 数据 和 新 数据 的 校 验 
数据 写 到 人 磁盘。 公式 如 下 : 








新 数据 的 校 验 数据 二 〈 老 数据 EOR 新 数据 ) EOR 老 校 验 数据 








鱼 和 能 党 不 可 兼 得 ! 最 后 七 星 总 结 了 这 么 一 句 话 。 也 就 是 说 随机 并 
发 IO 和 写 性 能 二 者 取 其 一 。 但 是 有 些 文件 系统 巧妙 地 减少 了 这 种 写 惩 
罚 ， 使 得 RAID 4 的 缺点 被 成 功 前 减 ， 从 而 将 其 优点 显现 了 出 来 ， 本 章 后 
面 会 提 到 这 种 优化 操作 。 


思考 : RAID 5 一 次 写 的 动作 ， 其 实 要 浪费 掉 3 个 其 他 动作 ， 也 
就 是 要 先 读 出 老 数 据 ， 读 出 老 校 验 数据 ， 然 后 写 新 数据 和 校 验 
数据 ， 这 样 只 有 “ 写 新 数据 ”是 要 完成 的 目的 ， 而 捐 市 了 三 个 额 
外 操作 。 纵 观 RAID 0 和 RAID 1 此 二 者 ，RAID 0 鲁莽， 写 就 是 
写 ， 不 带 任 何 考虑 ， 所 以 速度 最 快 。RAID 1 自 保 ， 但 是 每 次 也 
只 要 写 两 次 即 可 ， 只 是 额外 多 了 一 个 操作 。 所 以 RAID 5 和 
RAID 4 在 处 理 写 方面 是 失败 的 。 就 连 RAID 2 和 RAID 3 都 比 
RAID 5 写 性 能 强 ， 因 为 它们 的 条 融 深 度 很 小 ， 任 何 一 次 正常 点 





的 IO 几乎 会 履 写 所 有 盘 ， 均 会 将 这 整个 条 带 上 的 位 都 改变 。 所 
以 RAID 2 和 RAID 3 不 用 顾忌 条 带 上 是 否 还 有 未 被 更 新 的 数 
据 ， 所 以 它 不 会 管 老 数 据 如 何 ， 只 管 从 新 数据 计算 出 新 校 验 数 
据 ， 然 后 同时 将 数据 位 和 校 验 位 分 别 写 到 数据 盘 和 校 验 盘 ， 这 
样 只 用 了 两 个 操作 ， 比 RAID 5 少 了 两 次 读 的 过 程 。 








RAID 5E 和 RAID 5EE 阵 式 


七 星 大 侠 推 出 RAID 5 之 后 ， 得 到 了 极为 广泛 的 应 用 ， 江 湖上 的 武林 
人 士 都 在 修 烁 ， 有 些 练 成 的 大 侠 还 备 目 创办 了 数据 库 、 网 站 等 生意 ， 得 
荔 于 RAID 5 的 随机 IO 并 发 特性 ， 这 些 人 赚 了 一 大 笔 ， 生 意 火 得 一 声 糊 
涂 。 然 而 ， 七 星 还 是 那个 要 饭 的 七 星 ， 剑 还 是 那 把 剑 ， 依 然 终日 以 钻研 
为 乐 ， 以 钻研 为 生 。 


话说 有 一 天 ， 有 个 侠客 专门 找到 了 七 星 大 侠 ， 侠 客 请 他 到 “纵横 
毅 ? 者 酒 畅饮 。 酒 过 三 巡 ， 沫 过 五 味 ， 侠 客 进 入 了 正题 ， 同 七 星 叙 述 了 
一 件 事 情 。 他 说 他 已 经 炼 成 了 RAID 5 阵 式 ， 但 是 在 使 用 的 时 候 总 是 心里 
没 确 。 其 原因 就 是 一 旦 一 块 磁盘 损坏 ， 虽 然 此 时 不 影 啊 使 用 ， 但 是 总 有 
顾虑 ， 不 敢 全 力 出 招 ， 残 怕 此 时 再 坏 一 块 磁盘 ， 整 个 阵 式 就 衣 沉 了。 





他 请 求 七 星 解 决 这 个 问题 ， 临 走 的 时 候 留 下 了 儿 块 市 面 上 品质 最 好 
的 硬盘 和 一 些 银子 供 七 星 研 究 使 用 。 七 星 很 是 感动 ， 几 十 年 来 从 来 没有 
一 位 江湖 人 士 和 他 交流 切磋 过 ， 也 从 来 没有 一 个 人 来 帮助 过 他 。 此 景 让 
他 泪 流 满 面 ， 感 动 得 不 知 说 什么 好 。 他 回 那 位 侠客 道 : “能 交 您 这 位 轰 
杰 人 士 ， 我 七 星 此 生 无 憾 ! * 随 后， 七 星 又 开始 终日 研究 。 这 位 大 侠 就 
是 几 十 年 后 谱写 降 龙 传说 的 张 真人 。 








思考 : ” 咽 ,， 一 旦 一 块 磁盘 损坏 ， 此 时 这 块 盘 上 的 数据 已 经 不 





复 存 在 ， 但 是 如 打 有 IO 请 求 这 块 坏 盘 上 的 数据 ， 那 么 可 以 用 还 
存在 的 数据 ， 校 验 出 这 块 损 坏 的 数据 ， 传 送出 去 。 也 就 是 说 ， 

损坏 的 数据 是 边 校 验 边 传送 ， 现 生成 现 传送 的 。 而 对 于 要 写 入 
这 块 盘 的 IO， 控 制 器 会 经 过 计算 ， 将 其 “ 重 定 癌 ? 到 其 他 盘 。 上 所 
请 重 定 疝 并 不 是 完全 透明 地 写 入 其 他 盘 ， 而 是 运用 XOR 进 行 逆 
运算 ， 将 写 入 的 数据 代入 算式 进行 逆 运 算 ， 得 到 的 结果 写 入 现 
存 的 磁盘 上 。 

此 时 如 果 再 有 一 块 磁盘 损坏 ， 无 疑 阵 式 就 要 关 误 了 。 解 决 这 个 
问题 的 直接 办 法 ， 就 是 找 一 块 备用 的 磁盘 。 一 旦 有 磁盘 损坏 ， 

其 他 磁盘 立即 校 验 出 损坏 的 数据 ， 立 即 写 到 备用 磁盘 上 。 写 完 
之 后 ， 阵 形 束 恢复 原样 了 ， 束 没有 顾虑 了。 但 是 必须 保证 在 其 
他 磁盘 齐 力 校 验 恢复 数据 的 过 程 中 ， 不 可 再 有 第 二 块 磁盘 损 

坏 ， 不 然 便 会 玉石 俱 焚 ! 








想到 这 里 ， 七 星 开始 了 他 的 实验 ， 并 且 取 得 成 功 。 就 是 在 整个 阵 式 
中 增加 一 块 热 备 盘 ， 平 时 这 块 磁盘 并 不 参与 组 阵 ， 只 是 在 劳 边 观战 ， 什 
么 也 不 干 。 一 旦 阵 中 共 个 人 受伤 不 能 参战 了 ， 这 个 热 备 盘 立 即 顶 蔡 他 ， 
其 他 人 再 把 功力 传授 给 他 。 传 授 完 毕 后 ， 就 像 原来 的 阵 式 一 样 了 了。 如果 
在 大 家 传授 功力 的 时 候 ， 有 IO 请 求 这 块 损坏 磁盘 上 的 数据 ， 那 么 大 家 就 
和 暂停 传授 ， 先 应 付 外 来 的 敌人 。 当 没有 来 针对 这 块 损 坏 磁 盘 的 挑 帮 时， 
大 家 会 继续 传授 。 


七 星 的 经 验 不 断 丰 富 ， 他 知道 不 能 急躁 ， 所 以 实验 成 功 之 后 ， 七 星 
并 没有 马上 通知 那 位 大 侠 ， 而 是 继续 在 想 有 没有 可 以 改进 的 地 方 。 他 
想 ， 热 备 盘 平 时 不 参与 组 阵 ， 那 束 不 能 称 作 阵 式 的 一 部 分 ， 而 是 被 排斥 
在 外 。 这 块 磁盘 平时 也 没有 IO， 起 不 到 作用 ， 这 样 就 等 于 浪费 了 一 块 磁 
盘 。 那 么 是 不 是 考虑 也 让 它 参 与 到 阵 形 中 来 呢 ? 如果 要 参与 进来 ， 那 让 








它 担 任 什么 角色 呢 ? 热 备 角色 ? 如 果 没 有 人 受伤 ， 这 个 角色 在 阵 中 只 会 
征 个 昧 痪 。 怎 么 办 好 呢 ? 七 星 忽然 掠 过 一 丝 想 法 ， 是 否 可 以 让 阵 中 各 个 
角色 担 竺 一下， 从 各 自 的 领地 保留 出 一 块 空间 ， 用 作 热 备 盘 的 角色 了 呢 ? 


这 样 把 热 备 盘 分 布 在 各 个 磁盘 上 ， 就 不 会 形成 累 妃 ， 并 且 同 时 解决 
了 热 备 盘 和 大 家 不 协调 的 问题 。 说 干 就 干 ， 七 星 给 那 位 大 侠 写 了 一 封 
信 ， 信 中 称 这 种 阵 式 为 RAID 5E。 七 星 继续 琢磨 RAID 5E， 让 阵 中 每 个 
人 都 保留 一 块 领地 ， 而 不 横 制 ， 昌 然 可 以 做 到 数据 的 及 时 备份 ， 但 是 这 
块 领地 总 显得 不 伦 不 类 。 七 星 突 然 想 到 被 斯 碎 的 纸 片 飘然 落下 的 情景 ， 
忽然 计 上 心头 ! 既然 校 验 盘 都 可 以 横 分 竖 割 的 融合 到 数据 盘 ， 为 什么 热 
备 盘 不 能 呢 ? 一 样 可 以 ! 七 星 想到 这 里 ， 于 是 又 给 那 位 侠客 去 了 一 封 
信 ， 信 中 描述 这 种 新 的 阵 式 为 RAID 5EE。 


那 位 侠客 给 七 星 回 了 一 封 信 : 





七 星 转 ， 北 斗 移 ， 
英雄 无 谓 干 万 里 。 
待 到 再 次 相 见 时 ， 
日 发 芭 ， 哲 知已 ! 


七 星 看 后 老 泪 纵 横 ， 鼎 为 感动 。 相 见 恨 晚 啊 ， 到 了 晚年 才 过 到 人 生 
A 


4.1.7 RAID 6| 连 式 


如 今 ， 七 星 已 经 从 一 个 壮 小 伙 变 成 了 个 孤 苗 伶 位 的 老 涉 。 回 首 过 
去 ， 从 RAID 0 一 直到 RAID 5 (E、EE) 创立 了 6 种 阵 式 ， 各 种 阵 式 各 有 
所 长 。 他 最 得 意 的 恐怕 就 是 中 良 派 的 中 庸 之 道 。 可 就 是 这 个 中 庸 之 道 ， 
却 还 有 一 个 一 直 也 未 能 解决 的 问题 ， 那 就 是 其 中 任何 一 种 阵 式 ， 都 最 多 











同时 允许 损坏 一 块 磁盘 ， 如 果 同 时 损坏 多 块 ， 整 个 阵 不 攻 Z 自 破 ! 七 星 想 
到 这 里 就 一 阵 酸 楚 。 已 经 是 白 发 苑 苑 的 七 星 老 侠 ， 决 定 要 用 晚年 最 后 一 
所 精力 来 攻破 这 个 难题 。 


七 星 老 侠 一 生 精 研 阵 式 ， 有 很 多 宝 贯 的 经 验 。 他 这 次 采用 了 逆 回 思 
维 ， 假 设 这 个 模型 已 经 做 好 ， 然 后 从 逆 癌 分 析 它 是 怎么 作用 的 。 先 描绘 
出 多 种 模型 ， 然 后 一 个 一 个 地 去 攻破 ， 找 出 最 适合 的 模型 。 


七 星 描绘 了 这 么 一 个 模型 ， 假 设 有 5 块 盘 组 成 一 个 RAID 阵 列 ，4 块 
数据 盘 ， 一 块 校 验 盘 ， 那 么 同一 时 刻 突然 4 块 数 据 盘 中 的 两 块 损坏 作 
废 ， 只 剩 下 两 块 数据 盘 和 一 块 校 验 盘 。 假 设 有 某 种 算法 ， 可 以 恢复 这 两 
块 丢 失 磁 盘 上 的 数据 ， 那 么 怎么 从 这 个 模型 推 新 出 ， 这 个 算法 是 怎么 把 
丢失 的 两 块 盘 数 据 都 恢复 出 来 的 呢 ? 七 星 冥 思 兰 想 。 七 星 在 幼年 学 习 方 
程 的 时 候 ， 知 道 要 求解 一 个 未 知 数 ， 只 需 知 道 只 包含 这 一 个 未 知 数 的 一 
个 等 式 即 可 逆向 求解 。 就 像 布 尔 的 逻辑 算式 用 在 RAID 3 阵 式 时 候 一 样 ， 
各 个 数据 盘 上 的 数据 互相 XOR 之 后 就 等 于 校 验 盘 上 的 校 验 数据 ， 这 就 是 


一 个 等 式 ; 








D1 XOR D2 XOR D3 = Parity 


如 果 此 时 D1 未 知 ， 而 其 他 3 个 值 都 已 知 ， 那 么 就 可 以 逆向 解 出 未 知 
数 ， 而 这 也 是 RAID 3 进行 校 验 恢复 的 时 候 所 做 的 。 那 么 此 时 如 果 D1 和 
D2 都 未 知 ， 也 就 是 1 号 盘 和 2 号 盘 都 损坏 了 ， 还 能 解 出 这 两 个 值 么 ? 数 
学 告诉 七 星 ， 这 是 不 可 能 的 ， 除 非 除了 这 个 等 式 还 额外 存在 一 个 和 这 个 
等 式 不 相关 的 另 一 个 等 式 ! 








要 求解 两 个 未 知 数 ， 只 要 知道 关于 这 两 个 未 知 数 的 不 相关 的 两 个 关 
系 方程 即 可 。 比 如 有 等 式 为 D1 ? D2 ? D3 二 *， 联 立 以 上 两 个 等 式 ， 即 


可 求 出 D1 和 D2。 七 星 开 始 寻 疯 这 个 等 式 ， 这 个 等 式 是 已 经 存在 ? 还 是 
需要 自己 去 发 明 呢 ? 七星 一 开始 打算 从 布尔 等 式 找 寻 出 第 二 个 等 式 的 蛛 
丝 马 迹 ， 但 是 后 来 他 根据 因果 率 知 道 如 果 从 布尔 等 式 推出 其 他 某 些 等 

式 ， 那 么 推出 的 等 式 和 布尔 等 式 就 是 相关 的 。 互 相 相 关 的 两 个 等 式 ， 在 
数学 上 是 等 价 的 ， 无 法 作为 第 二 个 等 式 。 七 星 有 所 察觉 了 ， 他 认为 要 想 
得 出 第 二 个 等 式 ， 必 须 由 自己 发 明 一 套 算法 ， 一 套 和 布尔 等 式 不 相关 的 
算法 ! 他 开始 在 纸 上 演 义 算法 ， 首 先 他 开始 从 算术 的 加 减 方程 开始 着 

手 ， 他 写 出 了 一 个 可 以 求解 两 个 未 知 数 的 二 元 方程 : 























X 十 y 三 10 
2X 十 3y 三 20 


这 算是 最 简单 的 算术 方程 。 可 以 求 得 x 王 10，y 王 0。 














以 上 是 对 于 算术 运算 的 方程 ， 那 么 布尔 逻辑 运算 是 否 也 可 以 有 方程 
呢 ? 七 星 写 下 如 下 的 式 子 : 


x XOR y= 三 1 
AX XOR Bx = 0 


第 一 个 方程 已 经 存在 了 ， 也 就 是 用 在 RAID 3 上 的 校 验 方程 。 第 二 个 
方程 是 七 星 模仿 加 减 方程 来 写 的 ， 也 就 是 给 x 和 y 两 个 值 分 别 加 上 了 一 个 
系数 ， 而 这 两 个 系数 不 能 是 从 第 一 个 等 式 推 得 的 ， 比 如 是 将 第 一 个 等 式 
未 知 数 的 系数 同 乘 或 同 除 以 茶 个 数 得 出 来 的 ， 这 样 就 是 相关 等 式 了 。 七 
星 芯 即 找 来 布尔 逻辑 运算 方面 的 书 深 入 学 习 ， 终 于 得 到 了 印证 ， 这 种 方 
程 确实 存在 ! 七 星 激动 得 跳 了 起 来 ! 他 立即 投入 到 研发 中 。 过 了 两 个 
月 ， 终 于 得 出 了 结果 ! 大 获 成 功 ! 








七 星 对 一 份 数据 使 用 两 套 算 法 各 目 算 出 一 个 等 式 ，1 号 等 式 右边 的 


结果 写 入 校 验 盘 1、2 号 等 式 右 边 的 值 写 入 校 验 盘 2。 这 样 ， 只 要 使 用 中 
有 了 两 个 值 发 生 丢失 ， 就 可 以 通过 这 两 个 等 式 联 立 ， 解 出 丢失 的 两 个 值 。 
不 管 这 两 个 值 是 等 式 左边 的 还 是 等 式 右边 的 ， 只 要 代入 这 两 个 等 式 中 ， 
就 可 以 求 出 解 。 





数学 的 力量 是 伟大 的 ， 任 何 东西 只 要 通过 了 数学 的 验证 ， 就 是 永恒 
的 ! 


同样 ， 七 星 将 用 在 RAID 5 中 的 方法 ， 用 在 了 新 创立 的 阵 式 中 ， 将 校 
验 盘 分 布 到 数据 盘 中 ， 不 同 的 是 新 阵 式 的 校 验 盘 有 两 块 ， 在 每 块 磁盘 上 
放置 两 个 等 式 需 要 的 校 验 值 。 


七 星 给 这 种 阵 式 取 名 为 RAID 6。 

RAID 6 相对 其 他 各 种 中 庸 派 的 阵 式 安全 多 了 ， 但 同时 它 的 写 性 能 
差 了 ， 因 为 它 要 多 读 出 一 个 校 验 数 据 ， 而 且 计算 后 还 要 写 入 一 次 ， 这 就 
比 RAID 5 每 次 写 耗费 多 了 两 个 操作 ， 变 成 了 6 次 操作 ， 所 谓 的 “ 写 惩 
谭 ” 更 大 了 。 确 实 是 鱼 与 能 掌 不 能 兼 得 啊 ! 正 可 谓 : 








七 星 北斗 伴 我 行 。 
世间 万 物 皆 规律 ， 
求 得 心 法 谋 太 平 ! 


七 星 在 创立 了 RAID 6 阵 式 之 后 ， 已 经 老 态 龙 钟 ， 奖 病 缠身 ， 所 剩 时 
日 不 多 。 而 江湖 上 可 是 一 派 热 阐 ， 修 炼 的 修 烧 ， 修 炼 好 的 束 立 门派 ， 开 
设 数据 库 、 网 站 等 服务 来 大 赚钱 财 。 而 打 着 七 星 大 侠 旗 号 到 处 招摇 撞 骗 
的 人 也 不 在 少数 。 张 真人 路 见 不 平 拔 刀 相助 ， 他 召开 武林 大 会 ， 表 彰 了 
七 星 的 功绩 ， 指 出 真正 的 七 星 现 在 早已 归隐 ， 那 些 招 反 撞 驴 的 人 也 束 没 





有 容 映 之 地 了 。 他 还 提议 将 七 星 所 创立 的 7 种 阵 式 命名 为 “七 星 北 斗 
阵 ?， 以 纪念 他 和 七 星之 间 的 北斗 豪情 ! 





张 真人 杀 目 到 深山 去 探望 已 经 下 不 了 床 的 七 星 ， 并 将 武林 中 发 生 的 
事情 告诉 了 他 。 此 后 没 几 天 ， 七 星 无 憾 地 离开 了 人 世 ， 化 作 了 北斗 七 
星 ， 在 天 上 洒 下 无 限 的 光芒 照耀 世间 ! 张 真 人 给 老人 办 了 后 事 ， 并 将 七 
星 过 世 的 消 妃 宣布 了 出 去 。 没 想到 第 二 天 ， 七 星 、 星 七 、 北 斗 、 斗 北 、 
七 星 北 斗 、 北 斗 七 星 、 星 七 北斗 、 星 七 斗 北 等 商标 就 被 抢 注 了 ! 大 批 的 
商人 在 发 者 横财 。 正 可 谓 : 


七 星 阵 里 论 七 星 ， 
北斗 光 前 参 北 斗 。 
不 知 天 上 七 星 侠 ， 


如 今 过 活 要 饭 否 ? 





4.2 七 种 RAID 技 术 详 解 


下 面 从 纯 技术 角度 ， 深 入 天 析 目 前 存在 的 七 种 RAID 模 式 的 组 成 原 
理 和 结构 ， 并 分 析 各 种 级 别 相对 于 单 盘 IO 速率 的 变化 。 





首先 洪 清 一 点 ， 所 谓 Stripe 完 全 是 由 程序 在 内 存 中 虚拟 出 来 的 ， 说 
白 了 就 是 一 个 map 公 式 。 即 仿佛 是 给 程序 戴 了 一 个 特殊 的 眼镜 ， 程 序 戴 
上 这 个 眼镜 ， 就 能 看 到 “条 ”和 “和 带 ”， 就 会 知道 将 数据 分 布 到 条 带 上 了 。 
一 旦 摘 下 这 个 眼镜 ， 那 么 看 到 的 就 是 普通 的 物理 磁盘 户 区 。 这 个 眼镜 就 
是 实现 RAID 的 程序 代码 。 物 理 磁盘 上 根本 不 存在 什么 “条 ”和 “ 带 >”， 只 
有 扇 区 。 另 外 ， 程 序 会 在 磁盘 特定 的 一 些 扇 区 中 写 入 自己 运行 时 需要 的 
言 息 ， 比 如 一 些 RAID 标 签 信息 等 。 











图 4-7 为 一 个 RAID 0 系统 的 示意 图 。 











图 4-7 一 个 典型 的 RAID 0 系统 





1. 局 区 、 块 、 段 〈Segment) 、 条 带 、 条 带 长 度 和 深度 


图 4-7 中 的 5 个 竖 条 ， 分 别 代表 5 个 磁盘。 然后 在 人 磁盘 相同 偏 移 处 横 
问 逻 辑 分 割 ， 形 成 Stripee。 一 个 Stripee 横 跨 过 的 户 区 或 块 的 个 数 或 字 节 
容量 ， 就 是 条 带 长 度 ， 即 Stripee Length。 而 一 个 Stripee 所 占用 的 单 块 磁 
盘 上 的 区 域 ， 称 为 一 个 Segment。 一 个 Segment 中 所 包含 的 data ”Block 或 
者 局 区 的 个 数 或 者 字 市 容量 ， 称 为 Stripee Depth。Data Block 可 以 是 N 倍 
个 而 区 大 小 的 容量 ， 应 该 可 调 ， 或 者 不 可 调 ， 由 控制 器 而 定 。 











RAID 0 便 是 将 一 系列 连续 编写 的 Data Block 分 布 到 多 个 物理 磁盘 
上 ， 扩 散 IO 提 高 性 能 。 其 分 布 的 方式 如 图 4-7 所 示 。 这 个 例子 中 ， 条 种 


深度 为 4， 则 0、1、2、3 号 Data Block 被 放置 到 第 一 个 条 带 的 第 一 个 
Segment 中 ， 然 后 4、5、6、7 号 Block 放 置 到 第 一 个 条 带 的 第 二 个 
Segment 中 ， 依 此 类 推 ， 条 带 1 放 满 后 ， 继 续 放 条 带 2。 这 种 特性 称 为 "局 
部 连续 >”， 因 为 Block 只 有 在 一 个 Segment 中 是 物理 连续 的 ， 逻 辑 连续 就 
需要 跨 物 理 磁 盘 了 。 


2. 关于 几 个 与 IO 相关 的 重要 概念 


IO 可 以 分 为 读 / 写 IO、 大 /小 块 ID、 连续/ 随机 IO、 顺 序 /并 发 IO、 稳 
定 / 突 发 1JO、 持 续 / 间 断 IO 和 实 / 虚 IO。 下 面 来 分 别 介 绍 这 几 种 IO。 


(1) 读 / 写 IO 





这 个 束 不 用 多 说 了 ， 读 IO 吕 是 发 指令 从 磁盘 读 取 菏 段 序号 连续 的 剧 
区 的 内 容 。 指 令 一 般 是 通知 磁盘 开始 书 区 位 置 ， 然 后 给 出 需要 从 这 个 初 
始 忆 区 往 后 读 取 的 连续 书 区 个 数 ， 同 时 给 出 动作 是 读 还 是 写 。 磁 盘 收 到 
这 条 指令 融会 按照 指令 的 要 求 读 或 者 写 数据 。 控 制 句 发 出 这 种 指令 加 数 
据 并 得 到 对 方 回执 的 过 程 束 是 一 次 IO 读 或 10 写 。 





注意 : “一 个 IO 所 要 提取 的 扇 区 段 一 定 是 连续 的 ， 如 果 想 提取 
或 写 入 两 段 不 连续 的 扇 区 段 ， 只 能 将 它们 放 入 两 个 IO 中 分 别 执 
行 ， 这 也 就 是 为 何 随机 IO 对 设备 的 IOPS 指 标 要 求 较 高 的 原 
因 。 


(2) 大 /小 块 IO 


指控 制 器 的 指令 中 给 出 的 连续 读 取 扇 区 数目 的 多 少 。 如 果 数 目 很 
大 ， 如 128、64 等 ， 就 应 该 算是 大 块 IO; 如果 很 小 ， 比 如 1、4、8 等 ， 就 
应 该 算是 小 块 IO。 大 块 和 小 块 之 间 没 有 明确 的 界限 。 


(3) 连续 /随机 IO 


连续 和 随机 是 指 本 次 IO 给 出 的 初始 虱 区 地 址 和 上 一 次 IO 的 结束 而 区 
地 址 是 不 是 完全 连续 的 或 者 相隔 不 多 的 。 如 果 是 ， 则 本 次 IO 应 该 算是 一 
个 连续 IO; 如 果 相 将 太 大 ， 则 算 一 次 随机 IO。 连 续 IO 因 为 本 次 初始 而 区 
和 上 次 结束 而 区 相隔 很 近 ， 则 磁头 几乎 不 用 换 着 或 换 道 时 间 极 短 。 如 果 
相差 太 大 ， 则 磁头 需要 很 长 的 换 道 时 间 。 如 有 果 随 机 IO 很 多 ， 会 导致 磁头 
不 停 换 道 ， 效 率 大 大 降低 。 


(4) 顺序 /并 发 IO 


意思 是 ， 磁 盘 控 制 器 如 果 可 以 同时 对 一 个 RAID 系 统 中 的 多 块 磁盘 
同时 发 送 IO 指 令 ( 当然 这 里 的 同时 是 宏观 的 概念 ， 如 果 所 有 磁盘 都 在 一 
个 忆 线 或 者 环 路 上 ， 则 这 里 的 同时 束 古 指 癌 一 块 磁盘 发 送 一 条 指令 后 不 
必 等 竺 它 回 应 ， 接 着 辐 尺 一 块 磁盘 发 送 IO 指令 )》 ， 并 且 这 些 最 底层 的 IO 
数据 包含 了 文件 系统 级 下 发 的 多 个 IO 的 数据 ， 则 为 并 发 TO。 如 果 这 些 直 
接 发 问 磁 盘 的 IO 只 包含 了 文件 系统 下 发 的 一 个 IO 的 数据 ， 则 此 时 为 顺序 
IO， 即 控制 器 缓存 中 的 文件 系统 下 发 的 IO 队列 ， 只 能 一 个 一 个 来 。 并 有 有 
IO 模式 在 特定 的 条 件 下 可 以 很 大 程度 地 提高 效率 和 速度 。 














(5) 持续/ 间 上 晰 IO 


持续 不 断 地 发 送 或 者 接受 IO 请 求 数 据 流 ， 这 种 情况 为 持续 IO; IO 数 
据 流 时 断 时 续 则 为 间断 IO。 


(6) 稳定 / 突 发 IO 





某 存 储 设 备 或 者 某 程序 在 一 段 时 间 内 接收 或 者 发 送 的 IOPS 以 及 
Throughput《〈 吞 吐 量 ) 保持 相对 稳定 和 恒定 ， 则 称 为 稳定 IO; 如 果 单 位 


时 间 的 IOPS 或 者 Throughput 突 然 猛 增 ， 则 为 突 发 IO。 
(7) 实 / 虚 IO 


某 IO 请 求 中 包含 对 应 实际 数据 地 址 的 ， 比 如 磁盘 LBA 地 址 ， 或 者 文 
件 偏 移 量 ， 请 求 读 或 者 写实 际 文件 或 者 磁盘 局 区 数据 的 ， 称 为 实 IO; 而 
应 用 程序 针对 文件 元 数据 操作 的 《在 文件 系统 层 以 上 没有 文件 主体 数据 
操作 ) ， 或 者 针对 磁盘 发 送 的 非 实体 数据 IO 请 求 ， 比 如 Report LUN、 
SCSI Sense Request 等 控制 性 IO ， 称 为 虚 IO。 





(8) IO 并 发 几率 


单 盘 ，IO 并 发 几率 为 0， 因 为 一 块 磁盘 同时 只 可 以 进行 一 次 IO。 对 
于 RAID 0， 在 2 块 盘 情 况 下 ， 条 带 深度 比较 大 的 时 候 (条 带 太 小 不 能 3 
发 1JO) ， 并 发 两 个 IO 的 几率 为 2。 其 他 情况 请 目 行 运算 。 





(9) IOPS 


完成 一 次 IO 所 用 的 时 间 三 寻 着 时 间 十 旋转 延迟 时 间 十 数据 传输 时 
间 ，IOPS=IO 并 发 系数 /〈 寻 道 时 间 十 旋转 延迟 时 间 十 数据 传输 时 
间 ) 。 由 于 寻 道 时 间 相 对 于 传输 时 间 要 大 几 个 数量 级 ， 所 以 影响 IOPS 的 
关键 因素 就 是 降低 寻 道 时 间 。 在 连续 IO 的 情况 下 ， 寻 道 时 间 很 得 ， 仅 在 
换 磁道 时 候 需 要 寻 道 。 在 这 个 前 提 下 ， 传 输 时 间 越 少 ，IOPS 惑 越 高 。 


(10) 每 秒 IO 吞 吐 量 
显然 ， 每 秒 IO 吞 吐 量 王 IOPSx 平 均 IO SIZE。IO SIZE 越 大 ，IOPS 越 
高 ， 每 秒 IO 行 吐 量 就 越 高 。 设 磁头 每 秒 读 写 数据 速度 为 Y，V 为 定 值 。 


则 IOPS 三 IO 并 发 系数 /〈 寻 道 时 间 十 旋转 延迟 时 间 十 IO SIZE/V) 。 代 入 
得 每 秒 IO 吞 吐 量 =IO 并 发 系数 xIO SIZExV/ (Vx 寻 道 时 间 十 Vx 旋转 延 











迟 时 间 十 IO ”SIZE) 。 可 以 看 出 影响 每 秒 IO 吞 吐 量 的 最 大 因素 就 是 IO 
SIZE 和 寻 道 时 间 以 及 旋转 延迟 时 间 。IO SIZE 越 大 ， 寻 道 时 间 越 小 ， 知 
吐 量 越 高 。 相 比 能 显著 影响 IOPS 的 因素 只 有 一 个 ， 就 是 寻 道 时 间 。 


4.2.1 RAID 0 技术 详 析 


RAID 0 是 这 样 一 种 模式 : 我 们 拿 5 块 盘 的 RAID 0 为 例子 ， 如 图 4-7 
所 示 。 


对 外 来 说 ， 参 与 形成 RAID 0 的 各 个 物理 盘 会 组 成 一 个 迎 辑 上 连续 、 
物理 上 也 连续 的 虚拟 磁盘 。 一 级 磁盘 控制 占 〈 指 使 用 这 个 虚拟 磁盘 的 控 
制 促 ， 如 果 茶 人 台 主 机 使 用 适 配 卡 链接 外 部 盘 阵 ， 则 指 的 束 是 主机 上 的 磁 
盘 控制 器 ) 对 这 个 虚拟 磁盘 发 出 的 指令 ， 都 被 RAID 控 制 器 收 到 并 分 析 
处 理 ， 根 据 Block 映 射 关系 算法 公式 转换 成 对 组 成 RAID 0 的 各 个 物理 盘 
的 真实 物理 磁盘 IO 请 求 指令 ， 收 集 或 写 入 数据 之 后 ， 再 提交 给 主机 磁盘 
控制 器 。 











图 4-8 为 一 个 RAID 0 虚拟 磁盘 的 。 图 48 应 拟 向 盘 
示意 图 。 


RAID 0 还 有 男 一 种 非 条 融化 模式 ， 即 写 满 其 中 一 块 物理 磁盘 之 后 ， 
再 接着 写 男 一 块 ， 直 到 所 有 组 成 的 磁盘 全 部 写 满 。 这 种 模式 对 IO 写 没有 
任何 优化 ， 但 是 对 IO 读 能 提高 一 定 的 并 发 IO 读 几 率 。 





下 面 我 们 来 具体 分 析 一 个 从 上 到 下 访问 RAID 0 磁盘 的 过 程 。 


假如 东 一 时 刻 ， 主 机 控制 器 发 出 指令 : 该 取 初始 而 区 10000 长 度 
128 。 


RAID 控 制 占 接受 到 这 个 指令 之 后 ， 立 即 进行 计算 ,根据 对 应 公式 
(这 个 公式 是 RAID 控 制 占 在 做 逻辑 条 融化 的 时 候 制 定 的 〉 算 出 10000 写 
逻辑 出 区 所 对 应 的 物理 磁 副 的 出 区 号 。 


依次 计算 出 逻辑 上 连续 的 下 128 个 扇 区 所 在 物理 磁盘 的 扇 区 号 。 


分 别 癌 对 应 这 些 忆 区 的 磁盘 再 次 发 出 指令 。 这 次 是 真实 的 读 取 数据 
了 ， 厂 盘 接 受到 指令 ， 各 上 自 将 数据 提交 给 RAID 控 制 器 ， 经 过 控制 喜 在 
Cache 中 的 组 合 ， 再 提交 给 主机 控制 右 。 








分 析 以 上 过 程 ， 发 现 如 果 这 128 个 而 区 都 落 在 同一 个 Segment 中 的 

话 ， 也 就 是 说 条 带 深度 容量 大 于 128 个 局 区 的 容量 (64KB) ， 则 这 次 IO 
就 只 能 真实 地 从 这 一 块 物理 盘 上 读 取 ， 性 能 和 单 盘 相 比 会 减 慢 ， 因 为 没 
有 任何 优化 ， 反 而 还 增加 了 RAID 控 制 右 额外 的 计算 开销 。 所 以 ， 在 茶 
种 特定 条 件 下 要 提升 性 能 ， 让 一 个 IO 尽量 扩散 到 多 块 物理 盘 上 ， 就 要 减 
小 条 带 深度 。 在 磁盘 数量 不 变 的 条 件 下 ， 也 就 是 减 小 条 带 大 小 (Stripe 
SIZE， 也 就 是 条 带 长 度 ) 。 让 这 个 IO 的 数据 被 控制 器 分 制 ， 同 时 放 满 一 
个 条 带 的 第 一 个 Segment、 第 二 个 Segment 等 ， 依 此 类 推 ， 这 样 就 能 极 大 
地 占用 多 块 物 理 盘 。 








误区 : 总 是 以 为 控制 名 是 先 放 满 第 一 个 Segment， 再 放 满 第 二 


个 Segment。 


其 实 是 同时 进行 的 ， 因 为 控制 句 把 每 块 盘 要 写 入 或 者 读 取 的 数据 都 
计算 好 了 。 如 果 这 些 目标 磁盘 不 在 相同 的 总 线 中 ， 那 么 这 种 宏观 “ 同 
时 ”的 粒度 将 会 更 加 细 。 因 为 毕竟 计算 机 总 线 是 共享 的 ， 一 个 时 刻 只 能 
对 一 个 外 设 进行 IO。 














所 以 ，RAID 0 要 提升 性 能 ， 条 带 做 的 越 小 越 好 。 但 是 又 一 个 矛盾 出 


现 了 ， 就 是 条 融 太 小 ， 导 致 并 发 IO 几率 降低 。 因 为 如 果 条 带 太 小 ， 则 每 
次 IO 一 定 会 占用 大 部 分 物理 盘 ， 队 列 中 的 IO 就 只 能 等 待 这 次 IO 结束 后 才 
能 使 用 物理 盘 。 而 条 带 太 大 ， 又 不 能 充分 提高 传输 速度 。 这 两 个 是 一 对 
政 盾 ， 要 根据 需求 来 采用 不 同 的 方式 。 如 果 随 机 小 块 IO 多 ， 则 适当 加 大 
条 带 深度 ; 如果 连续 大 块 IO 多 ， 则 适当 减 小 条 带 深度 。 








接着 分 析 RAID 0 相对 于 单 盘 的 性 能 变化 。 根 据 以 上 总 结 出 来 的 公 
式 ， 可 以 推出 表 4-1。 


表 4-1 RAID 0 系统 相对 于 单 盘 的 IO 对 比 





注 : 并 发 1O0 和 IO SIZE/Stripe SIZE 是 一 对 矛盾 ， 两 者 总 是 对 立 的 。N= 三 组 成 RAID 0 的 磁盘 数目 。 
系数 二 IO SIZE/Stripe SIZE 和 初始 LBA 地 址 所 处 的 Stripe 偏 移 综合 系数 ， 大 于 等 于 1。 并 发 系数 二 
并 发 IO 的 数量 。 























4.2.2 ”RAID 1 技术 详 析 


RAID 1 是 这 样 一 种 模式 ， 拿 两 块 盘 的 例子 来 进行 说 明 ， 如 图 4-9 所 


图 4-9 ”RAID 1 系统 示意 图 


RAID 1 和 RAID 0 不 同 ，RAID 0 对 数据 没有 任何 保护 措施 ， 每 个 
Block 都 没有 备份 或 者 校 验 保护 措施 。RAID 1 对 虚拟 逻辑 盘 上 的 每 个 物 
理 Block， 都 在 物理 盘 上 有 一 份 镜像 备份 ， 也 就 是 说 数据 有 两 份 。 对 于 
RAID 1 的 写 IO， 速 度 不 但 没有 提升 ， 而 且 有 所 下 降 ， 因 为 数据 要 同时 
问 多 块 物理 盘 写 ， 时 间 以 最 慢 的 那个 为 准 ， 因 为 是 同步 的 。 而 对 于 
RAID 1I 的 读 IO 请 求 ， 不 但 可 以 并 及 ， 而 且 融 算 顺 序 IO 的 时 候 ， 控 制 右 
也 可 以 像 RAID 0 一 样 ， 从 两 块 物理 盘 上 同时 读数 据 ， 提 升 速度 。RAID 





1 可 以 没有 Stripe 的 概念 ， 当 然 也 可 以 有 ， 同 样 可 总 结 出 表 4-2。 


表 4-2 RAID 1 系统 相对 于 单 盘 的 IO 对 比 

















注 : N 二 组 成 RAID 1 镜像 物理 盘 的 数目 。 








在 恋 、 并 发 IO 的 模式 下 ， 由 于 可 以 并 发 N 个 IO， 每 个 IO 占用 一 个 物 
理 盘 ， 这 就 相当 于 提升 了 N 倍 的 IOPS。 由 于 每 个 IO 只 独占 了 一 个 物理 
盘 ， 所 以 数据 传输 速度 相对 于 单 盘 并 没有 改变 ， 所 以 不 管 是 随机 还 是 顺 
序 IO， 相 对 单 盘 都 不 变 。 


在 读 、 顺 序 IO、 随 机 IO 模式 下 ， 由 于 IO 不 能 并 及 ， 所 以 此 时 一 个 
IO 可 以 同时 读 取 N 个 盘 上 的 内 容 。 但 是 在 随机 IO 模式 下 ， 寻 道 时 间 影 啊 
很 大 ， 纵 使 同时 分 块 读 取 多 个 磁盘 的 内 容 ， 也 架 不 住 寻 道 时 间 的 抵消 ， 
所 以 性 能 提升 极 小 。 





在 读 、 顺 序 IO、 连 续 IO 模 式 下 ， 寻 道 时 间 影 响 最 低 ， 此 时 传输 速率 
为 主要 矛盾 ， 同 时 读 取 多 块 磁 盘 的 数据 ， 时 间 减 少 为 HN， 所 以 性 能 提 
升 了 N 倍 。 





写 IO 的 时 候 和 读 IO 情 况 相 同 ， 束 不 做 分 析 了 。 写 IO 因 为 要 同时 向 每 
块 磁盘 写 入 备份 数据 ， 所 以 不 能 并 发 IO， 也 不 能 分 块 并 行 。 但 是 如 果 控 
制 器 把 优化 算法 做 到 极致 的 话 ， 还 是 可 以 并 发 TO 的 ， 比 如 控制 器 从 IO 队 
列 中 提取 连续 的 多 个 IO， 可 以 将 这 些 IO 合 并 ， 并 发 写 入 磁盘 ， 前 提 是 这 
几 个 IO 必须 是 事务 性 的 ， 也 就 是 说 LBA 必 须 连 续 ， 不 然 不 能 作为 一 个 大 
的 合并 IO。 而 且 和 文件 系统 也 有 关系 ， 文 件 系 统 碎 片 越 少 ， 并 发 几率 越 


i 


$A 
[有 。 


4.2.3 ”RAID 2 技术 详 析 





RAID 2 是 一 种 比较 特殊 的 RAID 模 式 ， 它 是 一 种 专用 RAID， 现 在 早 
已 被 淘汰 。 它 的 基本 思想 是 在 IO 到 来 之 后 ， 控 制 器 将 数据 按照 位 分 散 
开 ， 顺 序 在 每 块 磁盘 中 存 取 lb。 这 里 有 个 疑问 ， 磁 盘 的 最 小 IO 单位 是 扇 
区 ， 有 512B， 如 何 写 入 1b? 其 实 这 个 写 入 1b， 并 非 只 写 入 1b。 我 们 知道 
上 层 IO 可 以 先 经 过 文件 系统 ， 然 后 才 通 过 磁盘 控制 器 驱动 来 向 磁盘 发 出 
IO。 最 终 的 IO 大 小 ， 都 是 N 倍 的 扇 区 ， 也 束 是 Nx512B，N 大 于 等 于 1， 
不 可 能 发 生 N 小 于 1 的 情况 。 即 使 需要 的 数据 只 有 几 个 字 节 ， 那 么 也 同 
样 要 读 出 或 写 入 整个 记 区 ， 也 就 是 512B。 





明白 这 个 原则 之 后 ， 再 来 看 一 下 RAID 2 中 所 谓 的 “每 个 磁盘 写 1b” 是 
个 什么 概念 。IO 最 小 单位 为 扇 区 (512B) ， 我 们 就 拿 一 个 4 块 数据 盘 和 
3 块 校 验 盘 的 RAID 2 系统 为 例 给 大 家 说 明 一 下 。 这 个 环境 中 ，RAID 2 的 
一 个 条 带 大 小 是 4b 〈1lbx4 块 数据 盘 ) ， 而 IO 最 小 单位 是 一 个 扇 区 ， 那 么 
如 果 分 别 向 每 块 盘 写 Ib， 就 需要 分 别 向 每 块 盘 写 一 个 而 区 ， 每 个 而 区 只 
包含 1b 有 效 数据 ， 这 显然 是 不 可 能 的 ， 因 为 太 浪 费 空间 ， 且 没有 意义 。 





下 面 以 IO 请 求 为 例 来 说 明 。 


写 入 “初始 局 区 10000 长 度 1”， 这 个 I0 目 的 是 要 癌 LBA10000 写 入 一 
个 扇 区 的 数据 ， 也 就 是 512B。 





RAID 2 控制 器 接受 到 这 512B 的 数据 后 ， 在 Cache 中 计算 需要 写 入 的 
物理 磁盘 的 信息 ， 比 如 定位 到 物理 扇 区 ， 分 割 数据 成 比特 。 


然后 一 次 性 写 入 物理 磁盘 扇 区 。 也 就 是 说 第 一 块 物理 盘 ， 控 制 器 会 
写 入 本 次 IO 数据 的 第 1、5、9、13、17、21 等 位 ， 第 二 块 物理 盘 会 写 入 
2、6、10、14、18、22 等 位 ， 其 他 两 块 物理 盘 同 样 方式 写 入 。 


直到 这 样 将 数据 写 完 。 我 们 可 以 计算 出 来 ， 这 512B 的 数据 写 完 之 


后 ， 此 时 每 块 物理 盘 只 包含 128B 的 数据 ， 也 就 是 一 个 书 区 的 四 分 之 一 ， 
那么 这 个 忆 区 剩余 的 部 分 ， 惑 是 空 的 。 


为 了 利用 起 这 部 分 空间 ， 等 下 次 IO 到 来 之 后 ， 控 制 器 会 对 数据 进行 
比特 分 割 ， 将 数据 填 入 这 些 空白 区 域 。 控 制 费 将 首先 读 出 原来 的 数据 ， 
然后 和 新 数据 合并 之 后 ， 一 并 再 写 回 这 个 山区 ， 这 样 做 效率 和 速度 都 大 
打折 扣 。 其 实 RAID 2 就 是 将 原本 连续 的 一 个 扇 区 的 数据 ， 以 位 为 单位 ， 
分 割 存 放 到 不 连续 的 多 块 物理 盘 上 ， 因 为 这 样 可 以 在 任意 条 件 下 都 迫使 
其 全 磁盘 组 并 行 读 写 ， 提 高 性 能 ， 也 就 是 说 条 带 深 度 为 1 位 。 这 种 极端 
看 上 去 有 点 做 得 过 火 了 ， 这 也 是 导致 它 最 终 被 淘汰 的 原因 之 一 。 














RAID 2 系统 中 每 个 物理 磁盘 忆 区 其 实 是 包含 了 N 个 忆 区 的 "“ 残 体 ”。 





思考 : 那么 如 果 出 现 需要 更 新 这 4 个 鹿 区 中 某 一 个 扇 区 的 情 
况 ， 怎 么 办 ? 


这 种 情况 下 ， 必 须 先 读 出 原来 的 数据 ， 和 新 数据 合并 ， 然 后 再 一 并 
写 入 。 其 实 这 种 情况 出 现 的 非常 少 。 我 们 知道 上 层 IO 的 产生 ， 一 般 是 需 
要 先 经 过 OS 的 文件 系统 ， 然 后 才 到 磁盘 控制 器 这 一 层 的 。 所 以 磁盘 控 
制 器 产生 的 IO 一 般 都 是 事务 性 的 ， 也 就 是 这 个 IO 中 的 所 有 扇 区 很 大 几率 
上 对 于 上 层 文件 系统 来 说 是 一 个 完整 的 事务 ， 所 以 很 少 会 发 生 只 针对 这 
个 事务 中 某 一 个 后 进行 读 写 的 情况 。 








这 样 的 话 ， 每 次 IO 就 有 很 大 几率 都 会 包含 入 这 些 逻 辑 上 连续 的 局 
区 ， 所 以 不 必 担 心经 各 会 发 生 那 种 情况 。 即 便 及 生 了 ， 控 制 器 也 只 能 近 
照 那 种 低 效 率 的 做 法 来 做 ， 不 过 总 体 影响 较 小 。 但 是 如 果 随 机 IO 比较 
多 ， 那 么 这 些 IO 初 始 LBA， 很 有 可 能 束 会 命中 在 一 个 两 个 事务 交接 的 局 
区 处 。 这 种 情况 整 会 导致 速度 和 效率 大 大 降低 。 连 续 IO 出 现 这 种 情况 的 





几率 非常 小 了 。 


RAID “2 因为 每 次 读 写 都 需要 全 组 磁盘 联动 ， 所 以 为 了 最 大 化 其 性 
能 ， 最 好 保证 每 块 磁盘 主轴 同步 ， 使 同一 时 刻 每 块 磁盘 磁头 所 处 的 而 区 
逻辑 编号 者 一致 ， 并 存 并 取 ， 达 到 最 佳 性 能 。 如 果 不 能 同步 ， 则 会 产生 


等 每 ， 影 响 速 度 。 





基于 RAID 2 并 存 并 取 的 特点 ，RAID 2 不 能 实现 并 发 IO， 因 为 每 次 
IO 都 占用 了 每 块 物理 磁盘 。 


RAID 2 的 校 验 可 对 系统 不 产生 瓶 贷 ， 但 是 会 产生 延迟 ， 因 为 多 了 计 
算 校 验 的 动作 。 校 验 位 和 数据 位 是 一 同 并 行 写 入 或 者 读 取 的 。RAID 2 及 
用 汉 明 码 来 校 验 数据 ， 这 种 码 可 以 判断 修复 一 位 错误 的 数据 ， 并 且 使 用 
校 验 盘 的 数量 太 多 ，4 块 数据 盘 需 要 3 块 校 验 盘 。 但 是 随 着 数据 盘 数 量 的 
增多 ， 校 验 盘 所 占 的 比例 会 显著 减 小 。 





RAID 2 和 RAID 0 有 些 不 同 ，RAID 0 不 能 保证 每 次 IO 都 是 多 磁盘 并 
行 ， 因 为 RAID 0 的 条 带 深度 相对 于 RAID 2 以 位 为 单位 来 说 是 太 大 了 。 
而 RAID “2 由 于 每 次 IO 都 保证 是 多 磁盘 并 行 ， 所 以 其 数据 传输 率 是 单 盘 
的 N 倍 。 为 了 最 好 地 利用 这 个 特性 ， 就 需要 将 这 个 特性 的 主导 地 位 体现 
es 











而 根据 IOPS= 二 IO 并 发 系数 /( 寻 道 时 间 十 旋转 延迟 时 间 十 数据 传输 
时 间 ) ， 寻 道 时 间 比 数据 传输 时 间 要 大 几 个 数量 级 。 所 以 为 了 体现 数据 
传输 时 间 减 少 这 个 优点 ， 就 必须 避免 寻 道 时 间 的 影响 ， 而 最 佳 做 法 就 是 
尽量 产生 连续 IO 而 不 是 随机 IO。 所 以 ，RAID 2 最 适合 连续 IO 的 情况 。 
另外 ， 根 据 每 秒 IO 吞 吐 量 =IO 并 发 系数 xIO SIZExV/ (Vx 寻 道 时 间 xVx 
旋转 延迟 时 间 十 IO SIZE) ， 如 果 将 IO SIZE 也 增 大 ， 则 每 秒 IO 吞 吐 量 也 


将 显著 提高 。 所 以 ，RAID “2 最 适合 的 应 用 就 是 产生 连续 IO、 大 块 IO 的 
情况 。 不 言 而 喻 ， 视 频 流 服 务 等 应 用 适合 RAID 2。 不 过 ，RAID 2 的 缺 
点 太 多 ， 比 如 校 验 盘 数量 多 、 算 法 复杂 等 ， 它 逐渐 被 RAID 3 人 蔡 代 了 。 表 
4-3 比 较 了 RAID 2 系统 与 单 盘 的 性 能 。 





表 4-3 ”RAID 2 系统 相对 于 单 盘 的 IO 对 比 


注 : N 二 数据 盘 数 量 。RAID 2 不 能 并 发 IO。 
4.2.4 ”RAID 3 技术 详 析 


图 4-10 所 示 为 一 个 RAID 3 系统 的 条 带 布局 图 。 





图 4-10 RAID 3 系统 示意 图 





RAID 2 缺点 比较 多 ， 比 如 非 事务 性 IO 对 它 的 影响 、 校 验 盘 数量 太 
多 等 。RAID 2 的 务 势 就 在 于 它 将 数据 以 比特 为 单位 进行 分 制 ， 将 原本 物 
理 连 续 的 扇 区 转变 成 物理 不 连续 ， 而 轴 辑 连续 的 。 这 样 就 导致 了 它 对 非 
事务 性 IO 的 效率 低下 。 为 了 从 根本 上 解决 这 个 问题 ，RAID 3 出 现 了 。 








既然 要 从 根本 上 解决 这 个 问题 ， 首 先 就 是 需要 抛弃 RAID 2 对 局 区 进 
行 分 散 的 做 法 ，RAID 3 保留 了 扇 区 的 物理 连续 。RAID 2 将 数据 以 比特 
为 单位 分 割 ， 这 样 是 为 了 保证 每 次 IO 占用 全 部 磁盘 的 并 行 性 。 而 RAID 
3 同样 也 保留 了 这 个 特点 ， 但 是 没有 以 比特 为 单位 来 分 散 数据 ， 而 是 以 
一 个 局 区 或 者 几 个 局 区 为 单位 来 分 散 数 据 。RAID 3 还 采用 了 高 效 的 
XOR 校 验算 法 ， 但 是 这 种 算法 只 能 判断 数据 是 否 有 误 ， 不 能 判断 出 哪 一 
位 有 误 ， 更 不 能 修正 错误 。XOR 校 验 使 得 RAID ”3 可 以 不 管 多 少 块 数据 
盘 ， 只 需要 一 块 校 验 盘 就 足够 了 。 








RAID 3 的 每 一 个 条 带 ， 其 长 度 被 设计 为 一 个 文件 系统 块 的 大 小 ， 深 








度 随 人 磁盘 数量 而 定 ， 但 是 最 小 深度 为 1 个 而 区 。 这 样 的话 ， 每 个 Segment 
的 大 小 一 般 就 是 1 个 而 区 或 者 几 个 虱 区 的 容量 。 以 图 4.10 的 例子 来 看 ， 
有 4 块 数据 盘 和 1 块 校 验 盘 。 每 个 Segment 也 就 是 图 中 的 一 个 Block 
Portion， 假 如 为 两 个 届 区 大 小 ， 就 是 1KB， 则 整个 条 带 的 数据 部 分 大 小 
为 4KB。 如 果 一 个 Segment 大 小 为 8 个 而 区 ， 即 4KB， 则 整个 条 市 大 小 为 
16KB。 








例 解 : RAID 3 的 作用 机 制 


还 是 用 一 个 例子 来 说 明 RAID 3 的 作用 机 制 。 一 个 4 块 数 据 盘 和 1 块 校 
验 盘 的 RAID 3 系统 ，Segment SIZE 为 两 个 扇 区 大 小 C1KB) ， 条 带 长 度 
为 4KB。 


RAID 3 控制 器 接收 到 了 这 样 一 个 10:“ 写 入 初始 扇 区 10000 长 度 
8”， 即 总 数据 量 为 8x512B 王 4KB。 


控制 器 先 定位 LBA10000 所 对 应 的 真实 物理 LBA， 假 如 LBA10000 恰 
好 在 第 一 个 条 带 的 第 一 个 Segment 的 第 一 个 扇 区 上 ， 那 么 控制 器 将 这 个 
IO 数据 里 的 第 1、2 个 512B 写 入 这 个 局 区 。 


同一 时 刻 ， 第 3、4 个 512B 会 被 同时 写 入 这 个 条 带 的 第 二 个 Segment 
中 的 两 个 鹿 区 ， 其 后 的 数据 同样 被 写 入 第 3、4 个 Segment 中 ， 此 时 恰好 
是 4KB 的 数据 量 。 也 就 是 说 这 4KB 的 IO 数据 同时 被 分 散 写 入 了 4 块 磁 
盘 ， 每 块 磁盘 写 入 了 两 个 扇 区 ， 也 就 是 一 个 Segment。 它 们 是 并 行 写 入 
的 ， 包 括 校 验 盘 也 是 并 行 写 入 的 ， 所 以 RAID 3 的 校 验 盘 没有 瓶颈 ， 但 是 
有 延迟 ， 因 为 增加 了 计算 校 验 的 开销 。 





但 现代 控制 器 一 般 都 使 用 专用 的 XOR 硬 件 电路 而 不 是 CPU 来 计算 


XOR， 这 样 就 使 得 延迟 降 到 最 低 。 上 面 那 种 情况 是 IO SIZE 刚好 等 于 一 
个 条 带 大 小 的 时 候 ， 如 果 IO SIZE 小 于 一 个 条 带 大 小 呢 ? 


还 是 刚才 那个 环境 ， 此 时 控制 器 接收 到 IO 大 小 为 2KB 的 写 入 请 求 ， 
也 就 是 4 个 连续 忆 区， 那么 控制 器 就 只 能 同时 写 入 两 个 磁盘 了 ， 因 为 每 
个 盘 上 的 Segment 是 两 个 忆 区， 也 只 能 得 到 两 倍 的 单 盘 传输 速率 。 同 时 
为 了 更 新 校 验 块 ， 写 惩罚 也 出 现 了 。 但 是 如 果 同 时 有 个 IO 需要 用 到 另外 
两 块 盘 ， 那 么 恰好 可 以 和 当前 的 IO 舍 并 起 来 ， 这 样 就 可 以 并 发 IO， 这 种 
相 邻 的 IO 一 般 都 是 事务 性 的 连续 IO。 





再 看 看 IO SIZE 大 于 条 帝 长 度 的 情况 。 还 是 那个 环境 ， 控 制 器 收 到 
的 IO SIZE 为 16KB。 则 控制 器 一 次 所 能 并 行 写 入 的 是 4KB， 这 16KB 殴 需 
要 分 4 批 来 写 入 4 个 条 带 。 其 实 这 里 的 分 4 批 写 入 ， 不 是 先后 写 入 ， 而 是 
同时 写 入 ， 也 就 是 这 16KB 中 的 第 1、5、9、13KB 将 由 控制 器 连续 写 入 
磁盘 1， 第 2、6、10、14KB， 连 续 写 入 磁盘 2， 依 此 类 推 。 直 到 16KB 数 
据 全 部 写 完 ， 是 并 行 一 次 写 完 。 这 样 校 验 盘 也 可 以 一 次 性 计算 校 验 值 并 
且 和 数据 一 同 并 行 写 入 ， 而 不 是 “分 批 ”。 





通过 比较 ， 我 们 发 现 ， 与 其 使 IO ”SIZE 小 于 一 个 条 带 的 大 小 ， 从 而 
空闲 出 一 些 磁盘 ， 不 如 使 IO ”SIZE 大 于 或 者 等 于 条 带 大 小 ， 取 消 磁盘 空 
余 。 因 为 上 层 IO SIZE 是 不 受 控 的 ， 控 制 器 说 了 不 算 ， 但 是 条 带 大 小 是 
控制 器 说 了 算 的 。 所 以 如 果 将 条 带 大 小 减 到 很 小 ， 比 如 两 个 忆 区 、 一 个 
局 区 ， 则 每 次 上 层 IO0 一 般 情况 下 都 会 占用 所 有 磁盘 进行 并 发 传输 。 这 样 
就 可 以 提供 和 RAID 2 一 样 的 传输 速度 ， 并 避免 RAID ”2 的 诸多 缺点 。 
RAID 3 和 RAID 2 一 样 不 能 并 发 IO， 因 为 一 个 IO 要 占用 全 部 盘 ， 就 算 IO 
SIZE 小 于 Stripe SIZE， 因 为 校 验 盘 的 独 享 也 不 能 并 发 IO。 








思考 : ”一 般 来 说 ，RAID3 的 条 带 长 度 三 文件 系统 块 大 小 。 这 


样 ， 就 不 会 产生 条 带 不 对 齐 的 现象 ， 从 而 避免 产生 碎片 。 


虽然 纯 RAID ”3 系统 不 能 并 发 IO， 但 是 可 以 通过 巧妙 的 设计 ， 形 成 
RAID 30 系统。 如果 文件 系统 块 为 4KB， 则 使 用 8 块 数据 盘 十 2 块 校 验 盘 
做 成 的 RAID 30 系 统 ， 便 可 以 并 发 2 个 IO 了 。 表 4-4 比 较 了 RAID 3 系统 与 
单 盘 的 性 能 。 


表 4-4 RAID 3 系统 相对 于 单 盘 的 IO 对 比 








注 : N 二 组 成 RAID 3 的 数据 磁盘 数量 。 和 RAID 2 相同 ， 事 务 性 连续 IO 可 能 并 发 。 





和 RAID 2 一 样 ，RAID 3 同样 也 是 最 适合 连续 大 块 IO 的 环境 ， 但 是 
它 比 RAID 2 成 本 更 低 ， 更 容易 部 署 。 


不 管 任何 形式 的 RAID， 只 要 是 面 对 随 机 IO， 其 性 能 与 单 盘 比 都 没 
有 大 的 优势 ， 因 为 RAID 所 做 的 只 是 提高 传输 速率 、 并 发 IO 和 容错 。 随 
机 IO 只 能 靠 降低 单个 物理 磁盘 的 寻 道 时 间 来 解决 。 而 RAID 不 能 优化 寻 
道 时 间 。 所 以 对 于 随机 IO，RAID 3 也 同样 没有 优势 。 





而 对 于 连续 IO， 因 为 寻 道 时 间 的 影响 因素 可 以 忽略 ，RAID ”3 最 拿 
手 了 。 因 为 像 RAID 2 一 样 ，RAID 3 可 以 大 大 加 快 数据 传输 速率 ， 因 为 
它 是 多 盘 并 发 读 写 。 所 以 理论 上 可 以 相当 于 单 熏 提高 N 倍 的 速率 。 





但 是 RAID 3 最 怕 的 就 是 遇 到 随机 IO。 由 于 在 RAID 3 下 ， 每 个 IO 都 
需要 罕 动 所 有 盘 来 为 它 服务 ， 这 样 的 话 ， 如 果 疝 RAID 3 组 发 送 随 机 
IO， 那 么 所 有 磁盘 均 会 频繁 寻 道 ， 此 时 ， 整 个 RAID 组 所 表现 出 来 的 性 
能 甚至 不 如 单 盘 ， 因 为 就 算 组 内 有 100 块 盘 ， 由 于 随机 IO 的 到 来 ， 所 有 
磁盘 均 忙 于 寻 道 ，100 块 盘 并 发 寻 道 所 耗费 的 时 间 与 一 块 盘 是 相同 的 。 


4.2.5 RAID 4 技术 详 析 








图 4-11 是 一 个 RAID 4 系统 的 条 带 布 局 图 。 





图 4-11 RAID 4 系统 示意 图 





不 管 是 RAID 2 还 是 RAID 3， 它 们 都 是 为 了 大 大 提高 数据 传输 率 而 
设计 ， 而 不 能 并 发 10。 诸 如 数据 库 等 应 用 的 特点 就 是 高 频率 随机 IO 读 。 
想 提高 这 种 环境 的 IOPS， 根 据 公 式 IOPS 二 IO 并 发 系数 /( 寻 道 时 间 十 旋 
转 延 迟 时 间 十 数据 传输 时 间 ) ， 随 机 读 导 致 寻 道 时 间 和 旋转 延迟 时 间 增 
大 ， 靠 提高 传输 速率 已 经 不 是 办 法 。 所 以 观察 这 个 公式 ， 想 在 随机 IO 频 
发 的 环境 中 提高 IOPS， 唯 一 能 够 做 的 是 要 么 用 高 性 能 的 磁盘 〈 即 平均 寻 
道 时 间 短 的 磁盘 ) ， 要 么 提高 IO 并 发 系数 。 不 能 并 发 0 的 ， 想 办 法 让 它 
并 发 IO。 并 发 系数 小 的 ， 想 办 法 提高 系数 。 











思考 : ”在 RAID 3 的 基础 上 ，RAID 4 被 发 展 起 来 。 我 们 分 析 
RAID 3 的 性 能 的 时 候 ， 曾 经 提 到 过 一 种 情况 ， 就 是 IO SIZE 小 
于 Stripe SIZE 的 时 候 ， 此 时 有 磁盘 处 于 空闲 状态 。 如 果 抓 住 这 
个 现象 ， 同 时 让 队列 中 的 其 他 IO 来 利用 这 些 空闲 的 磁盘 ， 岂 不 
是 正好 达到 并 发 IO 的 效果 了 人 么 ? 所 以 RAID 4 将 一 个 Segment 的 
大 小 做 得 比较 大 ， 以 至 于 平均 IO SIZE 总 是 小 于 Stripe SIZE， 这 
样 就 能 保证 每 个 IO 少 占 用 磁盘 ， 甚 至 一 个 IO 只 占用 一 个 磁盘 。 





是 的 ， 这 个 思想 对 于 读 IO 是 对 路 子 的 ， 但 是 对 于 写 IO 的 话 ， 有 一 个 
很 难 殉 服 的 问题 ， 那 就 是 校 验 盘 的 争 用 。 考 虑 一 下 这 样 一 种 情况 ， 在 4 
块 数据 盘 和 1 块 校 验 盘 组 成 的 RAID 4 系统 中 ， 某 时 刻 一 个 IO 占用 了 前 两 
块 盘 和 校 验 盘 ， 此 时 虽然 后 两 块 是 空 亲 的 ， 可 以 同时 接受 新 的 IO 请 求 。 
但 是 接受 了 新 的 IO 请 求 ， 则 新 IO 请 求 同 样 也 要 使 用 校 验 盘 。 由 于 一 块 物 
理 磁 盘 不 能 同时 处 理 多 个 IO， 所 以 新 IO 仍然 要 等 旧 IO 写 完 后 ， 才 能 写 入 
校 验 。 这 样 就 和 顺序 IO 没 区 别 了 。 数 据 盘 可 并 发 而 校 验 盘 不 可 并 发 ， 这 











样 不 能 实现 写 IO 并 发 。 


如 果 仅 仅 根 据 争 用 校 验 盘 来 下 结论 说 RAID “4 不 文 持 并 发 IO， 也 是 
片面 的 。 我 们 可 以 设想 这 样 一 种 情形 ， 茶 时 刻 一 个 IO 只 占用 了 全 部 磁盘 
的 几 块 盘 ， 令 一 些 磁 盘 空 亲 。 如 果 此 时 让 队列 中 下 一 个 IO 等 竺 的话 ， 那 
么 当然 不 可 能 实现 并 发 IO。 


思考 : ”如果 队 列 中 有 这 样 一 个 IO， 它 需要 更 新 的 LBA 目 标 和 
正在 进行 的 IO 恰 好 在 同一 条 帝 上 ， 并 且 处 于 空 闪 磁盘 ， 还 不 冲 
突 ， 那 么 此 时 我 们 就 可 以 让 这 个 IO 也 搭 一 下 正在 进行 的 IO 的 顺 
风车 。 反 正 都 是 要 更 新 这 个 条 带 的 校 验 Segment， 与 其 两 个 IO 
先后 更 新 ， 不 如 让 它们 同时 更 新 各 目的 数据 Segment， 而 控制 
器 负责 计算 本 条 带 的 校 验 块 。 这 样 就 完美 的 达到 了 IO 并 发 。 








但 是 ， 遇 到 这 种 情况 的 几率 真是 小 之 又 小 。 即 便 如 此 ， 控 制 器 如 果 
可 以 对 队列 中 的 IO 目标 LBA 进 行 扫描 ， 将 目标 处 于 同一 条 市 的 IO， 让 其 
并 发 写 入 ， 这 就 多 少 类 似 NCQ 技 术 了 。 但 是 如 条 组 合 动作 在 上 层 就 已 经 
算 好 了 ， 人 为 的 创造 并 发 条 件 ， 主 动 去 合并 可 以 并 发 的 ， 合 并 好 之 后 再 
下 友 给 下 层 ， 那 么 事务 并 发 10 的 几率 将 大 大 增加 ， 而 不 是 徘 底层 磁 运 气 
来 实现 ， 不 过 此 时 称 为 “并 发 事务 ”更 为 合适 。 

















所 请 “上层 ”是 什么 呢 ? 上 层 就 是 一 级 磁盘 控制 器 驱动 程序 的 上 层 ， 
也 就 是 文件 系统 层 。 文 件 系统 管理 痢 底 层 磁 盘 ， 决 定数 据 写 往 磁 盘 或 者 
虚拟 着 上 的 哪些 块 。 所 以 完全 可 以 在 文件 系统 这 个 层次 上 ， 将 两 个 不 同 
事务 的 IO 写 操作 ， 尺 量 放 到 相同 的 条 带 上 。 比 如 一 个 条 带 大 小 为 
16KB， 可 以 前 8KB 放 一 个 IO 的 数据 ， 后 8KB 放 为 一 个 IO 的 数据 ， 这 两 
个 IO 在 经 过 文件 系统 的 计算 之 后 ， 经 由 磁盘 控制 器 驱动 程序 ， 向 磁盘 发 
出 同时 写 入 整个 条 带 的 操作 ， 这 样 束 构成 了 整 条 写 。 如 果实 在 不 能 占 满 








整 条 ， 那 么 也 应 该 尽量 达成 重 构 写 模式 ， 这 样 不 但 并 发 了 IO， 还 使 得 写 
效率 增加 。 


提示 : ”这 种 在 文件 系统 专门 为 RAID 4 做 出 优化 的 方案 ， 最 典 
型 的 就 是 NetApp 公 司 著名 的 WAFL 文 件 系 统 。WAFL 文 件 系 统 
的 设计 方式 确保 了 能 够 最 大 限度 地 实现 整 条 写 操作 。 





图 4-12 对 比 显 示 了 WAFL 如 何 分 配 同 样 的 数据 块 ， 从 而 使 得 RAID 4 
更 加 有 效 。WAEFL 总 是 把 可 以 合并 写 入 的 数据 块 尽量 同时 写 到 一 个 条 带 
中 ， 以 消除 写 惩罚 ， 增 加 IO 并 发 系数 。 相 对 于 WAFL， 左 边 的 FFS( 普 
通 文件 系统 ) 由 于 对 RAID 4 没有 感知 ， 产 生 的 IO 不 适合 RAID ”4 的 机 
制 ， 从 而 被 零散 地 分 配 到 了 6 个 独立 的 条 带 ， 因 此 致使 6 个 校 验 盘 块 需要 
更 新 ， 而 只 能 顺序 的 进行 ， 因 为 校 验 盘 不 可 并 发 。 而 右边 的 WAFL 仪 仅 
使 用 3 道 条 带 ， 只 有 3 个 校 验 块 需要 更 新 ， 从 而 大 大 提高 了 性 能 。 表 4-5 
比较 了 RAID 4 系统 与 单 盘 的 性 能 。 








图 4-12 ”普通 文件 系统 与 WAFL 文 件 系 统 的 对 比 


表 4-5 ”RAID 4 系统 相对 于 单 盘 的 IO 对 比 


注 : 为 RAID 4 数据 盘 数 量 。IO SIZE/Stripe SIZE 太 大 则 并 发 IO 几率 很 小 。 





Y 


注意 : ”如 果 IO SIZE/Stripe SIZE 的 值 太 小 ， 那 么 顺序 IO 读 不 管 
是 连续 还 是 随机 IO 几乎 都 没有 提升 。 顺 序 IO 写 性 能 下 降 ， 是 因 
为 IO SIZE 很 小 ， 又 是 顺序 ID， 只 能 进行 读 改写 ， 性 能 会 降低 
不 少 。 


~ 


所 以 ， 如 果 要 使 用 RAID 4， 不 进行 特别 优化 是 不 行 的 ， 至 少 要 让 它 
可 以 进行 并 发 IO。 观 察 表 4-5 可 知 ， 并 发 1O 模 式 下 性 能 都 有 所 提升 。 然 
而 如 果 要 优化 到 并 发 几率 很 高 ， 实 在 不 容易 。 目 前 只 有 NetApp 的 WAFL 











文件 系统 还 在 使 用 RAID 4， 其 他 产品 均 未 见 使 用 。RAID 4 面临 淘汰 ， 
取而代之 的 是 拥有 高 盲 并 发 几率 的 RAID 5 系统 。 所 谓 盲 并 发 几率 ， 就 是 
说 上 层 不 必 感 知 下 层 的 结构 ， 即 可 增加 并 发 系数 。 











4.2.6 ”RAID 5 技术 详 析 


图 4-13 为 一 个 RAID 5 系统 的 条 带 布局 图 。 


图 4-13 ”RAID 5 系统 示意 图 


先 介 绍 几 个 概念 ， 整 条 写 、 重 构 写 与 读 改 写 。 








(1) 整 条 写 (Full-Stripee Write) : ”需要 修改 奇偶 校 验 群 组 中 所 
有 的 条 带 单元 ， 因 此 新 的 XOR 校 验 值 可 以 根据 所 有 新 的 条 带 数 据 计 算得 
到 ， 不 需要 额外 的 读 、 写 操作 。 因 此 ， 整 条 写 是 最 有 效 的 写 类 型 。 整 条 
写 的 例子 ， 如 RAID 2、RAID 3。 它 们 每 次 IO 总 是 几乎 能 保证 占用 所 有 
盘 ， 因 此 每 个 条 带 上 的 每 个 Segment 都 被 写 更 新 ， 所 以 控制 器 可 以 直接 
利用 这 些 更 新 的 数据 计算 出 校 验 数据 之 后 ， 在 数据 被 写 入 数据 盘 的 同 
时 ， 将 计算 好 的 校 验 信息 写 入 校 验 盘 。 





(2) 重 构 写 (Reconstruct Write) : ”如果 要 写 入 的 磁盘 数目 超过 
阵列 磁盘 数目 的 一 半 ， 可 采取 重 构 写 方式 。 在 重 构 写 中 ， 从 这 个 条 这 中 
不 需要 修改 的 Segment 中 读 取 原来 的 数据 ， 再 和 本 条 带 中 所 有 需要 修改 
的 Segment 上 的 新 数据 一 起 计算 XOR 校 验 值 ， 并 将 新 的 Segment 数 据 和 没 
有 更 改过 的 Segment 数 据 以 及 新 的 XOR 校 验 值 一 并 写 入 。 显 然 ， 重 构 写 
要 牵涉 更 多 的 IO 操作 ， 因 此 效率 比 整 条 写 低 。 重 构 写 的 例子 ， 比 如 在 
RAID 4 中 ， 如 果 数 据 盘 为 8 块 ， 某 时 刻 一 个 IO 只 更 新 了 一 个 条 带 的 6 个 
Segment， 剩 余 两 个 没有 更 新 。 在 重 构 写 模式 下 ， 会 将 没有 被 更 新 的 两 
个 Segment 的 数据 读 出 ， 和 需要 更 新 的 前 6 个 Segment 的 数据 计算 出 校 验 








数据 ， 然 后 将 这 6 个 Segment 连 同 校 验 数据 一 并 写 入 磁盘 。 可 以 看 出 ， 这 
个 操作 只 是 多 出 了 读 两 个 Segment 中 数据 的 操作 和 写 Parity 校 验 数据 的 操 
作 ， 但 是 写 的 时 候 几 乎 不 产生 延迟 开销 ， 因 为 是 宏观 同时 写 入 。 








(3) 读 改 写 (Read-Modify Write) : ”如 果 要 写 入 的 磁盘 数 日 不 
足 阵 列 磁 盘 数 目的 一 半 ， 可 采取 读 改 写 方式 。 读 改写 过 程 是 : 先 从 需要 
修改 的 Segment 上 读 取 旧 的 数据 ， 再 从 条 带 上 读 取 旧 的 奇 侦 校 验 值 ， 根 
据 旧 数据 、 旧 校 验 值 和 需要 修改 的 Segment 上 的 新 数据 计算 出 这 个 条 带 
上 的 新 的 校 验 值 ， 最 后 写 入 新 的 数据 和 新 的 奇偶 校 验 值 。 这 个 过 程 中 包 
含 读 取 、 修 改 和 写 入 的 一 个 循环 周期 ， 因 此 称 为 读 改 号 。 读 改写 计算 新 
校 验 值 的 公式 为 : 新 数据 的 校 验 数据 = 〈 老 数据 EOR 新 数据 ) EOR 老 
校 验 数据 。 如 果 符 更 新 的 Segment 已 经 超过 了 条 带 中 总 Segment 数 量 的 一 
半 ， 则 此 时 不 适合 用 读 改 写 ， 因 为 读 改 写 需 要 读 出 这 些 Segment 中 的 数 
据 和 校 验 数据 。 而 如 果 采 用 重 构 写 ， 只 需要 恋 取 剩余 不 准备 更 新 数据 的 
Segment 中 的 数据 即 可 ， 而 后 者 数量 比 前 者 要 少 。 所 以 超过 一 半 用 重 构 
写 ， 不 到 一 半 用 读 改 写 ， 整 条 更 新 就 用 整 条 写 。 














写 效率 排列 为 ， 整 条 写 > 重 构 写 > 读 改写 。 





图 4-14 是 RAID 5 系统 的 三 种 写 模 式 示 意图 。 





图 4-14 ”RAID 5 写 模 式 示意 图 


为 了 解决 RAID 4 系统 不 能 并 发 10 的 窖 境 ，RAID 5 相应 而 出 。RAID 
4 并 发 困难 是 因为 它 的 校 验 盘 争 用 的 问题 ， 如 果 能 找到 一 种 机 制 可 以 有 
效 地 解决 这 个 问题 ， 则 实现 并 发 就 会 非常 容易 。RAID 5 恰恰 解决 了 校 验 
盘 争 用 这 个 问题 。RAID ”5 采用 分 布 式 校 验 盘 的 做 法 ， 将 校 验 盘 打 散 在 
RAID 组 中 的 每 块 磁盘 上 。 如 图 4-13 所 示 ， 每 个 条 带 都 有 一 个 校 验 








Segment， 但 是 不 同 条 带 中 其 位 置 不 同 ， 在 相 邻 条 带 之 间 循 环 分 布 。 为 
了 保证 并 发 IO，RAID 5 同样 将 条 带 大 小 做 得 较 大 ， 以 保证 每 次 IO 数据 
不 会 占 满 整个 条 带 ， 造 成 队列 中 其 他 IO 的 等 待 。 所 以 ，RAID ”5 要 保证 
高 并 发 率 ， 一 旦 某 时 刻 没 有 成 功 进行 并 发 ， 则 这 个 IO 几乎 就 是 读 改写 模 
式 ， 所 以 RAID 5 拥有 较 高 的 写 惩 罚 。 


但 是 在 随机 写 IO 频 发 的 环境 下 ， 由 于 频 发 的 随机 IO 提高 了 洪 在 的 并 
发 几率 ， 如 果 碰 巧 并 发 的 IO 同 处 一 个 条 带 ， 还 可 以 降低 写 惩 罚 的 几率 。 
这 样 ，RAID 5 系统 面 对 频 发 的 随机 写 IO， 其 IOPS 下 降 趋势 比 其 他 RAID 
类 型 要 平缓 一 些 。 


来 分 析 一 下 RAID 5 具体 的 作用 机 制 。 以 图 4-13 的 环境 为 例 ， 条 带 大 
小 80KB， 每 个 Segment 大 小 16KB。 


某 一 时 刻 ， 上 层 产生 一 个 写 IO: 写 入 初始 扇 区 10000 长 度 8， 即 写 入 
4KB 的 数据 。 控 制 器 收 到 这 个 IO 之 后 ， 首 先 定 位 真实 LBA 地 址 ， 假 设 定 
位 到 了 第 1 个 条 带 的 第 2 个 Segment 〈 位 于 图 中 的 磁盘 2) 的 第 1 个 扇 区 
(仅仅 是 假设 ) ， 则 控制 器 首先 对 这 个 Segment 所 在 的 磁盘 发 起 IO 写 请 
求 ， 读 取 这 8 个 鹿 区 中 原来 的 数据 到 Cache。 








与 此 同时 ， 控 制 器 也 辣 这 个 条 融 的 校 验 Segment 所 在 的 磁盘 〈 即 图 
中 的 磁盘 1) 发 起 IO 读 请 求 ， 读 出 对 应 的 校 验 忆 区 数据 并 保存 到 Cache。 





利用 XOR 校 验 电路 来 计算 新 的 校 验 数据 ， 公 式 为 : 新 数据 的 校 验 数 
据 三 〈 老 数据 EOR 新 数据 ) EOR 老 校 验 数据 。 现 在 Cache 中 存在 : 老 数 
据 、 新 数据 、 老 校 验 数 据 和 新 校 验 数 据 。 


控制 器 立即 再 次 向 相应 的 磁盘 同时 发 起 IO 写 请 求 ， 将 新 数据 写 入 数 
据 Segment， 将 新 校 验 数据 写 入 校 验 Segment， 并 删除 老 数 据 和 老 校 验 数 


据 。 


在 上 述 过 程 中 ， 这 个 IO 占用 的 始终 只 有 1、2 两 块 盘 ， 因 为 所 要 更 新 
的 数据 Segment 对 应 的 校 验 Segment 位 于 1 盘 ， 目 始 至 终 都 没有 用 到 其 他 
任何 磁盘 。 如 果 此 时 队列 中 有 这 么 一 个 IO0， 它 的 LBA 初 始 目 标 假如 位 于 
图 4-13 中 下 面 方 框 所 示 的 数据 Segment 中 〈 磁 盘 4) ，IO 长 度 也 不 超过 
Segment 的 大 小 。 而 这 个 条 珊 对 应 的 校 验 Segment 位 于 磁盘 3 上 。 这 两 块 
盘 未 被 其 他 任何 IO 占用 ， 所 以 此 时 控制 右 惑 可 以 并 发 的 处 理 这 个 IO 和 上 
方 红 框 所 示 的 IO， 达 到 并 发 。 





RAID 5 相对 于 经 过 特别 优化 的 RAID ”4 来 说 ， 在 底层 就 实现 了 并 
发 ， 可 以 脱离 文件 系统 的 干预 。 任 何 文件 系统 的 IO 都 可 以 实现 较 高 的 并 
发 几率 ， 又 称 为 讶 并发。 而 不 像 基 于 WAFL 文 件 系统 的 RAID 4， 需 要 在 
文件 系统 上 规划 计算 出 并 发 环境 。 然 而 就 效率 来 襄 ， 仍 然 是 WAFL 拥 有 
更 高 的 并 发 系数 ， 因 为 毕 竞 WAFL 是 靠 主动 创造 并 发 ， 而 RAID 5 却 是 做 
好 了 陷阱 等 人 往 里 跳 ， 抓 着 一 个 是 一 个 。 





RAID 5 破 盘 数量 越 多 ， 可 并 发 的 几率 束 越 大 。 表 4-6 比 较 了 RAID 5 
与 单 盘 的 性 能 。 


表 4-6 ”RAID 5 系统 相对 于 单 盘 的 IO 对 比 




















注 : RAID 5 最 适合 小 块 ITJO。 并 发 IO 的 情况 下 ， 性 能 都 较 单 盘 有 所 提升 。 
图 4-15 为 一 个 RAID 5E 系 统 的 条 带 布 局 图 。 
图 4-15 ”RAID 5E 系 统 示意 图 (HS 代表 HotSpare) 


图 4-16 则 为 一 个 RAID 5EE 系 统 的 条 带 布 局 图 。 


图 4-16 ”RAID 5EE 系 统 示意 图 
4.2.7 RAID 6 技术 详 析 
图 4-17 为 一 个 RAID 6 系统 的 条 带 布局 图 。 
图 4-17 RAID 6 系统 示意 图 


RAID 6 之 前 的 任何 RAID 级 别 ， 最 多 能 保障 在 坏 掉 一 块 盘 的 时 候 ， 
数据 仍然 可 以 访问 。 如 果 同 时 坏 掉 两 块 盘 ， 则 数据 将 会 丢失 。 为 了 增加 
RAID 5 的 保险 系数 ，RAID 6 被 创立 了 。RAID 6 比 RAID 5 多 增加 了 一 块 
校 验 盘 ， 也 是 分 布 打 散 在 每 块 盘 上 ， 只 不 过 是 用 另 一 个 方程 式 来 计算 新 
的 校 验 数据 。 这 样 ，RAID 6 同时 在 一 个 条 带 上 保存 了 两 份 数 学 上 不 相关 
的 校 验 数据 ， 这 样 能 够 保证 同时 坏 两 块 盘 的 情况 下 ， 数 据 依然 可 以 通过 
联 立 这 两 个 数学 关系 等 式 来 求 出 丢失 的 数据 。RAID 6 与 RAID 5 相 比 ， 
在 写 的 时 候 会 同时 读 取 或 者 写 入 额外 的 一 份 校 验 数 据 。 不 过 由 于 是 并 行 
同时 操作 ， 所 以 不 比 RAID 5 慢 多 少 。 其 他 特性 则 和 RAID 5 类 似 。 




















表 4-6 比 较 了 RAID 6 与 单 盘 的 性 能 。 


表 4-7 RAID 6 系统 相对 于 单 盘 的 IO 对 比 


第 5 章 ” 降 龙 传 识 一 RAID、 虚 拟 
磁盘 、 大 和 文件 系统 实战 


mRAID 卡 
昌 软 RAID 
四 虚拟 厂 盘 
卓 郑 

四 文件 系统 


七 星 大 侠 将 七 星 北斗 阵 式 永 传 于 世 ， 虽 然 其 思想 博大 精深 ， 但 是 并 
没有 给 出 如 何 去 有 具体 地 实现 这 七 种 阵 式 。 但 没有 关系 ， 有 了 正确 的 思想 
才能 更 好 地 指导 实践 。 人 们 根据 七 星 北 斗 的 思想 ， 发 明了 各 种 各 样 的 
RAID 实 现 方 式 。 


然而 ， 实 现 了 各 种 RAID， 许 多 问题 也 随 之 而 来 ， 且 看 人 们 是 怎么 
运用 各 种 手段 来 解决 这 些 问 题 的 。 


5.1 操作 系统 中 RAID 的 实现 和 配置 


有 人 直接 在 主机 上 编写 程序 ， 运 行 于 操作 系统 底层 ， 将 从 主机 SCSI 
或 者 IDE 控 制 器 提交 上 来 的 物理 磁盘 ， 运 用 七 星 北 斗 的 思想 ， 虚 拟 成 各 
种 模式 的 虚拟 磁盘 ， 然 后 再 提交 给 上 层 程序 接口 ， 如 卷 管理 程序 。 这 些 
软件 通过 一 个 配置 工具 ， 让 使 用 者 自行 选择 将 哪些 磁盘 组 合 起 来 并 形成 
哪 种 类 型 的 RAID。 


比如 ， 某 台 机 器 上 安装 了 两 块 IDE 磁 盘 和 4 块 SCSI 磁 盘 ，IDE 硬 盘 直 
接连 接 到 主板 集成 的 IDE 接 口上 ，SCSI 磁 盘 则 是 连接 到 一 块 PCI 接 口 的 
SCSI 卡 上 。 在 没有 RAID 程 序 参与 的 条 件 下 ， 系 统 可 以 识别 到 6 块 磁盘 ， 
并 且 经 过 文件 系统 格式 化 之 后 ， 挂 载 到 某 个 盘 符 或 者 目录 下 ， 供 应 用 程 
永 访 与 5 


安装 了 RAID 程 序 之 后 ， 用 户 通 过 配置 界面 ， 先 将 两 块 IDE 磁 盘 做 成 
了 一 个 RAID 0 系统 。 如 果 原 来 每 块 IDE 磁 盘 是 80GB 容 量 ， 做 成 RAID 0 
之 后 束 变 成 了 一 块 160GB 容 量 的 “虚拟 ”磁盘 。 然 后 用 户 又 将 4 块 SCSI 盘 
做 了 一 个 RAID 5 系统 ， 如 果 原 来 每 块 SCSI 人 磁盘 是 73GB 容 量 ，4 块 盘 做 成 
RAID 5 之 后 虚拟 磁盘 的 容量 将 约 为 3 块 盘 的 容量 ， 即 216GB。 








当然 ， 因 为 RAID 程 序 需 要 使 用 磁盘 上 的 部 分 空间 来 存放 一 些 RAID 
信息 ， 所 以 实际 容量 将 会 变 小 。 经 过 RAID 程 序 的 处 理 之 后 ， 这 6 块 磁盘 
最 终 变 成 了 两 块 虚拟 磁盘 。 如 果 是 在 Windows 系 统 中 ， 打 开 磁 盘 管 理 器 
只 能 看 到 两 块 硬盘 ， 一 块 容量 为 160GB (硬盘 1) ， 另 一 块 容量 头 
219GB【〔 人 硬盘 2) 。 之 后 ， 可 以 对 这 两 块 盘 进 行 格式 化 ， 比 如 格式 化 为 
NTEFS 文 件 系统 。 格 式 化 程序 丝毫 不 会 感觉 到 有 多 块 物理 人 硬盘 正在 写 入 
数据 。 








比如 ， 格 式 化 程序 某 时 刻 发 出 命令 ， 向 硬盘 1《〈 由 两 块 IDE 人 磁盘 组 成 
的 RAID 0 虚拟 盘 ) 的 LBA 起 始 地 址 10000， 长 度 128， 写 入 内 存 起 始 地 址 
某 某 的 数据 。RAID 程 序 会 截获 这 个 命令 并 做 分 析 ， 硬 盘 1 是 一 个 RAID 0 
系统 ， 那 么 这 块 从 LBA10000 开 始 算 起 的 128 个 而 区 的 数据 ， 会 被 RAID 
引擎 计算 ， 将 逻辑 LBA 对 应 成 物理 磁盘 的 物理 LBA， 将 对 应 的 数据 写 入 
物理 磁盘 。 写 入 之 后 ， 格 式 化 程序 会 收 到 成 功 写 入 的 信号 ， 然 后 接着 做 
下 一 次 IJO。 经 过 这 样 的 处 理 ， 上 层 程序 完全 不 会 知道 底层 物理 磁盘 的 细 
节 。 其 他 RAID 形 式 也 都 是 相同 的 道理 ， 只 不 过 算法 更 加 复杂 而 已 。 但 
是 即使 再 复杂 的 算法 ， 经 过 CPU 运算 ， 也 要 比 磁 盘 读 写 速度 快 几 千 几 万 


倍 。 








提示 : 为 了 保证 性 能 ， 同 一 个 磁盘 组 只 能 用 相同 类 型 的 磁 
可， 虽然 也 可 以 设计 成 将 ”IDE 磁盘 和 SCSI 磁 盘 组 合成 虚拟 磁 
盘 ， 不 过 除非 特殊 需要 ， 人 否则 没有 这 样 设计 的 。 





5.1.1 Windows Server 2003 高 级 磁盘 管理 


下 面 以 Windows ”Server ”2003 企 业 版 操作 系统 为 例 ， 示 例 一 下 
Windows 是 如 何在 操作 系统 上 用 软件 来 实现 RAID 功 能 的 。 


每 个 例子 的 环境 都 是 一 个 上 共有 5 块 物 理 磁 盘 的 PC， 每 其 磁盘 容量 为 
100MEBPB。 


1， 和 磁盘 初始 化 和 转换 


(1) 新 磁盘 插入 机 箱 并 局 动 操作 系统 之 后 ， 打 开 磁 盘 管 理 器 ， 
Windows 会 目 动弹 出 一 个 配置 新 磁盘 的 问 导 ， 如 图 5-1 所 示 。 





图 5-1 初始 界面 











(2) 单 击 “下 一 步 ” 按 钮 ， 出 现 图 5-2 所 示 的 对 话 框 。 





图 5-2 ”选择 要 初始 化 的 磁盘 


(3) 单 击 “ 下 一 步 ? 按 钮 ， 初 始 化 所 有 新 磁盘 ， 如 图 5-3 所 示 。 





图 5-3 ”选择 要 转换 的 磁盘 





(4) 单 击 “ 下 一 步 ”按钮 ， 将 所 有 磁盘 转换 为 动态 磁盘 ， 如 图 5-4 所 
示 。 所 谓 的 动态 磁盘 就 是 可 以 用 来 做 RAID 以 及 卷 管理 的 磁盘 。 


图 5-4 初始 化 磁盘 
(5) 单 击 “完成 ?按钮 。 碍 看 磁盘 管理 器 中 的 状态 ， 如 图 5-5 所 示 。 
图 5-5 “磁盘 状态 


我 们 从 图 5- 2 以 看 到 ， 磁 盘 0 为 基本 磁盘 ， 同 时 也 是 系统 所 在 的 
磁盘 以 及 局 动 磁盘 。 这 个 磁盘 不 能 对 其 进行 软 RAID 或 卷 管理 操作 。 


2. 新 建 卷 
在 “磁盘 1 上 右 击 ， 在 弹出 的 快捷 菜单 中 选择 “新 建 卷 "命令 ， 如 图 5- 


6 所 示 ， 系 统 弹 出 “新 建 卷 向 导 ” 对 话 框 ， 以 选择 要 创建 的 卷 的 类 型 ， 如 
图 5-7 所 示 。 








图 5-6 ”选择 “新建 卷 "命令 。 ”图 5-7 选择 卷 类 型 





这 里 有 5 个 选项 ， 下 面 分 别 介绍 。 





简单 卷 ， 指 卷 将 按照 磁盘 的 顺序 依次 分 配 空间 。 简 单 卷 与 磁盘 分 
区 功能 类 似 ， 卷 空间 只 能 在 一 块 磁盘 上 分 配 ， 并 且 不 能 交叉 或 者 
乱 序 。 

跨 区 卷 : 跨 区 卷 在 简单 卷 的 基础 上 ， 可 以 让 一 个 卷 的 空间 路 越 多 
块 物理 磁盘 。 相 当 于 不 做 条 融化 的 RAID 0 系统 。 

市 区 卷 : 带 区 卷 相当 于 条 融化 的 RAID 0 系统 。 

镜像 卷 , 镜像 卷 相当 于 RAID 1 系统 。 

RAID-5 卷 : 坚 无 疑问 ， 这 种 方式 就 是 实现 一 个 RAID 5 和 郑 。 

















图 5-8 做 的 是 一 个 大 小 为 101MB 的 简单 卷 ， 也 就 是 将 物理 磁盘 1 全 部 
容量 划分 给 这 个 卷 。 可 以 发 现 ， 简 单 卷 只 能 在 一 块 物理 磁盘 上 划分 ， 图 
中 “添加 ”按钮 是 灰色 的 ， 证 明 不 能 跨越 多 块 磁盘 。 


图 5-8 划分 大 小 
我 们 再 来 看 看 跨 区 卷 ， 如 图 5-9 所 示 。 


图 5-9” 跨 区 卷 











跨 区 卷 允 许 卷 容量 来 自 多 个 硬盘 ， 并 且 可 以 在 每 个 硬盘 上 选择 部 分 
容量 而 不 一 定 非 要 选择 全 部 容量 。 在 此 ， 我 们 将 全 部 容量 划分 给 这 个 
卷 ， 卷 总 容量 为 200MB， 如 图 5-10 所 示 。 





图 5-10” 跨 区 卷 状态 








建 好 的 跨 区 卷 ， 将 用 紫色 来 表示 。 此 外 ， 还 可 以 灵活 地 扩展 这 个 卷 
的 容量 ， 如 图 5-11 所 示 。 


图 5-11 扩展 容量 











问 这 个 卷 中 再 添加 一 块 磁盘 “磁盘 3"， 如 图 5-12 所 示 。 





























图 5-12 ”增加 一 块 物理 磁盘 








加 完 之 后 这 个 卷 的 容量 束 被 扩充 到 了 300MB， 如 图 5-13 所 示 。 


图 5-13 ”扩容 后 的 卷 





3. 删除 卷 


如 图 5-14 所 示 ， 可 以 任意 删除 卷 。 


图 5-14 ”删除 卷 





下 面 用 磁盘 1 的 前 50MB 的 容量 和 磁盘 2 的 全 部 容量 来 做 一 个 跨 区 
卷 ， 如 图 5-15 所 示 。 


图 5-15 ”灵活 地 划分 尺寸 





做 好 后 的 卷 如 图 5-16 所 示 。 此 外 ， 磁 盘 1 剩 余 的 51MB 容 量 还 可 以 再 
新 建 卷 ， 如 图 5-16 所 示 。 








图 5-16 ”剩余 空间 可 以 新 建 卷 


4. 市 区 卷 





下 面 我 们 来 做 一 个 带 区 卷 ， 即 条 带 化 的 RAID 0 卷 ， 选 择 用 磁盘 1 和 
磁盘 2 中 各 30MB 的 容量 来 做 一 个 60MB 的 卷 ， 如 图 5-17 和 图 5-18 所 示 。 


图 5-17 带 区 卷 图 5-18” 带 区 卷 的 状态 








做 好 之 后 的 带 区 卷 会 用 绿色 标识 。 


5. 镜像 卷 





我 们 再 来 做 一 个 镜像 卷 ， 即 RAID 1 卷 ， 选 择 用 磁盘 1 和 磁盘 2 中 各 
40MB 的 容量 来 做 一 个 40MB 的 卷 ， 如 图 5-19 和 图 5-20 所 示 。 


图 5-19 ”镜像 卷 图 5-20 ”镜像 卷 的 状态 








做 好 后 的 镜像 卷 会 用 棕色 标识 。 


6. RAID 5 类 型 的 卷 


最 后 ， 我 们 来 做 一 个 RAID 5 类 型 的 卷 ， 可 将 所 有 磁盘 的 各 50MB 空 
间 做 一 个 卷 ， 如 图 5-21 所 示 ; 然后 再 用 所 有 人 硬盘 的 20MB 空 间 做 一 个 
卷 ， 形 成 两 个 RAID 5 卷 。 


图 5-21 创建 RAID 5 卷 
做 好 后 的 RAID 5 卷 会 用 亮 绿色 标识 ， 如 图 5-22 所 示 。 
图 5-22 ”RAID 5 卷 的 状态 


提示 : 做 好 的 任何 卷 均 可 随意 被 柚 除 ， 如 图 5-23 所 示 。 


图 5-23 ”删除 了 一 个 RAID 5 卷 





说 明 : Windows 的 动态 人 磁盘 管理 实际 上 应 该 算是 一 个 和 带 有 
RAID 功 能 的 卷 管理 软件 ， 而 不 仅仅 是 RAID 软 件 。 卷 管理 的 概 
念 我 们 在 下 文 会 解释 。 


5.1.2 ” Linux 下 软 RAID 配 置 示例 


下 面 在 一 台 装 有 8 块 物理 磁盘 的 机 器 上 安装 RedHat Enterprise Linux 
Server 4 Update 5 操作 系统 ， 有 具体 操作 过 程 如 下 


(1) 选择 手动 配置 磁盘 界面 ， 如 图 5-24 所 示 。 


图 5-24 ”选择 手动 配置 





(2) 可 以 看 到 系统 识别 到 了 8 块 物理 磁盘 ， 如 图 5-25 所 示 。 








图 5-25 ”识别 到 的 磁盘 列表 


(3) 必须 划分 一 个 /boot 分 区 用 来 启动 基本 的 操作 系统 内 核 。 用 第 
一 块 磁盘 sda 的 前 100MB 容 量 来 创建 这 个 分 区 ， 如 图 5-26 所 示 。 





图 5-26 ”创建 /boot 分 区 





(4) 在 创建 /boot 分 区 之 后 ， 将 SDA 磁 盘 剩 余 的 分 区 以 及 所 有 剩余 
的 物理 磁盘 ， 均 配置 为 software RAID 类 型 ， 如 图 5-27 所 示 。 





图 5-27 ”配置 磁盘 类 型 





(5) 在 将 所 有 磁盘 都 配置 成 software RAID 类 型 之 后 ， 单 击 Next 按 
钮 ， 会 打开 RAID Options 对 话 框 询问 想 要 进行 什么 样 的 操作 ， 如 图 5-28 
所 示 。 





图 5-28 ”设置 为 RAID 设 备 





(6) 选中 Create a RAID device [default 二 /dev/md0] 单 选 按 钮 后 单 击 
OK 按钮 ， 系 统 弹出 Make RAID Device 对 话 框 。 在 对 话 框 的 RAID Device 


下 拉 列 表 框 中 ， 可 以 选择 相应 的 RAID 组 在 操作 系统 中 对 应 的 设备 名 。 
在 RAID Level 下 拉 列 表 框 中 ， 可 以 选择 需要 配置 的 RAID 类 型 。 在 RAID 
Members 列 表 框 中 ， 可 以 选择 RAID 组 中 包含 的 物理 磁盘 。 用 相同 的 方 
法 可 以 做 多 个 不 同类 型 的 RAID 组 ， 如 图 5-29 所 示 。 


图 5-29 ”创建 对 应 的 Mount 点 


5.2 RAID 卡 


思考 : ”软件 RAID 有 三 个 缺点 ，(D 占 用 内 存 空间 ; @ 占 用 CPU 
资源 ，(3) 软 件 RAID 程 序 无 法 将 安 沪 有 操作 系统 的 那个 磁盘 分 
区 做 成 RAID 模 式 。 因 为 RAID 程 序 是 运行 在 操作 系统 之 上 的 ， 
所 以 在 局 动 操 作 系统 之 前 ， 是 无 法 实现 RAID 功 能 的 。 也 惑 是 
说 ， 如 果 操 作 系统 损坏 了 ，RAID 程 序 也 就 无 法 运行 ， 磁 盘 上 
的 数据 就 成 了 一 堆 无 用 的 东西 。 因 为 RAID 破 盘 上 的 数据 只 有 
实现 相应 RAID 算 法 的 程序 才能 识别 并 且 正 确 读 写 。 如 果 没 有 
相应 的 RAID 程 序 ， 则 物理 磁盘 上 的 数据 仅仅 是 一 些 碎 片 而 
己 ， 只 有 RAID 程 序 才能 组 合 这 些 碎 片 。 科 好， 目前 大 多 数 的 
RAID 程 序 都 会 在 磁盘 上 存储 自己 的 算法 信息 ， 一 旦 操作 系统 
出 现 了 问题 ， 或 者 主机 硬件 出 现 了 问题 ， 惑 可 以 将 这 些 磁盘 连 
接 到 其 他 机 器 上 ， 再 安装 相同 的 RAID 软 件 。RAID 软 件 读 取 了 
存储 在 硬盘 上 固定 区 域 的 RAID 信 息 后 ， 便 可 以 继续 使 用 。 














软件 RAID 的 缺点 如 此 之 多 ， 使 人 们 不 断 地 思考 更 多 实现 RAID 的 方 
法 。 既 然 软 件 缺 点 太 多 ， 那 么 用 硬件 实现 如 何 呢 ? 


RAID 卡 就 是 一 种 利用 独立 硬件 来 实现 RAID 功 能 的 方法 。 要 在 人 硬件 
上 实现 RAID 功 能 ， 必 须 找 一 个 物理 硬件 作为 载体 ，SCSI 卡 或 者 主板 上 
的 南 桥 无 疑 就 是 这 个 载体 了 。 人 们 在 SCSI 卡 上 增加 了 额外 的 芯片 用 于 实 
现 RAID 功 能 。 这 些 蕊 片 是 专门 用 来 执行 RAID 算 法 的 ， 可 以 是 ASIC 这 样 
的 高 成 本 高 速度 运算 忌 片 ， 也 可 以 是 通用 指令 CPU 这 样 的 通用 代码 执行 
心 片 ， 可 以 从 ROM 中 加 载 代码 直接 执行 ， 也 可 以 先 载 入 RAM 后 执行 ， 
从 而 实现 RAID 功 能 。 


实现 了 RAID 功 能 的 板 卡 〈SCSI 卡 或 者 IDE 扩 展 卡 ) 就 叫做 RAID 
卡 。 同 样 ， 在 主板 南 桥 芯 片上 也 可 实现 RAID 功 能 。 由 于 南 桥 中 的 芯片 
能 靠 CPU 来 完成 它们 的 功能 ， 所 以 这 些 蕊 片 完全 靠 电 路 逻辑 来 自己 运 
尽管 速度 很 快 ， 但 是 功 能 相对 插 卡 式 的 RATD 卡 要 加。 从 某 些 主板 
的 宣传 广告 中 就 可 以 看 到 ， 如 所 谓 “ 板 载 妆 AID 心 片 就 是 指南 桥 中 有 实 
现 RAID 功 能 的 心 厂 。 


0 








这 样 ， 操 作 系 统 不 需要 作 任 何 改 动 ， 除 了 RAID 卡 驱动 程 友之 外 不 
用 安装 任何 额外 的 软件 ， 就 可 以 直接 识别 到 已 经 过 RAID 处 理 而 生成 的 
虚拟 磁盘 。 








对 于 软件 RAID， 至 少 操作 系统 最 底层 还 是 能 感知 到 实际 物理 磁盘 
的 ， 但 是 对 于 硬件 RAID 来 说 ， 操 作 系 统 根本 无 法 感知 底层 的 物理 磁 
盘 ， 而 只 能 通过 三 家 提供 的 RAID 卡 的 管理 软件 来 查看 卡 上 所 连接 的 物 
理 磁盘 。 而 且 ， 配 置 RAID 卡 的 时 候 ， 也 不 能 在 操作 系统 下 完成 ， 而 必 
须 进入 这 个 硬件 来 完成 (或 者 在 操作 系统 下 通过 RAID 卡 配置 工具 来 设 

) 。 一 般 的 RAID 卡 都 是 在 开机 自 检 的 时 候 ， 进 入 它 的 ROM 配 置 程序 
来 配置 各 种 RAID 功 能 











RAID 卡 克服 了 软件 RAID 的 缺点 ， 使 操作 系统 本 号 可 以 安装 在 
RAID 虚 拟 磁盘 之 上 ， 而 这 是 软件 RAID 所 做 不 到 的 。 


1. RAID 卡 的 结构 
市 CPU 的 RAID 卡 健 然 束 是 一 个 小 的 计算 机 系统 ， 有 自己 的 CPU、 


内 存 、ROM、 总 线 和 IO 接 口 ， 只 不 过 这 个 小 计算 机 是 为 大 计算 机 服务 
的 。 





图 5-30 为 一 个 RAID 卡 的 架构 示意 图 。 











图 5-30 ”RAID 卡 结构 示意 图 


SCSI RAID 卡 上 一 定 要 包含 SCSI 控 制 器 ， 因 为 其 后 端 连接 的 依然 是 
SCSI 物 理 人 磁盘 。 其 前 端 连 接 到 主机 的 PCI 总 线 上 ， 所 以 一 定 要 有 一 个 
PCI 总 线 控制 器 来 维护 PCI 总 线 的 仲裁 、 数 据 发 送 接收 等 功能 。 还 需要 有 
一 个 ROM， 一 般 都 是 用 Flash 心 片 作为 ROM， 其 中 存放 着 初 始 化 RAID 卡 
必须 的 代码 以 及 实现 RAID 功 能 所 需 的 代码 。 





RAM 的 作用 ， 首 先是 作为 数据 组 在， 提高 性 能 ， 其 次 作为 RAID 卡 
上 的 CPU 执行 RAID 运 算 所 需要 的 内 存 空间 。XOR 心 片 是 专门 用 来 做 
RAID 3、5、6 等 这 类 校 验 型 RAID 的 校 验 数据 计算 用 的 。 如 果 让 CPU 来 
做 校 验 计算 ， 需 要 执行 代码 ， 将 耗费 很 多 周期 。 而 如 果 直 接 使 用 专用 的 
数字 电路 ， 一 进 一 出 就 立即 得 到 结果 。 上 所 以 为 了 解脱 CPU， 增 加 了 这 块 
专门 用 于 XOR 运 算 的 电路 模块 ， 大 大 增加 了 数据 校 验 计算 的 速度 。 





RAID 卡 与 SCSI 卡 的 区 别 就 在 于 RAID 功 能 ， 其 他 没有 太 大 区 别 。 如 
果 RAID 卡 上 有 多 个 SCSI 通 道 ， 那 么 束 称 为 多 通道 RAID 卡 。 目 前 SCSI 
RAID 卡 最 高 有 4 通道 的 ， 其 后 端 可 以 接 入 4 条 SCSI 总 线 ， 所 以 最 多 可 连 
接 64 个 SCSI 设 备 〈16 位 总 线 ) 。 


增加 了 RAID 功 能 之 后 ，SCSI 控 制 器 就 成 了 RAID 程 序 代 码 的 倪 仿 ， 
RAID 让 它 干什么 ， 它 就 干什么 。SCSI 控 制 器 对 它 下 面 掌 管 的 磁盘 情况 
完全 明了 ， 它 和 RAID 程 序 代 码 之 间 进 行 通信 。RAID 程 序 代码 知道 SCSI 
控制 器 掌管 的 磁盘 情况 之 后 ， 就 按照 ROM 中 所 设置 的 选项 ， 比 如 RAID 
类 型 、 条 带 大 小 等 ， 对 RAID 程 序 代码 做 相应 的 调整 ， 操 控 它 的 倪 偶 
SCSI 控 制 器 向 主机 报告 “虚拟 ”的 逻辑 盘 ， 而 不 是 所 有 物理 磁盘 了 。 


提示 : RAID 思 想 中 有 个 条 带 化 的 概念 。 所 谓 的 条 带 化 ， 并 不 
是 真正 的 像 低 级 格式 化 一 样 将 磁盘 划分 成 条 和 带 。 这 个 条 带 化 
完全 就 是 在 “心中 ?”， 也 就 是 体现 在 程序 代码 上 。 因 为 条 带 的 位 
置 、 大 小 一 旦 设置 之 后 ， 就 是 固定 的 。 一 个 虚拟 盘 上 的 某 个 
LBA 地 址 块 ， 就 对 应 了 真正 物理 磁盘 上 的 一 个 或 者 多 个 LBA 
块 ， 这 些 映射 关系 都 是 预先 通过 配置 界面 设 定好 的 。 而 且 某 种 
RAID 算 法 往往 体现 为 一 些 复杂 公式 ， 而 不 是 去 用 一 张 表 来 记 
录 每 个 虚拟 磁盘 LBA 和 物理 磁盘 LBA 的 对 应 ， 这 样 效率 会 很 
差 。 因 为 每 个 IO 到 来 之 后 ，RAID 都 要 查询 这 个 表 来 获取 对 应 
物理 磁盘 的 LBA， 而 查询 速度 是 非常 慢 的 ， 更 何况 面 对 如 此 大 
的 一 张 表 。 如 果 用 一 个 逻辑 LBA 与 物理 LBA 之 间 的 函数 关系 公 
式 来 做 运算 ， 则 速度 是 非常 快 的 。 


























正 是 因为 映射 完全 通过 公式 来 进行 ， 所 以 物理 磁盘 上 根本 不 用 写 入 
什么 标志 ， 以 标注 所 谓 的 条 带 。 条 带 的 概念 只 是 逻辑 上 的 ， 物 理 上 并 不 
存在 。 所 以 ， 条 带 等 概念 只 需 “ 记 忆 ” 在 RAID 程 序 代 码 之 中 就 可 以 了 ， 
要 改变 也 是 改变 程序 代码 即 可 。 唯 一 要 问 磁 盘 上 写 入 的 就 是 一 些 RAID 
言 息 ， 这 样 即 使 将 这 些 磁 盘 拿 下 来 ， 放 到 同型 号 的 另 一 块 RAID 卡 上 ， 
也 能 无 误 地 认 出 以 前 做 好 的 RAID 信 息 。SNIA 协 会 定义 了 一 种 DDF 
RAID 信 息 标准 格式 ， 要 求 所 有 RAID 卡 厂家 都 按照 这 个 标准 来 存放 
RAID 信 息 ， 这 样 ， 所 有 RAID 卡 就 都 通用 了 。 




















条 带 化 之 后 ，RAID 程 序 代码 就 操控 SCSI 控 制 占 同 OS 层 驱动 程序 代 
码 提交 一 个 虚拟 化 之 后 的 所 谓 “ 虚 拟 盘 ”或 者 “好 辑 盘 "， 也 有 人 干脆 称 为 
LUN。 


2. RAID 卡 的 初始 化 和 配置 过 程 


所 谓 初 始 化 就 是 说 在 系统 加 电 之 后 ，CPU 执 行 系统 总 线 特定 地 址 上 
的 第 一 名 指令， 这 个 地 址 便 是 主板 BIOS 芯 片 的 地 址 。BIOS 芯 片 中 包含 
着 让 CPU 执行 的 第 一 条 指令 ，CPU 将 逐条 执行 这 些 指令 ， 执 行 到 一 定 阶 
段 的 时 候 ， 有 一 条 指令 会 让 CPU 寻 址 总 线 上 其 他 设备 的 ROM 地 址 〈 如 
果 有 ) 。 也 就 是 说 ， 系 统 加 电 之 后 ，CPU 总 会 执行 SCSI 卡 这 个 设备 上 
ROM 中 的 程序 代码 来 初始 化 这 块 卡 。 初 始 化 的 内 容 包 括 检 测 卡 型 号 、 
生产 商 以 及 扫描 卡 上 的 所 有 SCSI 总 线 以 找 出 每 个 设备 并 显示 在 显示 器 
上 。 在 初始 化 的 过 程 中 ， 可 以 像 进入 主板 BIOS 一 样 ， 进 入 SCSI 卡 自身 
的 BIOS 中 进行 设置 ， 设 置 内 容 包 括 查 看 各 个 连接 到 SCSI 总 线 上 的 设备 
的 容量 、 生 产 商 、 状 态 、SCSIID 和 LUN ID 等 。 





3. 0 通道 RAID 卡 





0 通道 RAID 卡 又 称 为 RAID 子 卡 ，0 通 道 的 意思 是 说 这 块 卡 的 后 端 没 
有 SCSI 通 道 。 将 这 块 子 卡 插入 主机 的 PCI 插 槽 之 后 ， 它 就 可 以 利用 主板 
上 已 经 集成 的 或 者 已 经 插 在 PCIL 上 的 SCSI 卡 ， 来 操控 它们 的 通道 ， 从 而 
实现 RAID。 这 个 0 通道 子 卡 ， 也 是 插 到 PCI 上 的 一 块 卡 ， 只 不 过 它 需 要 
利用 主板 上 为 0 通道 子 卡 专门 设计 的 逻辑 电路 ， 对 外 和 SCSI 控 制 器 组 成 
一 块 RAID 卡 来 用 ， 只 不 过 这 块 卡 在 物理 上 被 分 割 到 了 两 个 PCI 插 槽 中 而 
Eis 














图 5-31 0 通道 RAID 子 卡 示意 图 











图 5-31 展 示 了 0 通道 RAID 子 卡 的 
架构 。 在 主板 的 一 个 特定 PCI 插 覃 
上 ， 有 一 个 ICR 逻 辑 电 路 ， 用 来 截获 CPU 发 送 的 地 址 信号 和 发 给 CPU 的 
中 断 信号 。CPU 发 送 到 这 里 原本 用 来 操控 SCSI 控 制 器 的 地 址 信号 ， 现 在 
全 部 被 这 个 ICR 电 路 重 定向 到 了 RAID 子 卡 处 ， 包 括 主板 BIOS 初 始 载 入 
ROM， 也 不 是 载 入 SCSI 卡 的 ROM 了 了， 而 是 载 入 了 RAID 子 卡 的 ROM。 


RAID 卡 完全 接替 了 SCSI 卡 来 面 对 主 机 系统 。RAID 卡 和 SCSI 控 制 器 的 通 
信 ， 包 括 地 址 信息 和 数据 信息 ， 需 要 占用 PCI 总 线 ， 这 造成 了 一 定 的 性 
能 损失 。RAID 子 卡 和 SCSI 卡 之 间 的 通信 ， 不 会 被 ICR 电 路 重 定 问 。 





4. 无 驱 RAID 卡 


PhotoFast 所 设计 的 一 款 RAID 卡 可 谓 是 比较 创新 。 传 统 的 RAID 卡 都 
是 使 用 PCIX 或 者 PCIE 总 线 来 连接 到 计算 机 上 的 ， 但 是 PhotoFast 这 于 
RAID 卡 却 是 使 用 SATA 接 口 来 连接 到 计算 机 的 ， 也 就 是 说 ， 这 块 RAID 
卡 将 其 上 连接 的 多 块 物理 磁盘 虚拟 成 若干 的 虚拟 磁盘 ， 并 将 这 些 磁盘 通 
过 SATA 接 口 连 接 到 计算 机 ， 计 算 机 就 认为 它 自身 所 连接 的 是 多 块 
SATA 物 理 磁 盘 。 这 样 的 话 ， 这 块 Raid 卡 就 不 需要 任何 驱动 程序 便 可 被 
大 多 数 操作 系统 使 用 〈 多 数 操 作 系统 都 自 带 SATA 控 制 器 驱动 程序 ) 。 








5. RAID On Chip (ROC) 技术 


ROC 技 术 是 由 Adaptec 公 司 推出 的 一 种 廉价 RAID 技 术 ， 它 利用 SCSI 
卡 上 的 CPU 处 理 芯 片 ， 通 过 在 SCSI 卡 的 ROM 中 加 入 RAID 代 码 而 实现 。 


2001 年 ，Adaptec 展 示 了 它 的 ROC 技 术 ， 在 2003 年 这 一 技术 以 
HOStRAID 的 形象 推出 。iROC 也 就 是 RAID on Chip， 实 质 上 就 是 利用 
SCSI 控 制 公 片 内 部 的 RISC 处 理 器 完成 一 些 简 单 的 RAID 类 型 (RAID 0、 
1、0 十 1) 。 由 于 RAID 0、1 和 0 十 1 需要 的 运算 量 不 大 ， 利 用 SCSI 控 制 
器 内 部 的 RISC 处 理 器 也 能 够 实现 。 在 ROM 代 码 的 配合 下 ， 通 过 iROC 实 
现 的 RAID 0、1 或 0 十 1 有 具备 引导 能 力 ， 并 且 可 以 文 持 热 备 盘 。 





在 入 门 级 塔 式 服务 器 和 1U 高 度 的 机 架 式 服务 器 中 ， 主 板 上 通常 会 
集成 SCSI 控 制 蕊 片 ， 但 不 标 配 独立 的 RAID 卡 。iROC 的 出 发 点 就 是 让 这 


些 系统 具有 基本 的 硬件 数据 保护 ， 当 需要 更 为 复杂 的 RAID 5 时 再 购买 独 
并 的 RAID 卡 。iROC 的 出 现 给 低 端 服务 器 产品 的 数据 保护 方案 增加 了 一 
个 简易 的 选择 。iROC 或 HOStRAID 的 主要 缺点 是 操作 系统 兼容 性 和 性 能 
差 ， 由 于 没有 专门 的 RAID 计 算 处 理 器 ， 因 此 使 用 这 种 配置 的 RAID 会 在 
一 定 程 度 上 降低 服务 器 系统 的 性 能 ， 而 且 它 只 支持 RAID 0、1、0 十 1， 
只 能 支持 几 块 SCSI 盘 做 RAID， 相 比 IDE RAID 0、1、0 十 1 来 说 特性 相近 
而 成 本 上 却 高 了 很 多 ， 此 外 ，HOStRAID 技 术 在 低 端 还 必然 要 面 对 更 
新 、 性 能 更 好 的 S-ATA RAID 的 竞争 。 


6. RAID 卡 上 的 内 存 


RAID 卡 上 的 内 存 ， 有 数据 缓存 和 代码 执行 内 存 两 种 作用 。 





RAID 卡 上 的 CPU 执行 代码 ， 当 然 需要 RAM 的 参与 了 。 如 果 直 接 从 
ROM 中 读 取代 码 ， 速 度 会 受到 很 大 影响 。 所 以 RAID 卡 的 RAM 中 有 固定 
的 地 址 段 用 于 存放 CPU 执 行 的 代码 。 而 大 部 分 空间 都 是 用 作 了 下 文 介绍 
的 数据 缓存 。 














缓存， 也 就 是 缓冲 内 存 ， 只 要 在 通信 的 双方 之 间 能 起 到 缓冲 作用 就 
可 以 了 。 我 们 知道 CPU 和 内 存 之 间 是 L2 Cache， 它 比 内 存 RAM 速 度 还 要 
高 ， 但 是 没有 CPU 速度 高 。 同 样 ，RAID 控 制 器 和 磁盘 通道 控制 器 之 间 
也 要 有 一 个 缓存 来 适 配 ， 因 为 RAID 控 制 器 的 处 理 速度 远 远 快 于 通道 控 
制 器 收集 通道 上 所 连接 的 人 磁盘 传 出 的 数据 速度 。 这 个 缓存 没有 必要 用 L2 
Cache 那 样 高 速 的 电路 ， 而 用 RAM 足 全 。 因 为 RAM 的 速度 就 足够 适 配 二 
潭 本 5 














缓存 RAM 除 了 适 配 不 同 速率 的 芯片 通信 之 外 ， 还 有 一 个 作用 就 是 
缓冲 数据 IO。 比 如 上 层 发 起 一 个 IO 请 求 ，RAID 控 制 器 可 以 先 将 这 个 请 


求 放 到 缓存 中 排队 ， 然 后 一 条 一 条 地 执行 ， 或 者 优化 这 些 IO， 能 合并 的 
合并 ， 能 并 发 的 并 及。 





7. 缓存 的 两 种 写 模 式 


对 于 上 层 的 写 IO，RAID 控 制 器 有 两 种 手段 来 处 理 ， 内 容 如 下 。 


(1) WriteBack 模 式 : ”上 层 发 过 来 的 数据 ，RAID 控 制 器 将 其 保存 
到 缓存 中 之 后 ， 立 即 通知 主机 IO 已 经 完成 ， 从 而 主机 可 以 不 加 等 待 地 执 
行 下 一 个 IO， 而 此 时 数据 正在 RAID 卡 的 缓存 中 ， 而 没有 真正 写 入 磁 
盘 ， 起 到 了 一 个 缓冲 作用 。RAID 控 制 器 等 待 空 亲 时， 或 者 一 条 一 条 地 
写 入 磁盘 ， 或 者 批量 写 入 磁盘 ， 或 者 对 这 些 IO 进行 排队 《类 似 磁 盘 上 的 
队列 技术 ) 等 一 些 优化 算法 ， 以 便 高 效 写 入 磁盘 。 由 于 写 盘 速度 比较 
慢 ， 所 以 这 种 情况 下 RAID 控 制 器 欺骗 了 主机 ， 但 是 获得 了 高 速度 ， 这 
就 是 “把 简单 留 给 上 层 ， 把 厅 烦 留 给 自己 ”。 这 样 做 有 一 个 致命 缺点 ， 就 
是 一 旦 意外 掉 电 ，RAID 卡 上 缓存 中 的 数据 将 全 部 丢失 ， 而 此 时 主机 认 
为 IO 已 经 完成 ， 这 样 上 下 层 束 产生 了 不 一 致 ， 后 果 将 非常 严重 。 所 以 一 
些 关 键 应 用 《比如 数据 库 ) 都 有 自己 的 检测 一 致 性 的 措施 。 也 正 因为 如 
此 ， 中 高 端的 RAID 卡 都 需要 用 电池 来 保护 缓存 ， 从 而 在 意外 掉 电 的 情 
况 下 ， 电 池 可 以 持续 对 缓存 进行 供电 ， 保 证 数据 不 丢失 。 再 次 加 电 的 时 
候 ，RAID 卡 会 首先 将 绥 存 中 的 未 完成 的 IO 写 入 磁盘 。 





























(2) WriteThrough 模 式 : 也 就 是 写 表 模式 ， 即 上层 的 IO。 只 有 数 
据 切 切实 实 被 RAID 控 制 器 写 入 磁盘 之 后 ， 才 会 通知 主机 IO 完 成 ， 这 样 
做 保证 也 可 靠 性 。 此 时 ， 缓 存 的 提速 作 用 就 没有 优势 了 ， 但 是 其 绥 冲 
作用 依然 有 效 。 








除了 作为 写 缓存 之 外 ， 读 缓存 也 是 非 第 重要 的 。 绥 存 算法 是 门 很 复 





杂 的 学 问 ， 有 一 套 复 杂 的 机 制 ， 其 中 一 种 算法 叫做 PreFetch， 即 预 取 ， 
也 就 是 对 磁盘 上 接 下 来 “有 可 能 ”被 主机 访问 到 的 数据 ， 在 主机 还 没有 发 
出 读 IO 请 求 的 时 候 ， 就 “ 擅 目 ? 先 读 入 到 缓存 。 这 个 “有 可 能 ?是 怎么 来 算 
的 呢 ? 








其 实 就 是 认为 主机 下 一 次 ID， 有 很 大 几率 会 读 取 到 这 一 次 所 读 取 的 
数据 所 在 磁盘 位 置 相 邻 位 置 的 数据 。 这 个 假设 ， 对 于 连续 IO 顺序 读 取 情 
况 非常 适用 ， 比 如 读 取 人 逻辑 上 连续 存放 的 数据 ， 这 种 应 用 如 FTP 大 文件 
传输 服务 、 视 频 点 播 服务 等 ， 都 是 读 大 文件 的 应 用 。 而 如 果 很 多 雁 小 文 
件 也 是 被 连续 存放 在 磁盘 上 相 邻 位 置 的 ， 绥 存 会 大 大 提升 性 能 ， 因 为 读 
取 小 文件 需要 的 IOPS 很 高 ， 如 果 没 有 缓存 ， 全 人 靠 磁 头 寻 道 来 完成 每 次 
IO， 耗 费时 间 是 比较 长 的 。 








还 有 一 种 缓存 算法 ， 它 的 思想 不 是 预 取 了 ， 它 是 假设 主机 下 一 次 
IO， 可 能 还 会 读 取 上 一 次 或 者 上 几 次 《最 近 ) 读 取 过 的 数据 。 这 种 假设 
和 预 取 完 全 不 一 样 了 ，RAID 控 制 器 读 取出 一 段 数 据 到 缓存 之 后 ， 如 采 
这 些 数据 被 主机 的 写 IO 更 改 了 ， 控 制 占 不 会 立即 将 它们 写 入 磁盘 保存 ， 
而 是 继续 留 在 缓存 中 ， 因 为 它 假设 主机 最 近 可 能 还 要 读 取 这 些 数据 ， 既 
然 假 设 这 样 ， 那 么 就 没有 必要 写 入 磁盘 并 删除 缓存 ， 然 后 等 主机 读 取 的 
时 候 ， 再 从 磁盘 读 出 来 到 缓存 ， 还 不 如 以 静 制 动 ， 干 脆 就 留 在 缓存 中 ， 
等 主机 “折腾 ”的 频率 不 高 了 ， 再 写 入 磁盘。 











提示 : 中 高 端的 RAID 卡 一 般 具 有 256MB 以 上 的 RAM 作 为 组 


8. RAID 配 置 完 后 的 初始 化 过 程 


对 于 校 验 型 RAID， 在 RAID 卡 上 设置 完 RAID 参 数 并 且 应 用 RAID 设 


置 之 后 ，RAID 阵 列 中 的 所 有 磁盘 需要 进行 一 个 初始 化 过 程 ， 所 需要 的 
时 间 与 磁盘 数量 、 大 小 有 关 。 和 磁盘 越 大 ， 数 量 越 多 ， 需 要 的 时 间 就 越 
长 。 











思考 : RAID 卡 都 癌 磁 盘 上 写 了 什么 东西 呢 ? 大 家 可 以 想 一 
下 ， 一 块 刚刚 出 三 的 新 磁盘 ， 上 面 有 没有 数据 ? 


有 。 有 具体 什么 数据 昵 ? 要 么 全 是 0， 要 么 全 是 1。 这 里 所 说 的 全 0 是 
指 实际 数据 部 分 ， 扇 区 头 标 等 一 些 特殊 位 置 除外 。 因 为 磁盘 上 的 磁性 区 
域 就 有 两 种 状态 ， 不 是 N 极 ， 就 是 S 极 。 那 么 也 就 是 说 不 是 0 就 是 1， 而 
不 可 能 有 第 三 种 状态 。 那 么 这 些 0 或 者 1， 算 不 算数 据 呢 ?当然 要 算 了 ， 
这 些 磁 区 不 会 存在 一 种 介 于 0 和 1 之 间 的 混沌 状态 。 如 果 此 时 用 几 块 磁盘 
做 了 RAID 5， 但 磁盘 上 任何 数据 都 不 做 改动 ， 我 们 看 一 下 此 时 会 处 于 一 
种 什么 状态 ， 比 如 5 块 磁盘 ，4 块 数据 盘 空 间 ，1 块 校 验 盘 空间 ， 同 一 个 
条 带 上 ，4 块 数据 块 ，1 块 校 验 块 ， 所 有 块 上 的 数据 都 是 全 0， 那 么 此 时 
如 果 按 照 RAID 5 来 算 ， 是 正确 的 ， 因 为 0 XOR 0 XOR 0 XOR 0 XOR 0= 
0， 对 。 














如 果 一 开始 磁盘 全 是 1， 那 么 同样 地 1 XOR 1 XOR 1 XOR 1 XOR 1 
二 1， 也 对 。 但 是 如 果 用 6 块 盘 做 RAID 5， 而 且 初 始 全 为 1， 情 况 就 矛盾 
了 。1 XOR 1 XOR 1XOR 1 XOR 1 XOR 1 二 0， 此 时 正确 结果 应 该 是 校 
验 块 为 0， 但 是 初始 磁盘 全 部 为 1， 校 验 块 的 数据 也 为 1， 这 就 和 计算 结 
果 相 矛盾 了 。 








如 果 初 始 化 过 程 不 对 磁盘 数据 进行 任何 更 改 ， 直 接 拿 来 写 数据 ， 比 
如 此 时 就 向 第 二 个 extend 上 写 了 一 块 数据 ， 将 1 变 为 0， 然 后 控制 器 根据 
公式 : 新 数据 的 校 验 数据 = 〈 老 数据 EOR 新 数据 ) EOR 来 校 验 数 据 。 
(1EOR 0) EOR 1 二 0， 新 校 验 数据 为 0， 所 以 最 终 数 据 变 成 了 这 样 : 1 





XOR 0 XOR 1 XOR 1 XOR 1 XOR 1。 我 们 算出 它 的 正确 数据 应 该 等 于 
1， 而 由 RAID 控 制 器 算 的 却 成 了 0， 所 以 就 矛盾 了 。 





为 什么 会 犯 这 个 错误 呢 ? 那 是 因为 一 开始 RAID 控 制 吉 就 没有 从 一 
个 正确 的 数据 关系 开始 算 ， 校 验 块 的 校 验 数据 一 开始 就 与 数据 块 不 一 
致 ， 导 致 越 算 越 错 。 所 以 RAID 控 制 融 在 做 完 设 置 ， 并 局 用 之 后 ， 在 初 
始 化 的 过 程 中 需要 将 磁盘 每 个 忆 区 都 写成 0 或 者 1， 然 后 计算 出 正确 的 校 
验 位 ， 或 者 不 更 改 数据 块 的 数据 ， 直 接 用 这 些 已 经 存在 的 数据 ， 重 新 计 
算 所 有 条 和 市 的 校 验 块 数据 。 在 这 个 基础 上 ， 新 到 来 的 数据 才 不 会 被 以 率 
传 认 。 





思考 : ”NetApp 等 产品 ， 其 RAID 组 做 好 之 后 不 需要 初始 化 ， 立 
即 可 用 。 甚 至 向 已 经 有 数据 的 RAID 组 中 添加 磁盘 ， 也 不 会 造 

成 任何 额外 的 IO。 因 为 其 会 将 所 有 Spare 人 厂 盘 清 零 ， 也 融 是 同 

磁盘 发 送 一 个 Zero Unit 的 SCSI 指 令 ， 磁 盘 会 目 动 执行 清 零 。 用 
这 些 磁 盘 做 的 RAID 组 ， 不 需要 校 验 纠正 ， 所 以 也 不 需要 初始 

化 过 程 ， 或 者 说 初始 化 过 程 就 是 等 符 磁 盘 清 零 的 过 程 。 











关于 Raid 初 始 化 过 程 的 更 详细 的 分 析 可 参考 本 书 附 录 1 中 的 问 与 


只 


9.， 几 款 RAID 卡 介绍 
1) Mylex AcceleRAID 352 


双 通 道 160M 部 门 级 ， 性 能 强悍 ，BIOS 选 项 极为 人 性 化 ， 在 BIOS 内 
可 以 检测 SCSI 人 硬盘 的 出 厂 坏 道 及 成 长 坏 道 ， 而 不 需 借助 软件 。 并 且 人 允许 
手动 打开 /关闭 硬盘 设备 自身 的 Read cache/Write cache。 还 带 有 电池 。 


详细 信息 如 下 。 
支持 RAID 级 别 : RAID 0、1、0 十 1、3、5、10、30、50、JBOD。 


a 处 理 芯 片 : Intel i960RN。 

a 总 线 类 型 : PCI 64b， 兼 容 32b。 

a 外 置 接口 : Ultra 160 SCSI。 

a 数据 传输 速率 : 最 高 160MB/s。 

a 外接 设备 数 : 最 多 30 个 SCSI 外 设 。 

a 内 部 接口 : 双 68 针 高 密 。 

a 外 部 接口 双 68 针 超 高 密 。 

sa 适用 的 操作 系统 : Windows NT 4.0; Windows 2K; NetWare 
4.2、5.1; SCO OpenServer 5.05、 5.0.6; SCO UnixWare 7.1; 
DOS 6.x and above; Solaris 7 (x86) ; Linux 2.2 kernel 





distributions。 
m 包括 软件 : Storager Manager、Storager Manager Pro 和 和 CLI 命令 
分 界面 ) 。 


m 主要 RAID 特 性 : 在 线 扩容 、 了 瞬时 阵列 可 用 性 〈 后 台 初 始 化 ) 、 
支持 S.M.A.R.T、 支 持 SES/SAF-TE。 


图 5-32 和 图 5-33 为 Mylex AcceleRAID 352 卡 实物 图 。 





图 5-32 Mylex AcceleRAID 352 卡 (1) 图 5-33 Mylex AcceleRAID 352 卡 (2) 


2) LSI MegaRAID Enterprise 1600 (AMI 471) 


4 通道 160MB 企 业 / 部 门 级 ，160MB 最 为 顶级 豪华 的 SCSI RAID， 强 
大 的 BIOS 选 项 (LSI 独 有 的 Web BIOS) 。 卡 上 系统 缓存 可 详细 调节 〈 除 


大 部 分 SCSI ”RAID 可 以 调节 的 主要 功能 Write back《〈 回 写 外 ) ， 增 加 
Read ahead《〈 预 恋 ) ，Cache IO 等 可 调 选 项 ， 满 足 RAID 的 用 途 需 要 ， 体 
现 各 种 RAID 的 最 高 性 能 ， 带 电池 。 


详细 信息 如 下 。 


国 支持 RAID 级 别 : RAID 0、 LS 0 十 1、 3、 D、 10、 30、 50、 


JBOD。 


a 处理 心 片 : 
sa 插 槽 类 型 
a 总线 速度 : 
a 总 线 宽 度 : 


a 处置 接口 : 


Intel i960RN 。 

PCI 64b、 兼 容 32b。 
66MHz。 

64b。 

Ultra 160 SCSI。 


a 数据 传输 率 : 160MB/s。 
m 最 多 连接 设备 : 32。 





a 内 部 接口 : 
罩 外 部 接口 : 


双 68 针 高 密 。 
四 68 针 超 高 密 。 


m 系统 平台 : Windows 95/98/Me/4.0/2000/XP, Linux (Red Hat、 
SuSE、Turbo、Caldera 和 FreeBSD) 。 


图 5-34 为 LSI MegaRAID Enterprise 1600 卡 实物 图 。 





图 5-34 LSI MegaRAID Enterprise 1600 卡 


可 以 看 到 RAID 卡 使 用 的 内 存 就 是 人 台式 机 的 SDRAM 内 存 ， 有 些 使 用 
DDR SDRAM 内 存 。 


10. 用 Rocket RAID 卡 做 各 种 RAID 


在 一 张 Rocket RAID 卡 上 ， 安 装 了 8 块 IDE 人 磁盘 。 开 机 之 后 ， 在 启动 
界面 按照 相应 提示 进入 RAID 卡 的 设置 界面 ， 如 图 5-35 所 示 。 





图 5-35 ”磁盘 列表 





可 以 看 到 ， 这 8 块 硬盘 有 着 不 同 的 品牌 、 容 量 以 及 参数 ， 但 它们 都 
是 IDE 接 口 的 ATA 人 硬盘 。 


1) RAID 0 组 的 创建 过 程 
(1) 选择 RAID 0: Striping， 如 图 5-36 所 示 。 
图 5-36 ”选择 RAID 0 模式 
(2) 给 新 RAID 0 组 起 名 为 “RAID 0”， 如 图 5-37 所 示 。 


图 5-37 起 名 “RAID 0” 





(3) 在 Select Devices 菜 单 下 ， 选 择 RAID 0 组 所 包含 的 磁盘 ， 如 图 
5-38 和 图 5-39 所 示 。 





图 5-38 ”选择 磁盘 (1) 图 5-39 ”选择 磁盘 (2) 


(4) 接 下 来 ， 在 Block Size 菜 单 下 可 以 为 这 个 RAID 人 
小 ， 如 图 5-40 所 示 。 至 于 Block Size 参 数 是 指 整个 条 带 的 大 小 ， 还 是 指 条 
带 Segment 的 大 小 ， 要 看 厂家 自己 的 定义 。 





图 5-40 ”设置 Block Size 





(5) 选择 Start Creation， 确 定 创建 RAID 组 ， 如 图 5-41 所 示 。 








图 5-41 ”开始 创建 RAID 组 











(6) 创建 完毕 后 ， 主 界面 中 即 显 示 出 RAID 信 息 ， 如 图 5-42 所 示 。 








图 5-42” ”RAID 组 的 信息 








接 下 来 我 们 继续 用 以 上 方法 创建 其 他 类 型 的 RAID 组 。 
2) RAID 1 组 的 创建 过 程 


图 5-43 所 示 是 RAID 1 组 的 创建 过 程 ， 可 以 发 现 Start Creation 中 有 一 
个 Duplication 选 项 ， 这 个 选项 的 作用 是 将 源 盘 数据 复制 到 镜像 盘 ， 而 不 
破坏 源 盘 数 据 。 如 果 选 择 了 Create Only， 则 会 破坏 源 盘 的 数据 ， 重 新 创 
建 干净 的 RAID 1 组 。 


图 5-43 ”创建 RAID 1 组 
3) 创建 一 个 3 块 盘 组 成 的 RAID 5 组 


提示 : 在 Start ”Creation 菜单 中 有 两 个 选项 ， 一 个 为 Zero 
Build， 男 一 个 为 No Build， 如 图 5-44 所 示 。Zero Build 指 将 所 有 
数据 作废 ， 从 零 开 始 生成 数据 的 校 验 值 。No Build 指 不 计算 数 
据 校 验 值 ， 如 果 用 户 能 保证 RAID 5 组 中 的 磁盘 原来 是 处 于 一 致 
性 状态 的 ， 则 可 以 用 这 个 选项 来 节约 时 间 ， 人 否则 不 要 选择 这 个 
选项 。 











图 5-44 ”两 个 选项 








如 果 选 择 No Build 选 项 ， 则 会 显示 警告 信息 ， 如 图 5-45 所 示 。 





图 5-45 ”警告 信息 


按 Y 键 即 可 完成 RAID 5 组 的 创建 。 


至 此 ， 我 们 创建 了 RAID 0、RAID 1 和 RAID 5 三 个 RAID 组 ， 如 图 5- 
46 上 所 示 。 


图 5-46 ”三 个 RAID 组 的 信息 





4) 删除 RAID 组 


如 果 对 创建 的 RAID 组 不 满意 ， 可 以 删除 重建 ， 有 具体 操作 如 图 5-47 
和 图 5-48 所 示 。 








图 5-47 ”删除 RAID 组 图 5-48 ”确认 信息 














5) 添加 全 局 热 备 磁盘 


此 外 ， 还 可 以 添加 全 局 热 备 酸 盘 。 切 换 到 Add/Remove Spare 沫 单 ， 
如 图 5-49 所 示 。 





图 5-49 ”添加 全 局 热 备 盘 


由 于 当前 系统 中 只 有 一 块 空 闪 磁盘 ， 所 以 我 们 就 将 这 块 磁盘 作为 全 
局 热 备 磁盘 ， 操 作 如 图 5-50 和 图 5-51 所 示 。 如 果 任 何 RAID 组 中 有 磁盘 损 
坏 的 话 ，RAID 卡 将 利用 这 块 热 备 磁盘 来 顶 蔡 损坏 的 磁盘 ， 将 数据 重新 
同步 到 这 块 磁盘 上 。 





图 5-50 ”确认 信息 图 5-51 磁盘 状态 


6) 设置 启动 标志 


由 于 系统 要 从 安装 有 操作 系统 的 磁盘 上 启动 ， 所 以 必须 计 RAID 卡 
知道 哪个 逻辑 磁盘 是 启动 磁盘 。 有 具体 设置 如 图 5-52 一 图 5-54 所 示 。 





图 5-52 设置 启动 盘 (1) 图 5-53 ”设置 启动 盘 (2) 图 5-54 设置 启动 盘 (3) 








在 将 RAID 1 组 形成 的 逻辑 磁盘 作为 启动 磁盘 后 ， 可 以 看 见 右边 
的 “BOOT” 标 志 。 


7) 设置 访问 各 个 磁盘 的 模式 参数 


在 Device “Mode 沫 单 下 ， 可 以 设置 访问 各 个 磁盘 的 模式 参数 ， 如 图 
5-55 和 图 5-56 所 示 。 








图 5-55 ”设置 磁盘 参数 (1) 图 5-56 ”设置 磁盘 参数 (2) 








8) 奋 看 所 有 设备 





在 View 荣 单 下 ， 可 以 查看 所 有 设备 、 所 有 RAID 组 和 所 有 逻辑 磁盘 
(由 于 这 块 卡 不 具有 在 RAID 组 中 再 次 划分 逻辑 磁盘 的 功能 ， 所 以 每 个 
逻辑 组 只 能 作为 一 个 逻辑 磁盘 ) ， 如 图 5-57 和 图 5-58 所 示 。 











图 5-57” RAID 组 状态 (1) 图 5-58 ”RAID 组 状态 (2) 











5.3 ”磁盘 阵列 


RAID 卡 的 出 现 着 实 让 存储 领域 变 得 红火 起 来 ， 几 乎 每 台 服 务 器 都 
标 配 RAID 卡 或 者 集成 的 RAID 蕊 片 。 一 直到 现在 ， 虽 然 磁 盘 阵 列 技术 高 
度 发 展 ， 各 种 盘 阵 产品 层出不穷 ， 但 RAID 卡 依然 是 服务 占 不 可 缺少 的 
= 





然而 ，RAID 卡 所 能 接 入 的 通道 毕竟 有 限 ， 因 此 人 们 迫切 希望 创造 
一 种 可 以 接 入 众多 磁盘 、 可 以 实现 RAID 功 能 并 且 可 以 作为 集中 存储 的 
大 规模 独立 设备 。 最 终 ， 磁 盘 阵列 在 这 种 需求 中 诞生 了 。 


磁盘 阵列 的 出 现 是 存储 领域 的 一 个 里 程 碑 。 关 于 磁盘 阵列 的 描述 ， 
我 们 将 在 本 书 第 6 章 中 详细 介绍 。 





在 7 种 RAID 形 式 的 基础 上 ， 还 可 以 进行 扩展 ， 以 实现 更 高 级 的 
RAID。 由 于 RAID 0 无 疑 是 所 有 RAID 系 统 中 最 快 的 ， 所 以 将 其 他 RAID 
形式 与 RAID 0 杂交 ， 将 会 生成 更 多 新 奇 的 品种 。 将 RAID 0 与 RAID 1 结 
合 ， 生 成 了 RAID 10; 将 RAID 3 与 RAID 0 结合 ， 生 成 了 RAID 30; 将 
RAID 5 与 RAID 0 结合 ， 生 成 了 RAID 50。 


5.3.1 RAID 50 


图 5-59 是 一 个 RAID 50 的 模型 ，RAID 30 与 其 类 似 。 控 制 器 接收 到 
主机 发 来 的 数据 之 后 ， 按 照 RAID 0 的 映射 关系 将 数据 分 块 ， 一 部 分 存放 
于 左边 的 RAID ”5 系统 ， 另 一 部 分 存放 在 右边 的 RAID 5 系统 。 左 边 的 
RAID 5 系统 再 次 按照 RAID 5 的 映射 关系 将 这 一 部 分 数据 存放 于 5 块 磁盘 
中 的 若干 块 ， 另 一 边 也 进行 相同 的 过 程 。 








图 5-59 ”RAID 50 模 型 


实际 中 ， 控 制 器 不 可 能 物理 地 进行 两 次 运算 和 写 IO， 这 样 效率 很 
低 。 控 制 器 可 以 将 RAID 0 和 RAID 5 的 映射 关系 方程 组 合成 一 个 函数 关 
系 方程 ， 这 样 直接 代入 逻辑 盘 的 LBA， 便 可 得 出 整个 RAID 50 系 统 中 所 
有 物理 磁盘 将 要 写 入 或 者 读 取 的 相应 LBA 地 址 ， 然 后 统一 向 磁盘 发 送 指 
令 。 左 边 的 RAID 5 系统 和 右边 的 RAID 5 系统 分 别 允 许 损 坏 一 块 磁盘 而 
不 影响 数据 。 但 是 如 果 在 任何 一 边 的 RAID 系 统 同时 或 者 先后 损坏 了 两 
块 或 者 更 多 的 盘 ， 则 整个 系统 的 数据 将 无 法 使 用 。 


5.3.2 RAID 10 和 RAID 01 








RAID 10 和 RAID 01 看 起 来 差不多 ， 但 是 本 质 上 有 一 定 区 别 。 图 5- 
60 是 一 个 RAID 10 的 模型 。 


图 5-60 RAID 10 模 型 


如 果 某 时 刻 ， 左 边 的 RAID 1 系统 中 有 一 块 磁盘 损坏 ， 此 时 允许 再 次 
损坏 的 磁盘 就 剩 下 两 块 ， 也 就 是 右边 的 RAID 1 系统 中 还 可 以 再 损坏 任意 
一 块 磁盘 ， 而 整体 数据 仍然 是 可 用 的 。 我 们 暂且 说 这 个 系统 的 元 余 度 变 
成 了 2。 





图 5-61 是 一 个 RAID 01 的 模型 。 





图 5-61 RAID 01 模型 


如 果 某 时 刻 ， 左 边 的 RAID “0 系统 中 有 一 块 磁盘 损坏 ， 此 时 左边 的 
RAID 0 系统 便 没 有 丝 旦 作用 了 。 上 所 有 的 IO 均 转 同 右 边 的 RAID 0 系统 。 
而 此 时 ， 仅 仅 允 许 左边 剩余 的 那 块 磁盘 损坏 。 如 果 右 边 任何 一 块 磁盘 损 








坏 ， 则 整体 数据 将 不 可 用 。 所 以 这 个 系统 的 元 余 度 变 成 了 1， 即 只 允许 
损坏 特定 的 一 块 磁盘 《左边 RAID 0 系统 剩余 的 磁盘 ) 。 








综 上 所 述 ，RAID 10 系 统 要 比 RAID 01 系 统 宛 余 度 高 ， 安 全 性 高 。 


5.4 虚拟 破 盘 


话说 张 真人 送 走 了 七 星 大 侠 之 后 ， 面 对 江 调 上 的 浮躁 ， 有 震 难 言 。 
这 江湖 还 能 出 一 个 像 七 星 这 样 的 聚 侠 吗 ? 难 啊 ! 七 星 北 斗 阵 ， 多 么 完美 
的 一 个 阵 式 ! 七 星 老 前 非 用 尽 毕 生 心血 ， 创 立 了 7 种 阵 式 ， 将 单个 磁盘 
组 成 盘 阵 ， 提 高 整体 性 能 ! 可 是 很 少 有 人 能 体会 到 这 个 阵 式 的 精髓 ， 包 
括 创建 他 的 七 星 ， 都 不 一 定 。 张 真人 目 从 七 星 走 后 ， 一 直 处 于 深度 赤 靖 
之 中 ， 悔 恨 当 初 为 什么 没有 抽 时 间 向 七 星 拜 师 学 艺 ! 如 今 只 能 守 着 一 本 
老 侠 留 下 来 的 《七 星 北 斗 阵 式 》 天 天 仔细 研读 ， 以 求 找到 什么 灵感 ， 来 
继续 发 扬 老 侠 的 这 门 绝技 。 








就 这 样 过 去 了 20 年 。 张 真人 已 经 由 年 轻 小 伙 变 成 了 稳重 善 思 的 中 年 
人 。 他 和 凭借 优秀 的 武艺 和 才华 ， 来 到 武当 山 创 立 了 道观 ， 并 收 下 了 7 位 
徒弟 ， 以 纪念 七 星 北 斗 之 聚 情 ! 张 真 人 每 晚 休 妃 之 前 ， 都 要 对 着 七 星 北 
斗 拜 三 拜 。20 多 年 过 去 了， 北斗 的 光芒 依然 是 那么 次 眼 ， 依 然 看 着 世间 
纷争 ， 和 昼夜 交 蔡 。 





这 20 年 是 科技 飞速 发 展 的 20 年 。 铁 匠 们 的 技 亏 提高 很 快 ， 新 技术 不 
盯 被 创造 出 来 。 大 容量 、 高 速度 的 磁盘 在 地 摊 卖 10 文 钱 一 斤 。 





东 天 张 老 道 下 山 溜 达 ， 发 现 地 挫 上 的 磁盘 品质 还 不 错 ， 比 20 年 前 的 
货 强 太 多 了 ， 顺 手 就 买 了 50 斤 回去 。 点 了 点 ， 足 足 50 块 。 他 证 他 的 7 位 
徒弟 ， 分 别 按照 七 星 阵 摆 上 各 种 阵 形 ， 来 揭 或 这 50 块 硬盘 。7 位 徒弟 早 
就 对 七 星 阵 烂 熟 于 心 ， 把 这 50 块 磁 登 揭 豆 得 非常 顺 。 张 老道 频频 点 头 ， 
心里 想 着 :“ 咖 ， 真 应 了 那 句 话 啊 。 长 江 后 浪 推 前 浪 ， 一 代 新 人 换 旧 


人 ! ?摆弄 了 一 阵 之 后 ， 徒 弟 们 都 累 了 。 这 次 格外 地 累 ， 不 禁 都 坐 在 地 
上 休息 。 老 道 把 眼 一 瞪 ,“ 咖 起 ! ! ! 年 轻 人 ， 不 好 好 练功 ! 不 准 偷 
懒 ! ”徒弟 们 上 前 道 : “师父 ， 不 是 我 们 偷懒 ， 这 次 您 买 的 磁盘 和 以 前 的 
不 一 样 。 我 们 在 出 招 的 时 候 ， 束 是 在 “化 龙 ' 这 一 招 的 时 候 特 别 吃力 。 这 
条 龙 太 大 ， 不 好 操控 。” 老 道 一 看 ， 果 然 ， 这 50 块 磁盘 每 块 足 有 1TB 
大 ，50 块 融 是 50TB。“ 唾 唾 ，20 年 前 一 块 磁盘 最 多 也 惑 是 50MB， 没 想 
到 啊 ! ” 





这 天 晚上 ， 老 道 用 完 粗 茶 淡 饭 之 后 ， 遥 望 北斗 ， 心 想 : 七 星 老 侠 在 
天 上 不 知道 看 见 此 情 此 景 ， 会 给 我 什么 启示 呢 ? 20 年 前 ， 用 此 阵 式 生成 
的 虚拟 磁盘 ， 大 小 也 不 过 几 GB， 而 如 今 已 经 达到 了 TB 级 别 ， 也 难怪 我 
那些 徒 儿 们 会 吃不消 。 怎 么 办 呢 ? 需要 把 这 以 TB 论 的 虚拟 磁盘 再 次 划 
分 开 来 ， 划 分 成 多 条 “小 龙 *"， 这 样 就 可 以 灵活 操控 了 。 而 且 针 对 目前 的 
磁盘 超大 的 容量 ， 完 全 可 以 在 一 个 阵 中 同时 应 用 多 种 阵 式 。 比 如 让 我 7 
位 徒弟 ， 其 中 3 人 摆 出 RAID 0 阵 式 ， 男 外 4 人 同时 摆 出 RAID 5 阵 式 ， 共 
同 出 招 。 对 每 个 阵 式 生成 虚拟 “ 龙 盘 ”， 把 它 划 分 成 众多 小 的 “ 龙 盘 ”"， 这 
样 对 外 不 但 我 们 的 威力 没有 减少 ， 而 且 可 以 灵活 运用 ， 让 敌人 不 知道 我 
们 到 底 有 几 个 人 。 








张 老道 决定 将 大 龙 盘 划分 成 小 龙 盘 ， 这 事 十 分 好 办 ， 只 需 体 现 
在 “心中 *” 束 可 以 了 。 只 要 你 心中 有 数 ， 那 些 物理 磁盘 的 哪 部 分 区 域 属于 
哪个 小 龙 盘 ， 就 完全 可 以 对 外 通告 了 。 老 道 称 这 种 技术 为 逻辑 盘 技 术 。 


5.4.1 RAID 组 的 再 划分 


实际 中 ， 比 如 用 5 块 100GB 的 磁盘 做 了 一 个 RAID 5， 那 么 实际 数据 
空间 可 以 到 400GB， 剩 余 100GB 空 间 是 校 验 空 间 。 如 果 将 这 400GB 虚 拟 
成 一 块 盘 ， 不 够 灵活 。 且 如 果 OS 不 需要 这 么 大 的 磁盘 ， 就 没 法 办 了 。 





所 以 要 再 次 划分 这 400GB 的 空间 ， 比 如 划分 成 4 块 100GB 的 逻辑 磁盘 。 
而 这 逻辑 盘 虽 然 也 是 100GB， 但 是 并 不 同 于 物理 盘 ， 癌 逻辑 盘 写 一 个 数 
据 会 被 RAID 计 算 ， 而 有 可 能 写 问 多 块 物理 盘 ， 这 样 就 提升 了 性 能 ， 同 
时 也 得 到 了 保护 。 纵 使 RAID 组 中 坏 掉 一 块 盘 ， 操 作 系 统 也 不 会 感知 
到 ， 它 看 到 的 仍然 是 100GB 的 人 磁极 。 





5.4.2 ”同一 通道 存在 多 种 类 型 的 RAID 组 
不 仅 如 此 ， 老 道 还 想到 了 在 一 个 阵 式 中 同时 使 用 多 种 阵 法 的 方式 。 


实际 中 ， 假 设 总 线 上 连接 有 8 块 100GB 的 磁盘 ， 我 们 可 以 利用 其 中 
的 5 块 磁 盘 来 做 一 个 RAID 5， 而 后 再 利用 剩余 的 3 块 磁盘 来 做 一 个 RAID 
0， 这 样 ，RAID 5 的 可 用 数据 空间 为 400GB， 校 验 空 间 为 100GB，RAID 
0 的 可 用 数据 空间 为 300GB。 而 后 ，RAID 5 和 RAID 0 各 自 的 可 用 空间 ， 
又 可 以 根据 上 层 OS 的 需求 ， 再 次 划分 为 更 小 的 逻辑 磁盘 。 这 样 就 将 七 
星 北 斗 阵 灵活 地 运用 了 起 来 ， 经 过 实践 的 检验 ， 这 种 应 用 方法 得 到 了 巨 
大 的 推广 和 成 功 。 





张 老 道 给 划分 逻辑 盘 的 方法 取 名 为 巧 化 神龙 ， 将 同一 个 阵 中 同时 使 
用 多 种 阵 式 的 方法 叫做 神龙 七 变 。 


5.4.3 ”操作 系统 如 何 看 待 逻 辑 人 磁盘 





目前 各 种 RAID 卡 都 可 以 划分 逻辑 盘 ， 远 辑 盘 大 小 任 童 设置。 每 个 
逻辑 盘 对 于 OS 来 说 都 认 成 一 块 单独 的 物理 磁盘 。 这 里 不 要 和 分 区 搞 
温 ， 分 区 是 OS 在 一 块 物理 磁盘 上 做 的 再 次 划分 。 而 RAID 卡 提供 给 OS 
的 ， 任 何 时 候 ， 都 是 一 块 或 者 几 块 逻辑 盘 ， 也 就 是 0S 认 成 的 物理 磁 
盘 。 而 OS 在 这 个 磁盘 上 ， 还 可 以 进行 分 区 、 格 式 化 等 操作 。 


5.4.4 ” ”RAID 控制 嚣 如何 管理 逻辑 侯 檀 





下 面 说 一 下 RAID 卡 对 逻辑 磁盘 。 562 DDF 布局 图 

进行 再 次 划分 的 具体 细节 。 既 然 要 划 

分 ， 就 要 心中 有 数 ， 比 如 某 块 磁盘 的 某 个 区 域 ， 划 分 给 哪个 逻辑 盘 用 ， 
对 应 逻辑 盘 的 LBA 地 址 是 多 少 ， 这 块 磁盘 的 RAID 类 型 是 什么 等 。 而 这 
些 东西 不 像 RAID 映 射 那样 根据 几 个 简单 的 参数 就 能 确定 ， 而 且 对 应 关 
系 是 可 以 随时 变化 的 ， 比 如 扩大 和 缩小 、 移 动 等 。 所 以 有 必要 在 每 块 磁 
盘 上 保留 一 个 区 域 ， 专 门 记 录 这 种 逻辑 盘 划 分 信息 、RAID 类 型 以 及 组 
内 的 其 他 磁盘 信息 等 ， 这 些 信 息 统 称 为 RAID 信 息 。 不 同 厂家 、 不 同 品 
牌 的 产品 实现 起 来 不 一 样 ，SNIA 委 员 会 为 了 统一 RAID 信 息 的 格式 ， 专 
门 定义 了 一 种 叫做 DDF 的 标准 ， 如 图 5-62 所 示 。 


图 5-63 所 示 的 是 微软 和 Veritas 公 司 合作 开发 的 软 RAID 在 磁盘 最 末 
1MB 空 间 创建 的 数据 结构 。 有 了 这 个 记录 ，RAID 模 块 只 要 读 取 同一 个 
RAID 子 系统 中 每 块 盘 上 的 这 个 记录 ， 就 能 够 了 解 RAID 信 息 。 即 使 将 这 
些 磁盘 打 乱 顺序 ， 或 者 拿 到 其 他 支持 这 个 标准 的 控制 器 上 ， 也 照样 能 够 
认 到 所 划分 好 的 逻辑 盘 等 所 有 需要 的 信息 。 








图 5-63 ”Windows 系 统 中 的 动态 磁盘 信息 


RAID 卡 可 以 针对 总 线 上 的 某 几 块 磁 盘 做 一 种 RAID 类 型 ， 然 后 针对 
另外 的 几 块 磁盘 做 另 一 种 RAID 类 型 。 一 种 RAID 类 型 中 包含 的 磁盘 共同 
组 成 一 个 RAID Group， 简 称 RG。 逻 辑 盘 就 是 从 这 个 RG 中 划分 出 来 的 ， 
原则 上 逻辑 盘 不 能 跨 RG 来 划分 ， 就 是 说 不 能 让 一 个 逻辑 盘 的 一 部 分 处 
于 一 个 RG， 另 一 部 分 处 于 另 一 个 RG。 因 为 RG 的 RAID 类 型 不 一 样 ， 其 
性 能 也 就 不 一 样 ， 如 果 同 一 块 届 辑 盘 中 出 现 两 种 性 能 ， 对 上 层 应 用 来 说 


不 是 件 好 事 ， 比 如 速度 可 能 会 忽 快 忽 慢 等 。 


张 真人 推出 了 这 两 门 绝技 之后， 在 江湖 上 引起 了 轩然大波 。 大 家 争 
相 修 陈 ， 并 取得 了 展 好 的 效果 。 一 时 间 ， 江 湖上 几乎 人 人 都 练 了 张 真 人 
这 两 门 功夫 。 而 且 各 大 门派 已 经 将 七 星 北 斗 阵 以 及 张 真人 的 功夫 作为 各 
派 第 子 必 须 营 握 的 基本 功 。 








近 水 楼 合 先 得 月 。 武 当 七 子 当然 已 经 把 功夫 练 到 了 炉火纯青 的 地 
步 。 老 道 非常 欣 怀 。 他 相信 七 星 侠 在 天 之 灵 倘 在 看 到 了 这 阵 式 被 拓展 ， 
一 定 也 会 感到 欣慰 的 。 








5.5” 卷 管 理 层 


老道 创立 这 两 门 功夫 的 兴奋 ， 很 快 束 被 一 个 不 大 不 小 的 问题 给 吹 得 
烟消云散 。 这 个 问题 就 是 一 旦 逻辑 盘 划 分 好 之 后 就 无 法 改变 ， 要 改变 也 
行 ， 上 面 的 数据 束 得 全 部 抹 挥 ， 这 是 让 人 无 法 容忍 的 。 比 如 已 经 做 好 了 
一 个 100GB 的 逻辑 盘 ， 但 是 用 了 两 年 以 后 ， 发 现 数据 越 来 越 多 ， 已 经 盛 
不 下 了 。 但 又 不 能 放 到 别 的 磁盘 ， 因 为 受 上 层 文件 系统 的 限制 ， 一 个 文 
件 不 可 能 跨越 多 个 分 区 来 存放 ， 更 别提 跨越 多 个 磁盘 了。 如 果 有 一 个 文 
件 已 经 超过 了 100GB， 那 么 谁 也 无 力 回 天 ， 只 能 重新 划分 逻辑 盘 。 数 据 
怎么 办 ? 这 问题 遇 不 到 则 已 ， 过 到 了 束 是 死路 一 条 。 江 湖上 已 经 有 不 少 
生意 人 因为 这 个 问题 而 倾家荡产 ， 他 们 无 条 之 余 ， 准 备 联合 起 来 到 武当 
尽 求 张 老道 想 一 个 办 法 ， 以 克服 这 个 难关 ， 好 让 他 们 东山 再 起 。 张 老道 
对 他 们 的 遭遇 深 感 同情 ， 同 时 也 责怪 目 己 当初 踊 忽 了 这 个 问题 。 于 是 他 
当众 许 下 承 诡 : 3 个 月 之 后 ， 来 武当 取 解 决 办 法 。 

















5.5.1 有 了 逻辑 盘 就 万 事 大 吉 了 人 么 ? 


1. 踏破 铁 鞋 无 克 处 一 寻找 更 加 灵活 的 磁盘 卷 管理 方式 





其 实 张 真 人 许 下 3 个 月 的 时 间 ， 他 目 己 也 坚 无 把 握 。 但 是 为 了 平 奶 
众怒 ， 也 只 能 冒险 赌 一 次 了 ! 送 走 众人 之 后 ， 张 老道 束 开 始 天 天 思考 解 
决 这 个 问题 的 办 法 。 他 想 : 到底 怎么 样 才能 让 使 用 者 运用 自如 呢 ?” 如 末 
一 开始 残 给 它 划 分 一 个 100GB 的 逻辑 盘 ， 如 果 数 据 盛 不 下 了 ， 此 时 把 其 
他 磁盘 上 未 使 用 的 空间 挪 一 部 分 到 这 个 多 辑 盘 ， 岂 不 是 就 可 以 了 人 么 ? 





可 以 是 可 以 ， 但 从 RAID 卡 设置 里 增加 或 减少 逻辑 盘 容 量 很 费 功 
夫 。 在 RAID 卡 里 增加 这 种 代码 ， 修 炼 成 本 很 高 ， 而 且 即 使 实现 了 ， 主 





机 也 不 能 立即 感应 到 容量 变化 。 即 使 感应 到 了 ， 也 不 能 立即 变更 。 对 于 
Windows 系 统 来 说 ， 必 须 将 其 创建 为 新 的 分 区 。 想 要 合并 到 现 有 分 区 ， 
必须 用 第 三 方 分 区 表 调 整 工具 在 不 启动 操作 系统 的 情况 下 来 修改 分 区 表 
才 行 。 再 者 ， 其 上 的 文件 系统 不 一 定 会 跟着 扩大 ，NTFS 这 种 文件 系统 
不 能 动态 张 缩 ， 也 必须 在 不 启动 操作 系统 的 条 件 下 用 第 三 方 工具 调整 。 
这 种 方法 对 一 些 要 求 不 间断 服务 的 应 用 服务 器 并 不 适用 。 








老道 想到 这 里 ， 觉 得 至 少 已 经 找到 了 一 种 解决 办 法 ， 虽 然 不 是 很 方 
便 ， 需 要 重启 主机 ， 之 后 再 在 RAID 卡 中 更 改 配置 。 更 改 完毕 后 ， 可 能 
还 要 重启 一 次 ， 人 然后 进入 系统 ， 系 统 才 能 认 出 新 容量 的 磁盘 。 而 OS 就 
算 正确 认 出 了 新 增 的 磁盘 容量 ， 由 于 分 区 表 没 有 改变 ， 新 增 容量 不 属于 
任何 一 个 分 区 ， 还 是 不 能 被 使 用 ， 所 以 还 需要 手动 修改 分 区 表 。 太 复 
杂 、 太 麻烦 了 ， 能 否 找 一 种 方便 快捷 的 方法 呢 ? 











2. 得 来 全 不 费 工夫 一 一 来 源 于 现实 的 刺激 


话说 冬至 这 天 ， 天 上 飘 着 雪花 。 武 当 山 张 灯 结彩 ， 喜 气 洋洋 ! 这 天 
征 张 真人 的 70 大 寿 ! 江湖 各 大 门派 及 各 路 英雄 纷纷 前 来 拜 寿 。 武 当 上 下 
忙 得 是 不 亦 乐 乎 ! 就 说 包 饮 子 吧 ， 一 会 儿 面 不 够 了 去 和 面 ， 一 会 儿 水 不 
够 了 去 挑 水 。 张 真人 是 往来 作 捐 ， 笑 迎 来 宾 。 厨 房 则 加 紧 和 面 ， 由 于 厨 
房 空 间 太 小 ， 所 以 和 好 的 面 被 运往 各 个 分 理 点 处 ， 那 里 有 小 道士 负责 担 
皮 、 包 饺子 。 张 真人 看 着 眼前 这 小 老道 跑 来 跑 去 的 多 少 回 了 ， 就 纳 问 
了 ， 所 以 跟 独 去 看 看 怎么 回 事 。 一 看 才 知 道 ， 弄 了 半天 是 往 各 处 运 面 团 
呢 ! 觉得 插 好 关 的 ， 也 没 当 回 事 。 等 大 家 者 差不多 到 齐 了 ， 共 同 给 老道 
祝 了 寿 ， 然 后 就 上 饺子 了 。 张 老道 看 着 碗 里 一 个 个 的 饺子 ， 再 想 想 刚 才 
那 面团 的 事 ， 心 里 突然 一 动 ! 于 是 当众 宣布 ， 一 个 月 前 目 己 承诺 的 约定 
过 不 了 几 天 就 会 实现 了 ! 众 豪 杰 都 鼓 起 掌 来 ! 


























提示 : ” 张 老道 到 底 想 到 了 什么 呢 ? 原 来 ， 他 想起 了 小 道 包 饮 
子 和 面 的 情形 。 厨 房 和 了 一 大 团 面 ， 下 面 随 用 随 取 。 不 够 了 ， 
制 一 块 抒 进 去 残 行 了 ， 或 者 稀 下 一 块 来 放大 下 次 用 。 这 不 正解 
决 了 一 个 月 前 大 家 所 头疼 的 问题 吗 ? RAID 控 制 副 和 好 了 几 团 
面 〈 逻 辑 盘 ) ， 放 那 由 目 己 看 着 用 ， 哪 不 够 了 就 狂 块 补 上 。 必 
须 实 现 这 样 一 种 像 儿 面团 一 样 灵 活 的 管理 层 ， 才 能 最 终 解决 使 
用 中 出 现 的 问题 。 是 啊 ， 说 得 简单 ， 可 是 具体 要 做 却 不 是 那么 
容易 的 。 


当天 晚上 ， 老 道 睡 觉 的 时 候 就 一 个 劲 地 想 ， 在 RAID 控 制 右 上 狂 
面 ， 以 前 也 分 析 过 了 ， 不 合适 ， 那 么 在 哪里 兽 呢 ?RAID 控 制 器 给 你 和 
了 几 斤 面 ， 你 就 得 收 着 ， 不 要 也 不 行 。 但 是 面 收 着 了 ， 你 可 以 自己 天 
呀 ， 是 啊 ， 自 己 禾 。 那 么 就 是 说 ，RAID 控 制 器 提交 给 OS 的 逻辑 磁盘 。 
应 该 可 以 儿 开 ， 或 者 揉搓 到 一 块 儿 去 ， 可 以 想 怎么 揉搓 就 怎么 揉搓 。 这 
功能 如 果 能 通过 在 操作 系统 上 运行 一 层 软件 来 实现 的 话 ， 不 但 灵活 ， 而 
且 管 理 方便 ! 想到 这 ， 老 道 心 里 有 了 底 。 





第 二 天 ， 老 道 就 让 徒弟 们 按照 他 写 的 口诀 来 实现 他 这 个 想法 ， 大 获 
成 功 ! RAID 控 制 器 是 硬件 底层 实现 RAID， 实 现 逻 辑 盘 ， 所 以 操作 起 来 
不 灵活 。 如 果 在 OS 层 再 把 RAID 控 制 器 提交 上 来 的 逻辑 盘 (OS 会 认 成 不 
折 不 扣 的 物理 磁盘 ) 加 以 组 织 、 再 分 配 ， 就 会 非常 灵活 。 因 为 OS 层 上 
运行 的 都 是 软件 ， 完 全 靠 CPU 来 执行 ， 而 不 用 考虑 太 多 的 细节 。 张 老道 
立即 将 这 种 新 的 掌 法 公布 天 下 ， 称 作 神 仙 鸭 龙 ! 





5.5.2 ”深入 卷 管理 层 


实际 中 ， 有 很 多 基于 这 种 思想 的 产品 ， 这 些 产 品 都 有 一 个 通用 的 名 
称 ， 叫 做 卷 管 理 器 〈Volume Manager，VM) 。 比 如 微软 在 Win2000 中 


引入 的 动态 磁盘 ， 就 是 和 Veritas 公 司 合作 开发 的 一 种 VM， 称 为 

LDM (逻辑 磁盘 管理 ) 。Veritas 自 己 的 产品 Veritas Volume 
Manager (VxVM) 和 广泛 用 于 Linux、AIX、HPUX 系 统 的 

LVM (Logical Volume Manager) ， 以 及 用 于 Sun Solaris 系 统 的 Disk 
Suite， 都 是 基于 这 种 在 OS 层面 ， 将 OS 识别 到 的 物理 磁盘 (可 以 是 真正 

的 物理 磁盘 ， 也 可 以 是 经 过 RAID 卡 虚拟 化 的 逻辑 磁盘 ) 进行 组 合 ， 并 

再 分 配 的 软件 。 它 们 的 实现 方法 大 同 小 异 ， 只 不 过 细节 方面 有 些 差 异 嗣 
训 务 














这 里 需要 重点 讲 一 下 LVM， 因 为 它 的 应 用 非常 普遍 。LVM 开 始 是 
在 Linux 系 统 中 的 一 种 实现 ， 后 来 被 广泛 应 用 到 了 AIX 和 HPUX 等 系统 
上 


ma PV: LVM 将 操作 系统 识别 到 的 物理 磁盘 (或 者 RAID 控 制 器 提交 
的 逻辑 磁盘 ) 改 了 个 叫 法 ， 叫 做 Physical Volume， 即 物理 卷 (一 
块 面团 ) 。 

ma VG: 多 个 PV 可 以 被 逻辑 地 放 到 一 个 VG 中 ， 也 就 是 Volume Group 
卷 组 。VG 是 一 个 虚拟 的 大 存储 空间 ， 逻 辑 上 是 连续 的 ， 尽 管 它 
可 以 由 多 块 PV 组 成 ， 但 是 VG 会 将 所 有 的 PV 首 尾 相 连 ， 组 成 一 个 
逻辑 上 连续 编 址 的 大 存储 池 ， 这 就 是 VG。 

sm PP: 也 就 是 Physical Partition (物理 区 块 )。 它 是 在 逻辑 上 再 将 一 
个 VG 分 割 成 连续 的 小 块 〈 把 一 大 盆 面 狂 成 大 小 相等 的 无 数 块 小 
面团 块 ，。 注 意 ， 是 逻辑 上 的 分 割 ， 而 不 是 物理 上 的 分 割 ， 也 就 
是 说 LVM 会 记录 PP 的 大 小 (由 几 个 户 区 组 成 ) 和 PP 序 和 号 的 偏 
移 。 这 样 就 相当 于 在 VG 这 个 大 池 中 顺序 切割 ， 如 果 设 定 一 个 PP 
大 小 为 4MB， 那 么 这 个 PP 就 会 包含 8192 个 实际 物理 磁盘 上 的 局 
区 。 如 果 PV 是 实际 的 一 块 物理 磁盘 ， 那 么 这 些 扇 区 就 是 连续 


的 。 如 果 PV 本 身 是 已 经 经 过 RAID 控 制 器 虚拟 化 而 成 的 一 个 
LUN， 那 么 这 些 扇 区 很 有 可 能 位 于 若干 条 带 中 ， 也 就 是 说 这 8192 
个 扇 区 物理 上 不 一 定 连 续 。 

LP: PP 可 以 再 次 组 成 LP， 即 Logical Partition 〈 逻 辑 区 块 ) 。 逻 辑 
区 块 是 比较 难 理解 的 ， 一 个 LP 可 以 对 应 一 个 PP， 也 可 以 对 应 多 
个 PP。 前 者 对 应 前 后 没什么 区 别 。 后 者 又 分 两 种 情况 : 一 种 为 多 
个 PP 组 成 一 个 大 LP， 像 RAID 0 一 样 ， 另 一 种 是 一 个 LP 对 应 几 份 
PP， 这 几 份 PP 每 一 份 内 容 都 一 样 ， 类 似 于 RAID 1， 多 个 PP 内 容 
互 为 镜像 ， 然 后 用 一 个 LP 来 代表 它们 ， 往 这 个 LP 写 数据 ， 也 就 
同时 写 入 了 这 个 LP 对 应 的 几 份 PP 中 。 

LV: 若干 LP 再 经 过 连续 组 合 组 成 LV (Logical VoLUNme， 逻 辑 
卷 ) ， 也 就 是 LVM 所 提供 的 最 终 可 用 来 存储 数据 的 单位 。 生 成 
的 逻辑 卷 ， 在 主机 看 来 还 是 和 普通 磁盘 一 样 ， 可 以 对 其 进行 分 
区 、 格 式 化 等 。 





思考 : ”有 人 问 了 ， 一 堆 面 团 揉 来 揉 去 ， 最 终 义 变 成 一 堆 面 团 
了 ， 你 这 是 揉 面 还 是 做 存储 呢 ? 








确实 ， 面 团 最 终 还 是 面团 。 但 是 此 面团 非 役 面 团 。 节 终 形 成 的 这 个 
LV， 它 的 大 小 可 以 随时 变更 ， 也 不 用 重启 OS， 你 想 给 扩 多 大 就 扩 多 
大 ， 前 提 是 面盆 里 面 还 有 被 狂 开 备用 的 PP。 而 且 ， 只 要 盆 里 面 有 PP， 
你 就 可 以 再 创建 一 个 LV， 也 就 是 再 和 一 团 面 ，LV 数 量 足 够 用 的 。 如 宋 
不 增加 卷 管理 这 个 功能 ， 那 么 RAID 卡 提交 上 来 多 少 磁盘 ， 容 量 多 大 就 
征 多 大 ， 不 能 在 OS 层 想 改 就 改 、 为 所 欲 为 。 而 卷 管 理 就 提供 了 这 个 为 
所 欲 为 的 机 会 ， 让 你 随便 和 面团 。 

















LVM 看 起 来 很 复杂 ， 其 实 操作 起 来 很 简单 。 创 建 PV， 将 PV 加 入 
VG， 在 VG 中 再 创建 LY， 然后 格式 化 这 个 LV， 就 可 以 当成 一 块 普通 硬 





盘 使 用 了 。 容 量 不够 了 ， 还 可 以 随便 扩展 ， 岂 不 快 哉 ? LVM 一 个 最 大 
的 好 处 就 是 生成 的 LV 可 以 跨越 RAID 卡 提交 给 OS 的 物理 磁盘 〈 逮 辑 
盘 ) 。 这 是 理所当然 的 ， 因 为 LVM 将 所 有 物理 盘 都 捞 和 到 一 个 大 面盆 
中 了 ， 妆 然 束 可 以 跨越 物理 盘 了 。 


5.5.3 Linux 下 配置 LVM 实 例 


下 面 以 RedHat Enterprise Linux Server 4 Update 5 操作 系统 为 例 ， 给 
大 家 示例 一 下 LVM 的 配置 过 程 。 


(1) 在 操作 系统 安装 过 程 中 ， 选 择 手 动 配置 磁盘 管理 ， 如 图 5-64 
所 示 。 

















图 5-64 ”选择 手动 管理 





(2) 可 以 看 到 ， 这 人 台 机 器 共有 8 块 物理 磁盘 ， 每 块 的 容量 为 1GB， 
如 图 5-65 所 示 。 








图 5-65 ”磁盘 列表 





(3) 首先 ， 需 要 定义 一 个 /boot 分 区 ， 这 个 分 区 是 用 来 启动 基本 操 
作 系 统 内 核 的 ， 所 以 这 块 空间 不 能 参与 LVM。 我 们 选择 从 第 一 块 硬盘 
《sda) 划分 出 20 个 磁道 的 空间 用 来 作为 boot 分 区 。 这 块 空间 也 就 成 了 
sdal 设 备 ， 如 网 5-66 所 示 。 








图 5-66 ”创建 /boot 分 区 


(4) 接 下 来 ， 对 于 sda2、sdb、sdc、sdd、sde、sdf、sdg、sdh 所 有 
这 些 剩 余 的 磁盘 或 者 分 区 ， 束 可 以 将 它们 配置 成 CVM 的 PV《〈 物 理 
卷 ) 。 选 中 每 个 厂 盘 或 者 分 区 ， 单 击 Edit 按 钮 。 在 File System Type 下 拉 


列表 框 中 ， 选 择 physical volume (LVM) 选项 ， 表 示 将 这 个 硬盘 或 者 分 
区 配置 成 LVM 的 PV。PV 可 以 任意 设 定 大 小 ， 只 要 编辑 End Cylinder 文本 
框 中 的 值 即 可 。 剩 余 空 间 可 以 继续 作为 PV 再 次 分 配 。 对 每 个 磁盘 都 进 
行 上 述 操作 ， 如 图 5-67 所 示 。 














图 5-67 ”设置 磁盘 类 型 为 LVM 管 理 状态 





























(5) 操作 完成 后 ， 信 息 栏 中 显示 所 有 倒 盘 和 sda2 分 区 都 已 被 配置 
成 为 PV， 如 图 5-68 所 示 。 








图 5-68 ”磁盘 状态 


(6) 单 击 LVM 按 钮 会 出 现 如 图 5-69 所 示 的 对 话 框 。 这 一 步 就 是 创 
建 VG (Volume Group， 卷 组 ) 的 过 程 。 可 以 将 PV 进行 任意 组 合 ， 组 合 
后 的 PV 就 形成 了 VG。 





图 5-69 ”创建 卷 组 





(7) 这 里 我 们 做 一 个 名 为 “VolGroup00” 的 卷 组 ， 其 包含 sda2 和 sdb1 
两 个 PY。 在 Physical Extent 下 拉 列 表 框 中 ， 可 以 选择 这 个 卷 组 对 应 的 磁 
盘 空间 的 最 小 分 配 单位 〈 在 AIX 的 LVM 中 ， 这 个 最 小 单位 称 为 Physical 
Partition， 即 PP) 。 然 后 单 击 下 方 的 Add 按 钮 ， 从 这 个 大 的 卷 组 空间 中 
再 次 划分 逻辑 卷 ， 即 LV。 下 面 创 建 一 个 大 小 为 1000MB 的 逻辑 卷 
LogVol00， 并 且 用 ext3 文 件 系 统 将 这 个 卷 格式 化 ， 并 挂 载 到 /home 目 录 
下 ， 如 图 5-70 所 示 。 


图 5-70 ”创建 LV 并 挂 载 








(8) 然后 将 VolGroup00 卷 组 中 剩余 的 空间 ， 全 部 分 配给 一 个 新 的 
LV， 邵 LogVol01， 用 ext3 文 件 系 统 格式 化 ， 并 挂 载 到 /tmp 目 录 下 ， 如 图 


5-71 所 示 。 


图 5-71 创建 LV 并 挂 载 








(9) 将 剩余 的 sdc1、sdd1、sdel、sdf1、sdg1、sdh1 这 几 块 PV 全 部 
分 配给 一 个 新 的 卷 组 VolGroup01， 并 且 在 卷 组 中 创建 一 个 逻辑 卷 
LogVol00， 大 小 为 整个 卷 组 的 大 小 ， 用 ext3 文 件 系统 格式 化 ， 并 挂 载 到 / 
目录 下 ， 如 图 5-72 所 示 。 


图 5-72 ”创建 LV 并 挂 载 








(10〉 配置 完成 后 的 状态 如 图 5-73 所 示 。 


图 5-73 ”配置 完成 后 的 状态 





5.5.4“ 卷 管 理 软件 的 实现 


说 到 这 里 ， 别 以 为 LVM 就 只 会 像 疯子 一 样 ， 拿 来 面团 就 探 到 一 
起 ， 玫 来 犹 去 ， 什 么 都 不 管 ， 那 样 岂 不 真 成 了 马 大 哈 了 。 它 是 需要 在 心 
里 暗自 记录 的 ， 比 如 菏 块 物理 盘 的 名 称 和 容量 。 表 面 上 是 和 其 他 物理 稻 
融合 到 一 起 ， 但 还 是 要 记 住 谁 是 谁 ， 从 哪里 到 哪里 属于 这 块 盘 ， 从 哪里 
到 哪里 属于 那 块 盘 ， 地 址 多 少 ， 等 等 。 





这 些 信息 记录 在 磁盘 上 的 某 个 区 域 ， LVM 中 这 个 区 域 叫 做 VGDA。 
LVM 就 是 通过 读 取 每 块 物理 磁盘 上 的 这 个 区 域 来 获取 LVM 的 配置 信 
息 ， 比 如 PP 大 小 、 初 始 偏 移 、PV 的 数量 和 信息 、 排 列 顺序 及 映射 关系 
等 。 LVM 初 始 化 的 时 候 会 读 取 这 些 信息 ， 然 后 在 缓存 中 生成 对 应 的 映 
射 公 式 ， 从 而 完成 LV 的 挂 载 。 挂 载 之 后 ， 就 可 以 接受 IO 了 。 比 如 上 层 
访问 某 个 LV 的 LBA 0xFF 地 址 ， 那 么 LVM 就 需要 通过 缓存 中 的 映射 关系 


判断 这 个 地 址 对 应 到 实际 物理 磁盘 是 哪个 或 哪 几 个 实际 地 址 。 假 设 这 个 
地 址 实际 对 应 了 磁盘 a 的 LBA 0xAA 地 址 ， 那 么 就 会 通过 磁盘 控制 器 驱动 
直接 给 这 个 地 址 发 数据 ， 而 这 个 地 址 被 RAID 控 制 器 收 到 后 ， 可 能 还 要 
做 一 次 转换 。 因 为 OS 层 的 “物理 磁盘 ?可 能 对 应 真正 的 存储 总 线 上 的 多 块 
物理 磁盘 ， 这 个 映射 就 需要 RAID 控 制 器 来 做 了 ， 原 理 都 是 一 样 的 。 





卷 管理 软件 对 待 由 RAID 卡 提交 的 逻辑 盘 (OS 识别 成 物理 磁盘 〉 和 
切切 实 实 的 物理 盘 的 方法 是 一 模 一 样 的。 也 就 是 说 ， 不 管 最 底层 到 底 是 
单 物 理 盘 ， 还 是 由 RAID 控 制 器 提交 的 逻辑 物理 盘 ， 只 要 OS 认 成 它 是 一 
块 物理 磁盘 ， 那 么 卷 管理 器 就 可 以 对 它 进行 卷 管理 。 只 不 过 对 于 RAID 
提交 的 逻辑 盘 ， 最 终 还 是 要 通过 RAID 控 制 器 来 和 最 底层 的 物理 磁盘 打 

道 。 





ey 


Linux 下 的 LVM 甚 至 可 以 对 物理 磁盘 上 的 一 个 分 区 进行 卷 管 理 ， 将 
这 个 分 区 做 成 一 个 PV。 


卷 管理 软件 就 是 运行 在 OS 操 作 系统 磁盘 控制 器 驱动 程序 之 上 的 一 
层 软件 程序 ， 它 的 作用 就 是 实现 RAID 卡 硬件 管理 磁盘 空间 所 实现 不 了 
的 灵活 功能 ， 比 如 随时 扩容 。 


为 什么 卷 管理 软件 就 可 以 随时 在 线 扩容 ， 灵 活性 这 么 强 呢 ?首先 我 
们 要 熟悉 一 个 知识 ， 也 就 是 OS 会 自 带 一 个 卷 管理 软件 层 ， 这 个 卷 管理 
软件 非常 简单 ， 它 只 能 管理 单个 磁盘 ， 而 不 能 将 它们 组 合 虚 拟 成 卷 ， 不 
具有 高 级 卷 管理 软件 的 一 些 灵活 功能 。OS 上 自 带 的 一 些 简单 VM 〈 卷 管 
理 ) 软件 ， 只 会 调用 总 线 张 动 〈 一 种 监视 IO 总 线 Plug ” And Play， 即 
PNP， 即 插 即 用 ) ， 发 现 硬件 之 后 再 挂 接 对 应 这 个 硬件 的 驱动 ， 然 后 碍 
询 出 这 个 硬件 的 信息 ， 其 中 就 包括 容量 ， 所 以 我 们 才 会 在 磁盘 管理 堪 中 
看 到 一 块 块 的 磁盘 设备 。 即 从 底层 向 上 依次 是 物理 磁盘 、 厂 盘 控制 髓 、 








IO 总 线 、 总 线 驱 动 、 磁 盘 控 制 器 驱动 、 卷 管理 软件 程序 、OS 磁 盘 管 理 
右 中 看 见 的 磁盘 设备 。 





而 高 级 卷 管理 软件 是 将 原本 OS 自 带 的 简陋 的 卷 管理 功能 进行 了 扩 
展 ， 比 如 可 以 对 多 个 磁盘 进行 组 合 、 再 分 等 。 不 管 是 OS 单一 VM 还 是 高 
级 VM， 磁 盘 在 VM 这 一 层 处 理 之 后 ， 应 该 称 为 卷 比 较 恰 当 ， 驶 算 卷 只 
由 一 块 磁盘 抽象 而 成 ， 也 不 应 该 再 称 作 和 磁盘 了 。 因 为 磁盘 这 个 概念 只 有 
对 磁盘 控制 器 来 说 才 有 意义 。 








磁盘 控制 器 看 待 磁盘 ， 真 的 就 是 由 盘 片 和 磁头 组 成 。 而 卷 管理 软件 
看 待 磁盘 ， 会 认为 它 是 一 个 线性 存储 的 大 仓库 ， 而 不 管 这 个 仓库 用 的 是 
什么 存储 方式 ， 仓 库 每 个 房间 都 有 一 个 地 址 (LBA 逻辑 块 地 址 ， ，VM 
必须 知道 这 些 地 址 一 共有 多 少 。 它 让 库 管 员 (磁盘 控制 器 驱动 软件 ) 从 
某 一 段 地 址 (LBA 地 址 段 ， 存 取 某 些 货 物 (数据 ， 那 么 库 管 员 就 得 六 
即 操控 他 的 机 器 (磁盘 控制 器 来 到 各 个 房间 存 取 货物 (数据 ) 。 这 就 
是 VM 的 作用 。 





在 底层 磁盘 扩容 之 后 ， 磁 盘 控 制 器 驱动 程序 会 和 VM 打 个 招呼 : 我 
已 经 增 大 了 多 少 容量 了 ， 你 看 着 办 吧 。 卷 说 : “好 ， 你 不 用 管 了 ， 专 心 
在 那 干 活 吧 ， 我 告诉 你 读 写 哪个 LBA 地 址 的 数据 你 就 照 我 的 话 办 。” 这 
样 之 后 ，VM 束 会 直接 将 等 等 扩容 的 卷 的 容量 立即 扩大 ， 放 入 池 中 备 
用 ， 对 上 层 应 用 没有 丝毫 影响 。 所 以 VM 可 以 屏蔽 底层 的 变化 。 








至 于 扩容 和 收 彤 好 辑 卷 ， 对 VM 来 说 是 小 事 一 桩 。 但 是 对 于 其 上 的 
文件 系统 来 说 ， 处 理 起 来 就 复 汪 了。 所 以 扩大 和 收缩 卷 ， 需 要 其 上 的 文 
件 系 统 来 配合 ， 才 能 不 影响 应 用 系统 。 


5.5.5 ”低级 VM 和 高 级 VM 


1. MBR 和 VGDA 











分 区 管理 可 以 看 作 是 一 种 最 简单 的 卷 管理 方式 ， 筷 比 LVM 等 要 低 
级 。 分 区 残 是 将 一 块 磁盘 抽象 成 一 个 仓库 ， 然 后 将 这 个 仓库 划分 成 具体 
的 一 库 区 、 二 库 区 等 。 因 为 一 个 仓库 太 大 的 话 ， 对 用 户 来 说 很 不 方便 。 
比如 一 块 100GB 的 磁盘 ， 如 果 只 分 一 个 区 ， 就 显得 很 不 便于 管理 。 有 两 
种 方法 解决 这 个 问题 : 








(1) 可 以 用 低级 VM 管 理 软件 ， 比 如 Windows 自 市 的 磁盘 管理 器 ， 
对 这 个 磁盘 进行 分 区 : 
(2) 用 高 级 VM 管 理 软件 ， 将 这 个 盘 做 成 卷 ， 然 后 灵活 地 进行 划分 
逻辑 卷 。 
这 两 种 方法 可 以 达到 将 一 个 仓库 逻辑 划分 成 多 个 仓库 的 效果 。 所 不 
同 的 是 分 区 管理 这 种 低级 卷 管理 方式 ， 只 能 针对 单个 磁盘 进行 再 划分 ， 
而 不 能 将 磁盘 合并 再 划分 。 





思考 :对 于 低级 VM 的 分 区 管理 来 说 ， 必 须 有 一 个 东西 来 记录 
分 区 信息 ， 如 第 一 仓库 区 是 整个 仓库 的 哪些 房间 ， 从 第 几 个 房 
间 开 始 到 第 几 个 结束 是 第 二 仓库 区 等 这 些 信息 。 这 样 ， 每 次 
OS 局 动 的 时 候 ，VM 通 过 读 取 这 些 信息 就 可 以 判断 这 个 仓库 一 
共有 几 个 逻辑 区 域 ， 从 而 在 “我 的 电脑 * 中 显示 出 逻辑 磁盘 列 
表 。 那 么 怎么 保存 这 个 分 区 信息 呢 ? 


室 无 疑问 ， 它 不 能 保存 在 内 存 里 ， 更 不 能 保存 在 CPU 里 ， 它 只 能 保 
存在 磁盘 上 。 分 区 信息 被 保存 在 分 区 表 中 ， 分 区 表 位 于 磁盘 0 磁道 0 磁头 
的 0 号 扇 区 上 ， 也 就 是 LCBA1 这 个 地 址 的 扇 区 上 。 这 个 扇 区 又 叫做 
MBR， 即 主 引 导 记 录 。MBR 忆 区 不 仅仅 保存 分 区 表 ， 它 还 保存 了 BIOS 





跳 转 时 所 需要 执行 的 第 一 句 指令 代码 ， 所 以 才 叫 做 主 引导 记录 。 


BIOS 代 码 都 是 固定 的 ， 它 每 次 必定 要 执行 LBA1 扇 区 上 的 代码 。 如 
果 修 改 BIOS， 让 它 执 行 LBA100 局 区 的 代码 ， 也 可 以 ， 完 全 可 以 。 但 是 
现在 的 BIOS 都 是 执行 LBA1 处 的 代码 ， 没 人 去 改变 。 而 新 出 的 规范 EFI 
将 要 取代 BIOS， 并 且 在 安 腾 机 上 已 经 使 用 了 ， 一 些 苹果 笔记 本 也 开始 
使 用 EFI 作 为 BIOS 的 替代 。 在 EFI 中 可 以 灵活 定制 这 些 选 项 ， 比 如 从 哪 
里 启动 ， 不 仅 可 以 选择 设备 ， 还 可 以 选择 设备 上 的 具体 地 址 。 


MBR 中 除了 包含 局 动 指令 代码 ， 还 包含 分 区 表 。 通 常 启动 时 ， 程 
序 都 会 跳 转 到 活动 分 区 去 读 取代 码 做 OS 的 启动， 所 以 必须 有 一 个 活动 
分 区 。 这 在 分 区 工具 中 可 以 设置 。 


高 级 卷 管理 软件 在 划分 了 逻辑 卷 之 后 ， 一 定 要 记录 逻辑 卷 是 怎么 划 
分 的 ， 比 如 LVM 就 需要 记录 PV 的 数量 和 信息 、PP 的 大 小 、 起 始 位 置 及 
LV 的 数量 和 信息 等 。 这 些 信 息 都 要 保存 在 磁盘 上 ， 上 所 以 也 要 有 一 个 数 
据 结构 来 存储 。 这 个 数据 结构 ，LVM 使 用 VGDA (Volume Group 
Descriptor Area) 。 每 次 局 动 系统 ，VM 了 就 是 通过 读 取 这 些 数 据 来 判断 目 
前 的 卷 情况 并 挂 载 LV 的 。VGDA 的 大 致 结构 示意 图 如 图 5-74 所 示 。 





图 5-74 VGDA 示 意 医 


不 管 是 MBR 中 的 分 区 表 ， 还 是 VGDA9 数 据 结构 ， 一 旦 这 些 信息 丢 
失 ， 巡 辑 卷 信息 就 会 于 失 ， 整 个 系统 的 数据 就 不 能 被 访问 。 





低级 VM 在 给 磁盘 分 区 的 时 候 ， 会 更 新 MBR 中 的 分 区 表 ; 高 级 VM 
做 逻辑 卷 的 时 候 ， 同 样 也 会 更 新 VGDA 中 的 数据 。 其 实 高 级 VM 初始 化 
一 组 新 磁盘 的 时 候 ， 并 没有 抛弃 MBR。 因 为 它们 除了 写 入 VGDA 信 息 之 





外 ， 也 要 更 新 MBR 忆 区 中 的 分 区 表 ， 将 用 于 局 动 基 本 操作 系统 的 代码 
单独 存放 到 一 个 小 分 区 中 ， 并 标明 分 区 类 型 为 bootable 类 型 ， 证 明 这 个 
分 区 是 用 于 在 卷 管理 模 英 还 没有 加 载 之 前 司 动 操作 系统 的 。 并 将 磁盘 所 
有 剩余 容量 划分 到 一 个 分 区 中 ， 并 标明 这 个 分 区 的 类 型 ， 如 AIX 类 型 。 





在 安 闭 Linux 的 时 候 ， 必 须 单独 划分 一 个 /boot 分 区 ， 这 个 分 区 就 是 
用 于 启动 基本 操作 系统 用 的 ，100MB 大 小 足 侨 。 启 动 操 作 系 统 所 必需 的 
代码 都 放 在 这 个 分 区 。 同 样 AIX 系 统 也 要 保留 一 个 分 区 用 来 启动 最 基本 
的 操作 系统 代码 。 这 也 是 AIX 在 进行 了 Mirrorvg 镜 像 操 作 之 后 ， 需 要 执 
行 BOSboot 命 令 来 号 入 boot 分 区 的 内 容 的 原因 ， 因 为 boot 分 区 没有 参与 
VM 管 理 。 这 个 启动 分 区 是 不 能 做 到 VM 中 的 ， 因 为 VM 代 码 不 是 在 BIOS 
将 控制 交 给 OS 的 时 候 一 开始 就 执行 的 。 





总 之 ， 高 级 VM 没有 抛弃 MBR 分 区 的 解决 方案 ， 而 是 在 MBR 綦 础 
上 ， 又 增加 了 类 似 VGDA 这 种 更 加 灵活 的 数据 结构 来 动态 管理 磁盘 。 





2，RAID 功 能 


高 级 VM 软 件 一 般 均 带 有 软 RAID 功 能 ， 可 以 实现 逻辑 卷 之 间 的 镜 
像 。 更 有 甚 者 ， 有 些 VM 甚 至 实现 了 类 似 RAID 0 的 条 带 化 。 在 卷 的 级 别 
条 带 化 ， 达 到 在 物理 盘 级 别 条 带 化 同样 的 目的 。 但 是 如 果 磁 盘 已 经 被 硬 
件 RAID 控 制 器 条 带 化 过 了 ， 并 且 这 些 LUN 是 在 一 个 RAID Group 中 ， 那 
么 VM 再 来 条 带 化 一 下 子 不 但 没有 必要 ， 而 且 可 能 二 次 条 带 化 会 将 效果 
抵消 。 














Windows 的 动态 人 磁盘 VM 还 可 以 以 纯 软 件 方式 实现 RAID 5， 所 有 计 
算 都 靠 CPU， 所 以 也 就 注定 了 它 比 硬件 RAID 更 灵活 ， 但 在 高 系统 负载 
的 情况 下 ， 它 相 比 硬件 RAID 来 说 速度 和 性 能 稍 差 。 


5.5.6 VxVM 卷 管理 软件 配置 简介 





VXVM 是 Veritas 公 司 开 发 的 一 个 高 级 卷 管理 软 件 ， 文 持 RAID 0、 
RAID 1、RAID 01 和 RAID 5 四 种 软 RAID 模 式 ， 支 持 动 态 扩大 和 缩小 卷 


= 
合 量 。 





下 面 的 例子 是 在 一 个 UNIX 系 统 中 对 4 块 磁盘 做 卷 管理 的 案例 。 所 有 
命令 均 在 UNIX 的 Shell 下 执行 。 


1. 创建 磁盘 组 





磁盘 组 束 是 将 所 有 磁盘 作为 一 个 大 的 资源 池 ， 卷 将 在 这 个 池 中 产 


首先 ， 初 始 化 硬盘 。 


m VXdisksetup —i disk1 
m Vvxdisksetup —i disk2 
sm VXdisksetup —i disk3 
m Vvxdisksetup —i disk4 


然后 创建 一 个 名 为 “DataDG” 的 磁盘 组 ， 该 磁盘 组 包含 了 disk1、 
disk2、disk3 和 disk4 四 个 磁盘 。 


m Vvxdg init DataDG diskl disk2 disk3 disk4 
除了 这 种 方法 ， 用 户 还 可 以 用 以 下 方法 来 创建 磁盘 组 。 


ma Vxdg init DataDG DataDG01 二 diskl1 (创建 一 个 只 包含 disk1 的 磁盘 
组 ) 


m vxdg -g DataDG adddisk DataDG02 王 disk2〈 将 disk2 加 入 到 该 磁盘 
组 ) 

mn Vxdg -g DataDG adddisk DataDG03 二 disk3 (将 disk3 加 入 到 该 磁盘 
组 ) 

mn Vxdg -g DataDG adddisk DataDG03 二 disk4 (将 disk4 加 入 到 该 磁盘 
组 ) 








如 果 用 户 在 所 需 磁 副 空间 不 足 ， 需 要 扩容 的 时 候 ， 利 用 添加 磁盘 到 
磁盘 组 的 方法 ， 就 可 以 在 不 破坏 现 有 环境 的 情况 下 扩大 系统 的 容量 。 


2. 创建 卷 





创建 卷 必须 指明 在 哪个 磁盘 组 下 面 创建 ， 最 常用 的 方法 如 下 : 
m VXassist —g DataDG make DataVolA 5g 


该 命令 将 在 DataDG 磁 盘 组 上 创建 名 为 <DataVolA” 的 卷 ， 卷 的 大 小 
是 5GB。 


如 果 用 户 希 望 该 卷 只 创建 在 disk1 和 disk2 上 面 ， 不 占用 disk3 和 disk4 
的 空间 ， 那 么 可 以 执行 下 列 命 令 。 


m VXxassist —g DataDG make DataVolA 5g diskl disk2 
创建 一 个 5GB 大 小 的 条 带 郑 CRAID 0) 。 
m VXxassist —g DataDG make DataVolB 5g layout= stripe 


这 样 就 在 DataDG 和 磁盘 组 上 面 建 立 了 一 个 名 为 "DataVolB” 的 5GB 大 小 
的 条 带 卷 。 


提示 : ”4 块 物 理 磁 盘 中 ， 只 有 5GB 的 空间 是 条 带 化 的 ， 剩 余 的 
空间 还 是 第 规 的 磁盘 空间 。 为 什么 呢 ? 条 带 化 RAID 0 不 是 需要 
至 少 两 块 物理 硬盘 么 ?这 就 是 卷 管理 软件 的 优越 性 了 。 我 们 上 
文 提 过 ， 卷 管理 软件 将 物理 磁盘 划分 为 PP 和 LV， 所 以 有 了 更 

加 细 粒 度 的 存储 单位 ， 条 带 化 可 以 在 这 些 LV 之 间 进 行 ， 而 其 

他 LV 不 受 影响 。 


创建 RAID 5 格式 的 卷 。 
m VXxassist —g DataDG make DataVolC 5g layout 王 RAID 5 


注意 : ” RAID 5 至 少 需要 3 块 盘 ， 人 否则 不 能 成 功 。 因 为 两 块 盘 的 
RAID 5， 还 不 如 做 RAID 1。 但 是 3 块 盘 的 RAID 5 不 能 获得 并 
发 IO 性 能 。 


创建 镜像 卷 (RAID 1) 。 

m VXassist —g DataDG make DataVolD 5g layout= mirror 

创建 RAID 10 卷 。 

mn vxdg init RAID 10dg disk1l disk2 disk3 disk4 

创建 磁盘 组 

m Vvxassist—g RAID 10dg RAID lOvol 5g layout=mirror-stripe 
创建 RAID 01 卷 。 


mn vxdg init RAIDOldg diskl disk2 disk3 disk4 


创建 磁盘 组 。 
m Vvxassist—g RAID 01dg RAIDOlvol 5g layout= stripe-mirror 
3. 创建 文件 系统 并 使 用 


sm mkfs—F vxfs /dev/vx/rdsk/DataDG/DataVolA 
sm mount—F vxfs /dev/vx/dsk/DataDG/DataVolA /mnt 


以 上 例子 将 卷 DataVolA 格 式 化 成 VxFS (Veritas 公 司 的 文件 系统 ) 
格式 ， 然 后 挂 载 于 /mnt 目 录 下 ， 执 行 命令 cd /mnt 之 后 ， 就 可 以 读 写 这 个 
卷 的 内 容 了 。 


4. 动态 扩大 和 缩小 郑 

将 卷 空间 增加 到 10GB。 

m VXxassist -g DataDG growto DataVolA 10G 

更 改 之 后 ， 卷 的 容量 将 会 变 成 10GB。 或 者 用 vxresize 命 令 。 
sm Vxresize -g DataDG DatavolA 10G 

将 卷 容 量 增加 10GB。 

m VXassist -g DataDG growby DataVolA 10G 

或 者 用 vxresize 命 令 : 


mn Vxresize -g DataDG DatavolA 十 10G 





这 样 ， 更 新 之 后 卷 的 容量 将 在 原来 的 基础 上 增加 10GB 大 小 。 


5. 文件 系统 动态 扩容 





卷 扩容 之 后 ， 只 是 在 卷 的 末尾 增加 了 一 块 多 余 空间 。 这 块 空间 如 果 
没有 文件 系统 的 管理 就 无 法 存放 文件 ， 所 以 必须 让 文件 系统 将 这 块 多 余 
的 空间 利用 起 来 。 


sm fsadm -F vxfs -b 10240000 一 dev/vx/rdsk/DataDG/DataVolA /mnt 
6. 文件 系统 缩小 


如 宁 决 定 将 东 个 卷 缩小 以 省 出 更 多 空间 ， 则 在 缩小 卷 空 间 之 前 ， 必 
须 缩小 文件 系统 的 空间 。 也 就 是 说 ， 被 裁 挥 的 苍 空 间 上 存放 的 数据 ， 需 
要 转移 到 卷 剩余 的 空间 上 存放 ， 所 以 剩余 空间 必须 足够 ， 以 便 容 纳 极 裁 
掉 空 间 中 的 数据 。 


sm fsadm -F vxfs -b 5120000 —r dev/vx/rdsk/DataDG/DataVolA /mnt 


以 上 命令 将 这 个 卷 上 的 文件 系统 缩小 至 5GB 大 小 。 剩 余 的 5GB 没 有 
数据 ， 可 以 被 裁 筋 描 。 


7. 卷 容 量 缩小 
在 缩小 了 文件 系统 之 后 ， 卷 容量 方 可 缩小 。 


m VXassist -g DataDG shrinkto DataVolA 5G 
m Vvxresize -g DataDG DataVolA 5G 


上 面 的 两 个 命令 均 可 以 使 DataVolA 卷 的 容量 变 为 5GB。 


m Vxassist -g DataDG shrinkby DataVolA 5G 
sm Vxresize -g DataDG DataVolA -5G 





上 面 的 两 个 命令 均 可 以 使 DataVolA 卷 的 容量 在 原来 的 基础 上 缩减 
5GB。 


8 从 磁盘 组 中 移 除 磁 盘 


右 想 从 磁盘 组 中 移 除 一 块 或 者 几 块 物理 磁盘 ， 则 必须 先 将 竺 移 除 物 
理 磁盘 上 的 数据 转移 到 磁盘 组 中 的 其 他 物理 磁盘 的 剩余 空间 中 ， 这 个 动 
作 通 过 下 面 的 命令 完成 。 


sm VXevac -g DataDG DataDG04 DataDG03 


上 面 的 命令 将 disk4 中 的 数据 转移 到 disk3 上 。 除 了 容量 改变 之 外 ， 
不 会 影响 卷 的 其 他 信息 。 


mn vxdg -g DataDG rmdisk disk4 


上 面 的 命令 将 已 经 没有 数据 的 disk4 物 理 磁盘 从 磁盘 组 DataDG 中 移 
除 ( 远 辑 移 除 )。 


nm Vvxdiskunsetup -C Disk4 


上 面 的 命令 将 disk4 物 理 磁盘 从 整个 VxVM 管 理 模块 中 注销 。 


5.6 大话 文件 系统 
5.6.1 成 何 体 统一 一 没有 规矩 的 仓库 





话说 这 一 天 ， 老 道 几 来 无 事 ， 在 后 山 汐 达 。 他 走 到 了 武当 的 粮 库 门 
口 ， 发 现 这 里 墙 了 一 大 帮 人 。 老 道上 前 一 问 ， 原 来 这 些 人 都 是 各 个 院 来 
领取 粮食 的 。 只 见 他 们 一 拥 而 上 ， 进 入 仓库 就 各 目 找 目 己 的 房间 去 搬 粮 
食 。 老 道 一 看 ， 怎 么 这 么 乱 呢 ? 就 不 能 有 个 顺序 么 ? 











他 回 其 中 一 个 小 道 打听 了 一 下 ， 这 才 知 道 ， 造 成 这 种 乱七八糟 进入 
粮 库 搬 粮 食 局 面 的 原因 ， 是 因为 当初 没有 好 好 规划 仓库 。 上 个 月 ， 各 个 
院 从 山下 各 上 自 运 了 粮食 上 来 ， 当 时 的 政策 是 大 家 各 目 进入 仓库 ， 目 己 找 
房间 放 上 自己 的 粮食 ， 目 己 找 了 哪些 房间 放 粮 食 ， 目 己 记 住 了 。 到 取 粮 食 
的 时 候 ， 大 家 根据 目 己 记录 的 房间 来 进入 取 粮 。 这 个 政策 看 似 没什么 可 
非议 的 ， 实 则 不 然 。 如 今 山 下 粮食 供应 紧张 ， 造 成 大 家 各 顾 各 的 ， 没 有 
顺序 ， 记 能 不 乱 ? 老道 进入 粮仓 一 看 ， 眼 前 一 片 狠 夭 ! 土豆 、 西 红 柿 酒 
落得 满 地 都 是 。 这 间 房 放 这 样 ， 那 间 房 放 那 样 ， 就 不 能 顺序 地 堆放 粮食 
流 菜 ? 成 何 体 统 ! ! 




















提示 : ”在 早期 的 计算 机 系统 中 ， 每 个 程序 都 必须 自己 管理 磁 
盘 ， 在 磁盘 中 放 自 己 的 数据 ， 程 序 需 要 直接 和 磁盘 控制 器 打 交 
道 。 有 多 少 个 程序 要 利用 磁盘 ， 就 有 多 少 个 和 磁盘 交互 的 驱动 
固有 








老道 播 了 摇头 ， 得 想 个 办 法 彻 撒 解决 这 个 问题 。 老 道 回 到 了 书房 ， 
财 目 思索 。 首 先 大 家 不 能 都 墙 在 门口 ， 那 么 必须 让 他 们 排 起 队 来 。 其 
次 ， 每 个 人 各 顾 各 ， 上 自己 记录 上 自己 用 了 哪 间 房子 ， 一 个 是 浪费 ， 力 一 个 

















古 容 易 造 成 冲突 。 一 旦 某 个 人 记 错 了 ， 就 会 影响 其 他 人 。 那 么 就 应 该 只 
让 一 个 人 记录 所 有 人 的 信息 ， 他 自己 不 会 和 自己 冲突 。 同 样 这 个 人 也 要 
充当 一 个 门卫 的 作用 ， 接 竺 来 取 粮 或 者 送 粮 的 人 ， 让 他 们 按 一 定 的 顺序 
来 运作 。 














最 终 决定 就 应 该 是 这 样 的 ， 找 一 个 人 ， 这 个 人 的 职责 就 是 接待 来 取 
粮 或 者 送 粮 的 人 ， 把 要 取 的 或 者 要 送 的 粮食 的 名 称 和 数量 等 信息 先 登 记 
在 这 个 人 的 一 个 本 子 上 ， 然 后 由 这 个 人 来 合理 地 选择 仓库 中 的 房间 ， 存 
放 或 提取 登记 在 案 的 粮食 ， 而 且 提取 或 放 入 粮食 之 后 要 将 本 子 上 的 记录 
更 新 ， 以 便 下 次 备查 。 咽 ， 这 么 做 就 好 多 了 ， 哈 哈哈 哈 ! 这 天 晚上 的 北 
斗 七 星 ， 光 芒 格 外 耀眼 。 





5.6.2” 营 眼 识 人 一 一 交 给 下 一 代 去 设计 





第 二 天 ， 老 道 杀 自 挑 选 了 一 位 才思 敏捷、 内 向 稳重 、 善 于 思考 的 道 
士 来 担任 这 个 重要 的 角色 。 让 他 和 库 管 员 一 起 完成 管理 粮 库 的 工作 ， 给 
他 起 了 一 个 职称 ， 叫 做 理 货 员 。 并 且 将 自己 的 想法 告诉 了 这 位 道士 ， 让 
他 当晚 就 考虑 出 一 套 符合 这 个 思想 的 方法 ， 还 可 以 做 出 改进 意见 。 





束 这 村 7 尺 过 了 一 障 。 第 三 到 x 这 位 道 直人 ET 二 大 时 张 老 过 
就 在 暗中 观察 。 这 时 候 ， 一 个 送 粮食 的 人 来 了 ， 他 带 了 1024 斤 土豆 和 
512 斤 和 白菜。 这 人 还 是 按 老 习 惯 ， 上 来 就 往 仓 库 间 。 小 道士 截 住 了 
他 :“ 道 长 且慢 ! 请 问 您 送 的 是 什么 蔬菜 ?” 那 人 道 :“ 土 豆 和 白菜 ! ?小 
道士 又 道 :“ 士 豆 多 少 斤 ? ” 答 日 :“ 士 豆 1024 斤 。”( 上 面 这 个 过 程 就 是 
应 用 程序 和 FS 的 API 交 互 的 过 程 ) 。 小 道士 笑 道 :“ 道 长 尽 可 放心 将 土豆 
交 于 我 ， 我 自 当 为 您 找 房间 存放 。?” 然 后 小 道士 到 仓库 中 找 了 两 个 空房 
间 ， 每 个 房间 放 了 512 斤 土豆 。 并 在 本 子 上 记录 :“ 土 豆 1024 斤 房间 1 一 
2。” 接 着 他 就 命令 库 管 员 来 搬运 货物 到 相应 的 房间 。 

















道士 给 每 个 库 区 都 预备 了 一 个 记录 本 。 小 道士 不 关心 具体 房间 到 底 
在 仓库 哪里 ， 怎 么 走 才能 达到 ， 这 些 事情 统统 由 库 管 员 来 协调 。 小 道士 
同样 也 不 关心 来 送 货物 的 人 到 底 送 的 是 什么 货物 。 如 果 送 粮 的 人 告诉 
他 ， 请 给 我 存放 rubbish ”1000 斤 ， 道 士 眼 都 不 肯 照 样 给 他 存放 。 一 旦 仓 
库 的 房间 都 满 了 ， 小 道 长 再 次 命令 库 管 员 搬运 货物 的 时 候 ， 库 管 员 就 会 
告诉 他 ， 己 经 没有 房间 了 。 那 么 道 长 就 告诉 来 存放 货物 的 人 :“ 对 不 
起 ， 空 间 不 足 。” 





用 同样 的 方法 ， 小 道士 将 那 人 的 白 末 ， 也 放 到 了 一 间 房 中 ， 记 录 
下 : “日 瑟 512 帮 房间 3”。 然 后 同 那 人 说 到 : “这 位 道 长 ， 您 下 次 来 取 的 
时 候 ， 直 接 向 我 说 要 某 厨 房 存放 的 土豆 多 少 斤 就 可 以 了 ， 我 会 帮 您 找到 
并 取出 。” 那 人 非常 满意 地 离 去 了。 接着 又 有 很 多 人 也 来 送 取 冬 瓜 、 南 
瓜 、 西 瓜 、 大 米 、 面 粉 等 粮食 葡 染 ， 小 道士 一 一 对 应 ， 有 条 有 理 。 小 着 
士 也 专门 给 自己 在 每 个 库 区 中 预 留 了 儿 间 房 ， 用 于 存放 他 那 一 本 本 厚 厚 
的 记录 。 老 道 一 旁 看 了 ， 频 频 点 涉 ,，“ 嗯 ， 前 途 无 量 ， 前 途 无 量 啊 ， 啊 


哈哈 哈哈 哈 ! ! 1 ” 




















过 了 几 天 ， 张 真人 又 来 探查 。 此 时 只 见 有 个 人 一 下 送 来 10000 斤 大 
米 。 小 道 长 开始 只 是 表示 吃惊 ， 并 没有 多 想 ， 仍 旧 按 照 老 办 法 ， 记 
录 : “大 米 10000 厅 ， 房 间 4 一 4096”。 接 着 又 来 了 一 位 要 存放 65535 斤 小 
麦 的 。 这 下 可 苦 了 小 道 圭 了， 把 他 累 得 够 哈 。 随 着 全 国 粮 食 大 丰收 ， 存 
粮 数 量 动 办 上 万 厂 。 这 让 小 道士 苦 不 堪 言 ， 他 决定 思考 一 种 解决 方法 。 
第 二 天 ， 小 道 长 将 每 8 个 房间 划分 为 一 个 逻辑 房间 ， 称 作 “ 雍 ”"。 第 一 簇 
对 应 房间 1、2、3、4、5、6、7、8， 第 二 艇 对 应 房间 9、10、11、12、 
13、14、15、16， 依 此 类 推 。 这 样 道 士 记 录 的 数字 量 就 是 原来 的 八 分 之 
一 了 。 比 如 4000 厂 粮食 ， 只 需 记 录 “ 艇 1” 就 可 以 了 。 老 道 心 中 暗 
想 ,，“ 咽 ， 不 错 ， 我 没 看 错 人 ! ”这 一 年 ， 因 为 大 丰收 ， 粮 食 降价 了 。 农 














民 丰 产 不 丰收 ， 很 多 农民 打算 第 二 年 不 种 粮 了 ， 改 做 其 他 小 生意 。 


5.6.3 ”无 也 不 入 不 浪费 一 点 空间 





第 二 年 ， 果 然 不 出 张 老道 所 料 ， 全 国 粮 食 大 减产 ， 价 格 飞 涨 ， 全 面 
进入 恐 怪 阶段 。 张 真人 葵 间 济世 ， 开 仓 放 粮 ， 平 居 物 价 。 这 一 举动 受到 
了 老百姓 的 称赞 和 感激 ， 但 也 招致 了 一 小 部 分 奸商 的 忌 恨 。 


放 粮 消息 宣布 之 后 ， 山 下 老百姓 都 排队 来 武当 买 粮 。 这 可 忙 坏 了 理 
货 员 道 土 ， 连 续 几 天 没 休 筷 ， 给 老百姓 取 粮 食 。 一 个 月 之 后 ， 武 当 粮 库 
存粮 已 经 所 剩 无 几 ， 张 老道 和 众 院 道士 每 天 省 吃 俭 用 ， 为 的 是 给 老百姓 
多 留 点 存粮 。 








大 八 惰 的 一 年 ， 终 于 效 过 去 了 。 农 民 一 看 粮食 价格 那么 高 ， 第 三 年 
又 都 准备 种 粮 了。 不 出 意料 ， 这 一 年 粮食 又 得 丰收 ! 张 老道 提前 考虑 他 
的 粮 库 在 这 一 年 的 使 用 问题 了 ， 他 叫 来 理 货 员 道 士 ， 让 他 回去 考虑 一 个 
问题 : 经 过 了 去 年 的 折腾 ， 仓 库 中 的 存货 是 零 零 散 散 ， 乱 七 八 糟 ， 为 了 
准备 这 一 年 大 量 粮食 涌 入 仓库 ， 必 须 解决 这 个 问题 ， 让 他 回去 考虑 解决 
办 法 。 其 实 张 老道 时 就 在 心里 盘算 出 了 解决 办 法 了 。 











第 二 天 ， 理 货 员 趁 人 少 的 时 候 ， 就 命令 库 管 员 : “请 帮 有 我 把 房间 
XXXX 的 货物 移动 到 房间 XXXX 处 ， 请 帮 有 我 把 房间 XXX 的 货物 移动 到 房 
间 XXX 处 ...， a 





这 可 畦 坏 了 库 管 员 。 但 是 经 过 几 个 时 辰 的 整理 之 后 ， 仓 库 里 的 货 
重新 变 得 连续 ， 井 井 有 条 。 老 道 称赞 说 :“ 不 错 ! 继续 努力 ! ” 


这 天 晚上 ， 小 道 长 也 没有 内 着 ， 他 继续 思考 ， 今 天 是 有 时 间 整 理 货 
物 ， 如 果 一 旦 遇 到 忙 的 时 候 ， 没 有 时 间 整 理 货 物 ， 那 麻烦 就 大 了 ， 得 想 





一 种 一 荔 永 逸 的 办 法 。 有 些 人 来 送 完 粮 食 之 后 ， 第 二 天 束 来 取 了 ， 这 个 
真是 头疼 了 。 因 为 我 都 按照 顺序 将 每 个 人 的 粮食 连续 存放 到 各 个 禾 中 ， 
他 一 下 取 走 了 ， 对 应 的 艇 就 空 了 。 如 果 再 有 人 来 ， 他 带 的 货物 数量 如 果 
这 个 空 禾 能 存 下 还 好 ， 可 以 接着 用 。 如 果 存 不 下 呢 ? 还 得 找 新 的 连续 空 
簇 来 存放 。 如 果 这 种 情况 出 现 太 多 ， 那 么 整个 仓库 就 是 干净 百 孔 ， 大 的 
放 不 下 ， 小 的 放下 了 又 浪费 空间 .…… 真 头疼 。 他 冥 思 苦 想 ， 最 后 终于 想 
出 一 个 办 法 。 





























一 时 仓库 还 没有 开门 的 时 候 ， 小 道 长 就 来 了 ， 他 把 所 有 记录 本 都 拿 
了 出 来 ， 进 行 修改 。 他 原本 对 每 个 来 送 货 的 人 ， 都 只 用 一 条 简单 记录 来 
描述 它 ， 描 述 中 包含 3 个 字段 : 名 称 、 大 小 和 存放 位 置 。 比 如 冬瓜 
10000 斤 复 1 一 3。 此 时 仓库 中 ， 虽 然 总 空余 空间 远 远 大 于 10000 斤 的 
量 ， 但 是 已 经 没有 能 连续 地 放 入 10000 斤 大 小 的 簇 空间， 那么 这 个 货物 
就 不 能 被 放 入 仓库 ， 而 这 是 不 能 容忍 的 一 种 浪费 。 有 一 个 办 法 ， 就 是 上 
面 说 过 的 ， 找 空间 时 间 来 整理 仓库 ， 整 理 出 连续 的 空间 来 。 这 次 小 道 长 
想 出 了 另 一 个 方法 ， 就 是 将 货物 分 开 存 放 ， 并 不 一 定 非 要 连续 存放 在 仓 
库 。 因 为 仓库 已 经 被 逻辑 分 割 成 一 徐 〈8 个 房间 ) 为 最 小 单位 存放 货 
物 。 那 么 加 可 以 存在 类 似 这 样 的 描述 方式 : 冬瓜 10000 斤 复 2、6、19。 
也 就 是 说 这 10000 斤 的 冬瓜 是 分 别 被 按 顺 序 存放 在 仓库 的 2 号 艇 、6 号 艇 
和 19 号 艇 中 的 。 取 出 的 时 候 ， 需 要 先 去 2 号 取出 货物 ， 再 路过 3 个 缺 去 6 
号 ， 再 器 过 13 个 艇 去 19 号 。 都 取出 后 再 交 给 提货 人 。 这 样 确实 慢 了 点 ， 
但 是 完美 地 解决 了 空间 浪费 的 问题 。 


一 张 图 解决 两 个 难题 


粮食 大 丰收 果然 义 被 张 老道 猜 中 了 ， 这 次 小 道 长 是 应 对 上 自如， 一 丝 
不 乱 。 老 道 距 喷 称 赞 ! 但 是 老道 却 从 小 道士 的 记录 中 ， 又 看 出 了 一 些 问 























5.6.4 一箭双雕 





题 ， 他 告诉 小 道 土 ， 要 继续 思考 更 好 的 解决 办 法 。 小 道士 心 很 寻 ， 他 知 
道 这 个 方法 确实 解决 了 问题 ， 但 是 有 缺陷， 会 有 后 患 ， 只 不 过 现在 的 环 
境 并 没有 显示 出 来 。 这 天 晚上 ， 人 小道 在 仓库 睡觉， 没有 回去 。 





提示 : 看 着 他 那些 记录 ， 只 见 上 面 一 条 一 条 、 一 行 一 行 的 ， 
却 也 比较 有 条 理 。 但 是 仔细 一 看 发 现 ， 每 一 条 记录 的 最 后 一 个 
字段 ， 也 就 是 描述 货物 存放 在 哪些 艇 的 那个 字段 ， 非 常 凌乱 ， 
因为 每 个 人 送 来 的 货物 数量 不 一 样 ， 那 么 就 注定 这 个 字段 长 短 
不 一 ， 显 得 非常 乱 。 现 在 记录 不 是 很 多 ， 但 记录 一 旦 增多 ， 每 
次 查询 的 时 候 就 很 不 好 办 。 而 且 要 找 一 个 未 个 占用 的 入， 需要 
把 所 有 已 经 被 占用 的 全 找 出 来 ， 然 后 才 去 选择 一 个 未 被 占用 的 
复 ， 分 配给 新 的 货物 存放 。 这 个 过 程 是 非常 耗 时 间 的 ， 货 物 少 
了 还 可 以 ， 货 物 一 多 ， 那 可 就 费 幼 了 。“ 嗯 ， 张 真人 让 我 继续 
思考 ， 人 确实 是 有 道理 的 ， 这 两 个 隐患 ， 确 实 是 致命 的 ， 尤 其 是 
第 二 个 。 得 继续 找 新 方法 。” 

提示 : ”小 道士 继续 思考 。 第 一 个 问题 ， 要 想 解决 长 短 不 一 的 
毛病 ， 最 简单 的 就 是 给 他 一 个 定 长 的 描述 字 ， 这 仿佛 是 不 可 能 
的 ， 有 的 需要 1 个 簇 束 够 了 ， 有 的 却 需 要 10 个 甚至 100 个 ， 如 果 
把 这 需要 10 个 簇 的 和 需要 1 个 簇 的 ， 都 用 1 个 族 来 描述 ， 那 么 确 
实 非常 漂 带 了 ， 记 录 会 非常 工整 。 


























想到 这 里 ， 小 道士 索 了 ， 想 出 去 走 走 。 他 溜达 到 一 个 路 口 ， 看 见 路 
口上 有 路 标牌 ， 上 面 写 着 :“ 去 会 客厅 请 走 左 边 ， 去 习 武 观 请 走 石 
边 。” 小 道士 顺 着 路 标 指向 ， 走 了 右边 ， 然 后 义 过 到 一 个 路 标 : “去 习 武 
观 请 走 左 边 ， 下 山 请 走 右 边 。” 道 士 走 了 左边 ， 最 终 来 到 了 习 武 观 。 他 
看 着 习 武 观 正中 央 的 那个 醒目 的 * 道 " 字 ， 忽 然 眼 前 一 亮 ! 


他 迅速 原 路 返回 到 粮 库 ， 拿 出 记录 本 ， 将 其 中 一 条 记录 改 为 :“ 冬 


瓜 10000 斤 首 复 1"。 每 条 记录 都 改 成 这 种 形式 ， 也 就 是 只 描述 这 个 货 
占用 的 第 一 个 簇 的 号 码 ， 这 样 完美 解决 了 记录 长 短 不 一 的 问题 ， 那 么 后 
续 的 艇 呢 ?” 只 知道 首 艇 ， 剩余 的 不 知道 ， 一 样 不 能 全 部 把 货物 取出 。 





所 以 小 道士 参照 路 标的 形式 ， 既 然 知 道 了 首 簇 号 ， 那 么 如 果 找 到 首 
徐 ， 再 在 首 簇 处 作 一 个 标记 ， 写 明 下 一 个 秘 是 多 少 号 ， 然 后 找到 下 一 个 
秘 取 货 ， 然 后 再 参照 这 个 簇 处 的 路 标 ， 到 下 下 个 簇 处 接着 取 货 ， 依 此 类 
推 ， 如 果 本 簇 就 是 这 批 货物 的 最 后 一 徐 ， 那 么 就 标识 : “结束 ， 无 下 一 
复 ”。 比 如 : “冬瓜 10000 斤 首 簇 1” 这 个 例子 ， 先 把 4096 斤 冬瓜 放 到 艇 1 
中 ， 然 后 在 秘 1 的 门 上 贴 上 一 个 标签 :“ 敌 10”"， 这 就 表明 下 一 艇 是 10 号 
徐 。 继 续 向 10 号 复 中 存 入 4096 斤 冬瓜 ， 此 时 还 剩 808 斤 冬瓜 没 放 入 ， 还 
需要 一 个 路 标 ， 于 是 在 10 号 徐 的 门 上 再 贴 一 个 标签 : “90 号 ”。 然 后 去 90 
号 艇 放 入 剩 下 的 808 斤 冬瓜 。 




















第 二 天 ， 张 老道 继续 来 视察 。 老 道 一 看 他 的 记录 ， 不 由 地 一 
惊 ! “一 个 晚上 就 想到 了 这 种 绝妙 方法 。 咽 ， 此 人 大 有 前 途 ! "老道 频频 
点 头 称赞 。 然 后 老道 进 仓库 查看 ， 一 看 有 些 入 的 门 上 ， 贴 着 标签 ， 老 道 
立即 明白 了 小 道 长 的 做 法 ， 对 小 道 说 : “孩子 ， 不 错 ， 但 是 还 需要 再 改 
进 ! 








小 道 心里 盘算 ,“ 咽 ， 这 个 方法 是 解决 了 第 一 个 问题 ， 但 是 每 个 艇 
门 上 都 贴 一 个 标签 ， 这 样 是 不 太 人 像样。 而且 寻 找 未 被 占用 的 徐 的 效率 还 
古 那 么 低 ， 还 是 需要 把 所 有 已 经 占用 的 簇 找 出 来 ， 再 比 对 选 出 没有 使 用 
的 空 徐 。 而 且 我 这 么 一 弄 ， 找 空 簇 的 效率 比 原 来 还 着 了 ， 因 为 原来 已 经 
使 用 的 艇 都 会 被 记录 在 货物 插 述 中 的 字段 中 ， 现 在 把 这 个 字段 绚 减 成 一 
个 字 了 ， 这 样 每 次 找寻 的 时 候 ， 还 得 去 仓库 中 实际 一 个 门 一 个 门 地 去 抄 
下 已 经 使 用 的 族 ， 还 不 如 直接 在 本 子 上 找 来 得 快 。 这 个 问题 得 解决 ! ” 








思考 : ”既然 要 拿 掉 贴 在 门 上 的 标签 ， 那 么 就 必须 找 另 外 一 个 
地 方 存放 标签 ， 所 以 只 能 存放 到 我 的 记录 本 上 。 可 是 各 个 复 的 
路 标 我 都 记录 在 本 子 上 ， 用 一 个 什么 数据 结构 好 呢 ? 货物 描述 
那 三 个 字段 肯定 不 能 再 修改 了 ， 那 样 已 经 很 完美 了 ， 不 能 破坏 
它 。 那 么 就 需要 再 目 己 定义 一 个 结构 来 存放 这 些 路 标 之 间 的 天 
系 ， 而 且 每 个 货物 的 路 标 还 不 能 混淆 ， 混 了 束 惨 了 。 他 在 纸 上 
写 写 画 画 ， 不 知 不 觉 把 整个 仓库 的 簇 夯 出 来 了 ， 从 第 一 个 艇 ， 
到 最 后 一 个 族 ， 都 用 一 个 方 格 标识 ， 然 后 他 参照 “冬瓜 ，10000 
厂 ， 首 艇 1” 这 个 例子 ， 下 一 饼 是 饺 10， 那 么 他 在 簇 1 的 格子 上 
写 上 了 “ 艇 10”"， 然 后 他 找到 第 10 个 格子 ， 也 就 是 代表 簇 10 的 格 
子 ， 在 簇 10 格 子 里 面 写 上 “ 艇 90”， 也 就 是 10 号 簇 的 下 一 艇 路 

标 。 然 后 继续 找到 90 号 艇 ， 此 时 他 在 这 个 格子 里 写 上 “结束 ”。 
接 看 他 义举 了 几 个 例子 ， 分 别 画 了 上 去 。 就 这 么 逐渐 睡 厦 了。 











第 二 天 早晨 ， 小 道士 迷 迷 糊糊 地 起 来 了 ， 只 见 张 道 长 已 经 在 他 的 面 
前 ， 带 着 赞许 的 笑容 。“ 孩 子 ， 你 累 了 ， 不 错 不 错 ， 你 终于 把 所 有 问题 
都 解决 了 啊 ! ? 张 老道 摸 着 小 道士 的 头 ， 称 赞 地 说 道 。 小 道士 还 不 知道 
是 怎么 回 事 呢 ， 他 告诉 张 老道 说 ， 他 还 没 想 出 来 呢 。 老 道 大 突 说 ;:“ 了 哈 
哈哈 哈 ， 你 看 看 你 画 在 纸 上 的 图 ， 这 不 是 已 经 解决 了 么 ? 哈哈 哈哈 
哈 。” 说 完 老道 扬长 而 去 。 




















小 道士 一 头 雾 水 ， 看 着 那 张 画 ， 这 才 想 起 了 昨 晚 的 思考 。“ 对 啊 ， 
这 张 图 不 就 行 了 么 ? 这 就 是 我 所 要 找 的 数据 结构 啊 ! ”接着 ， 小 道士 把 
图 重新 画 了 一 张 ， 工 工整 整地 夹 在 了 记录 本 里 面 。 这 时 ， 来 了 一 个 取 货 
的 人 ， 他 告诉 小 道士 说 :“ 二 库 区 ， 南 瓜 ，10000 斤 。? 道 十 说 :“ 稍 
等 。” 然 后 立即 查询 二 库 区 的 记录 本 ， 找 到 南瓜 的 记录 ， 发 现 首 簇 是 
128。 然 后 立即 到 那 张 图 上 找到 第 128 号 艇 所 在 的 格子 ， 发 现 上 面 写 的 

















是 “ 徐 168”。 继 续 找 到 第 168 号 格子 ， 上 面 写 的 是 “ 徐 2006”。 立 即 找到 第 
2006 个 格子 ， 只 见 上 面 写 的 是 “结束 ”。 然 后 他 通知 库 管 员 : “请 将 第 
128、168、2006 三 个 簇 的 货物 提取 出 来 给 我 。"* 不 一 会 儿 ， 货 物 到 了 ， 
交 货 签字 。 小 道士 悦 然 大 悟 , “ 太 完 美 了 ! ! ” 








紧 接着 ， 又 来 了 一 个 存货 的 人 ， 他 有 西瓜 500 厂 要 存放 到 1 库 区 。 小 
道士 立即 查看 那 张 图 ， 一目了然 。 只 要 格子 上 没有 写字 的 就 是 空 饼 ， 就 
可 以 用 来 存放 货物 。 所 以 道士 立即 找到 一 个 空 看 的 50 写 簇 来 存放 这 500 
斤 西瓜 。 存 放 完 毕 之 后 ， 在 对 应 的 这 个 格子 上 写 上 “结束 ”， 因 为 500 斤 
的 数量 一 个 房间 就 够 了 ， 更 不 用 说 一 个 徐 了 《最 多 8 个 房间 ) 。 接 着 也 
在 1 库 区 的 记录 本 上 增加 一 条 记录 “西瓜 500 厂 首 艇 50”。 














道士 友 现 ， 第 二 个 问题 也 就 是 查找 未 被 使 用 的 复 的 问题 ， 目 从 有 了 
这 张 图 ， 束 目 然 解决 了 。 道 士 非常 兴奋 ， 同 时 也 佩服 张 真 人 ， 是 他 引导 
大 上 自己 一 步 一 步 解决 问题 的 。 








5.6.5 ”宽容 似 海 设计 也 要 像 心胸 一 样 宽 





随 着 仓库 业务 的 不 断 成 熟 ， 小 道士 的 技能 越 来 越 熟练 ， 他 开始 考虑 
描述 货物 的 三 个 字段 : 名称、 数量、 存放 的 第 一 个 饼 。 随 着 国民 生产 力 
水 平 不 断 提 高 ， 各 种 层出不穷 的 产品 被 生产 出 来 ， 它 们 有 些 具 有 一 些 奇 
特 的 属性 。 所 以 小 让 士 准 备 增加 字段 来 表述 一 件 货 物 更 多 的 属性 ， 比 如 
送 货 时 间 、 只 读 、 隐 藏 等 各 种 人 花哨 属性 。 同 时 ， 那 张 图 也 不 能 满足 要 求 
了 ， 因 为 随 着 生产 力 发 展 ， 仓 库 每 平方 米 造价 越 来 越 低 ， 武 当 决 定 扩 大 
仓库 容量 。 这 样 仓库 中 所 包含 的 艇 数量 残 大 大 增加 了 ， 其 至 成 几何 数量 
级 增长 ， 所 以 符号 码 越 来 越 大 ， 甚 至 超过 了 亿 。 要 记录 这 么 多 位 的 数 
字 ， 本 来 那个 小 格子 就 写 不 开 了 ， 上 所 以 需要 增 大 格子 的 宽度 ， 以 便 能 号 
下 更 多 的 数字 位 数 。 以 前 每 个 格子 是 2 字 节 《16 位 ) 长 度 ， 现 在 扩展 到 




















了 4 字 节 (32 位，。 而 据 传 江湖 上 男 一 位 大 侠 已 经 将 格子 的 宽度 扩展 到 
了 128 位 。 


这 位 小 道 长 姓 字 名 谁 ” 因 为 当时 张 真人 收留 他 的 时 候 ， 友 现 他 里 板 
有 点 软 ， 不 适合 练武 。 但 思维 敏捷 ， 适 合 练 心 法 ， 所 以 给 他 一 个 道 号 叫 
做 微软 。 


就 这 样 ， 仓 库 又 运作 了 两 年 。 
5.6.6 ”老将 出 马 一 一 权威 发 布 


仓库 存储 容量 不 断 增 加 ， 仓 库 管 理 技术 方面 却 并 没有 什么 进步 ， 还 
是 沿袭 两 年 前 那 一 套 运 作 模 式 。 这 显然 已 经 不 适应 现代 仓库 了 ， 所 以 造 
成 入 库 等 待 、 处 理 速度 逐渐 变 慢 等 一 系列 的 问题 。 张 真人 决定 跟 上 时 
代 ， 要 研究 出 一 套 新 的 仓库 运作 模式 ， 并 且 定 义 出 一 个 规范 ， 让 全 天 下 
的 仓库 都 治 袭 这 个 规范 来 运作 。 张 老道 先 仔 细 考 察 了 微软 道士 的 运作 模 
式 ， 然 后 根据 现代 仓库 管理 的 特点 ， 提 出 了 一 系列 的 解决 方案 。 








现代 仓库 管理 要 求 入 库 出 库 速度 快 ， 由 于 在 仓库 硬件 方面 提高 很 
快 ， 有 了 更 加 新 式 的 传送 融和 机 器 人 等 机 器 ， 所 以 大 大 提高 了 操作 简化 
度 ， 减 轻 了 库 管 员 的 负担 。 库 管 员 只 需要 阅读 机 器 的 随机 手册 《驱动 程 
序 ) 便 可 以 轻松 地 完成 操作 。 与 此 同时 ， 对 于 理 货 员 这 块 技术 并 没有 什 
么 新 的 突破 ， 因 为 理 货 这 块 主要 靠 好 的 算法 ， 并 不 需要 硬件 文 持 ， 除 了 
那些 记录 本 之 外 。 而 从 仓库 中 取出 记录 本 的 速度 ， 由 于 库 管 员 操 作 迅 
速 ， 所 以 也 不 在 话 下 。 关 键 就 看 理 货 算 法 了 。 这 是 任何 人 硬件 都 不 能 解决 


的 问题 。 











首先 张 老道 通过 观察 、 记 录 ， 发 现 一 般 货物 就 算是 存放 到 不 连续 的 
复 中 ， 这 些 复 往往 也 是 局 部 连续 的 ， 比 如 1、2、3、5、6、7、100、 


101、102， 其 中 1、2、3 就 是 局 部 连续 ，5、6、7 也 是 ，100、101、102 
也 是 。 而 不 太 可 能 出 现 一 个 货物 占用 了 1、56、168、2008 秘 这 种 情况 。 
如 果 此 时 不 是 一 个 簇 一 个 簇 地 去 找 路 标 ， 而 是 一 段 一 段 地 去 找 ， 这 样 会 
节约 很 多 时 间 和 精力 。 比 如 徐 段 1 一 3， 簇 段 5 一 7， 簇 段 100 一 102。 这 样 
就 大 大 简化 了 路 标 。 还 有 其 他 的 一 些 改进 方式 ， 如 直接 将 一 些小 货物 存 
放 到 它们 的 描述 记录 中 驻 留 文件 ) 。 只 有 描述 记录 中 放 不 下 时 ， 才 到 
仓库 其 他 区 域 找 一 些 复 来 存放 ， 然 后 记录 这 些 艇 段 。 





微软 道士 将 他 的 记录 本 上 的 信息 ， 称 为 Metadata， 即 元 数据 ， 也 就 
征用 来 描述 其 他 数据 是 怎么 组 织 存放 的 一 种 数据 。 如 果 记 录 本 丢失 ， 那 
么 纵然 仓库 中 货物 完好 无 损 ， 也 无 法 取出 。 因 为 已 经 不 知道 货物 的 组 织 
结构 了 。 





张 真人 最 后 把 微软 道士 实现 的 一 共 三 种 仓库 运作 管理 模式 ， 分 别 叫 
做 FAT16、FAT32 和 NTFS， 并 取 名 为 小 道藏 龙 。 


5.6.7 一 统 江 湖 一 一 所 有 操作 系统 都 在 用 





后 来 张 老 道 把 这 套 省 理 模 式 移植 到 了 磁盘 管理 上 ， 这 就 是 彼 动 武林 
的 所 谓 “ 文 件 系统 ”。 对 应 仓库 来 说 ， 送 货 人 送 来 的 每 一 件 货 物 都 称 
作文 件 ?。 取 货 时 ， 只 要 告诉 理 货 员 文件 名 称 、 所 要 取出 的 长 度 及 其 他 
一 些 选项 ， 那 么 理 货 员 就 可 以 从 仓库 中 取出 这 些 数据 。 





在 一 个 没有 文件 系统 的 计算 机 上 ， 如 果 一 个 程序 要 加 磁盘 上 存储 一 
些 目 己 的 数据 ， 那 么 这 个 程序 只 能 自己 调用 磁盘 控制 右 驱 动 〈 无 VM 的 
情况 下 ) ， 或 者 调用 VM 提供 的 接口 ， 对 磁盘 写 数据 。 而 写 完 数据 后 ， 
很 有 可 能 被 其 他 程序 的 数据 覆盖 挤 。 引 入 文件 系统 之 后 ， 各 个 程序 之 间 
都 通过 文件 系统 接口 访问 磁盘 ， 所 有 被 写 入 的 数据 部 称 为 一 个 文件 ， 有 














者 目 己 的 名 字 ， 是 一 个 实体 。 而 且 其 他 程序 写 入 的 数据 ， 不 会 将 其 他 人 
的 文件 数据 窗 盖 挥 ， 因 为 文件 系统 会 计算 并 保障 这 一 点 。 


除 此 之 外 ， 不 仅 张 真人 的 NTFS 文 件 系 统 取得 了 巨大 的 成 功 ， 适 应 
了 现代 的 要 求 。 与 此 同时 ， 少 林 的 雷 牛 方丈 也 创造 出 了 其 他 的 文件 系 
统 ， 比 如 EXT 一 代 、 二 代 、 三 代 和 JEFS 等 文件 系统 。 一 时 间 文 件 系统 思 
想 的 光环 是 照 焰 江湖 ! ! 





5.7 文件 系统 中 的 IO 方式 
那么 ， 有 了 文件 系统 之 后 ， 整 个 系统 是 个 什么 架构 ? 
图 5-75 为 Windows 系 统 的 IO 简化 流程 图 。 
图 5-75 “Windows 系 统 的 IO 流程 图 


图 中 的 IO Manager 是 操作 系统 内 核 的 一 个 模块 ， 专 门 用 来 管理 IO， 
并 协调 文件 系统 、 卷 、 破 盘 驱 动 程序 各 个 模块 之 间 的 运作 。 整 个 流程 解 
释 如 下 。 


a 某 时 刻 ， 某 应 用 程序 调用 文件 系统 接口 ， 准 备 写 入 某 文件 从 某 个 
字 节 开始 的 若干 字 节 。 

IO Manager 最 终 将 这 个 请 求 发 送 给 文件 系统 模块 。 

文件 系统 将 某 个 文件 对 应 的 逻辑 偶 移 映射 成 卷 的 LBA 地 址 信 移 。 
文件 系统 向 IO Manager 请 求 调用 卷 管理 软件 模块 的 接口 。 


卷 管理 软件 将 卷 对 应 的 LBA 地 址 偏 移 翻译 映射 成 实际 物理 磁盘 对 应 
的 LBA 地 址 偏 移 ， 并 请 求 调用 磁盘 控制 器 驱动 程序 。 


sa IO Manager 问 磁盘 控制 右 驱 动 程序 请 求 将 对 应 LBA 地 址 段 的 数据 
从 内 存 写 入 菏 块 物理 磁盘 。 


文件 系统 的 IO 包括 同步 10、 异 步 1J0O、 阻 塞 / 非 阻 塞 1J0 和 Direct IO 。 


(1) 同步 10: 同步 IO 是 指 程序 的 茶 一 个 进程 或 者 线程 ， 如 果 某 时 
刻 调 用 了 同步 IO 接口 ， 则 IO 请 求 发 出 后 ， 这 个 进程 或 者 线程 必须 等 待 IO 
路 径 上 的 下 位 程序 返回 的 信号 《不 管 是 成 功 收 到 数据 的 信号 还 是 失败 的 





言 写 ) 。 如 果 不 能 立刻 收 到 下 位 的 信号 ， 则 一 直 处 于 等 待 状态 ， 不 继续 
执行 后 续 的 代码 ， 科 操作 系统 挂 起 ， 操 作 系统 继续 执行 其 他 的 进程 或 者 
线程 。 





而 如 果 在 这 期 间 ， 倘 知 IO 的 下 位 程序 尚未 得 到 上 位 程序 请 求 的 数 
据 ， 此 时 IO 路 径 上 的 下 位 程序 又 可 以 选择 两 种 动作 方式 : 第 一 是 如 果 暂 
时 没有 得 到 上 位 程序 请 求 的 数据 ， 则 返回 通知 通告 上 位 程序 数据 未 收 
到 ， 而 上 位 程序 此 时 便 可 以 继续 执行 ， 第 二 种 动作 则 是 下 位 程序 也 等 符 
它 目 己 的 下 位 程序 来 返回 数据 ， 和 直到 数据 成 功 返 回 ， 才 将 数据 送 给 上 位 
程序 。 前 者 就 是 非 阻塞 IO， 后 者 就 是 阻塞 IO 方式 。 




















同步 十 阻塞 IO 是 彻底 的 墙 死 状态 ， 这 种 情况 下 ， 除 非 这 个 程序 是 多 
线程 程序 ， 人 否则 程序 就 此 挂 死 ， 失 去 啊 应 。 同 理 ， 异 步 十 非 阻 到 的 IO 方 
式 则 是 最 松 耦 合 的 IO 方式 。 


(2) 异步 IO0: 有 异步 IO 请 求 及 出 后 ， 操 作 系 统 会 继续 执行 本 线程 或 
者 进程 中 后 续 的 代码 ， 直 到 时 间 刻 到 时 或 者 因 其 他 原因 被 挂 起 。 寞 步 IO 
模式 下 ， 应 用 程序 的 啊 应 速度 不 会 受 IO 上 瓶 锋 的 影响 ， 即 使 这 个 IO 很 长 时 
间 没 有 完成 。 虽 然 应 用 程序 得 不 到 它 要 的 数据 ， 但 不 会 影响 其 他 功能 的 
执行 。 








基于 这 个 结果 ， 很 多 数据 库 在 异步 IO 的 情况 下 ， 都 会 将 负责 把 缓存 
Flush 到 磁盘 的 进程 (Oracle 中 这 个 进程 为 DBWR 进 程 ) 数量 设置 成 比较 
低 的 数值 ， 甚 至 为 1。 因 为 在 异步 IO 的 情况 下 ，Flush 进 程 不 必 挂 起 以 等 
待 IO 完成 ， 所 以 即使 使 用 很 多 的 Flush 进 程 ， 也 与 使 用 1 个 进程 效果 差 不 
多 。 


异步 ID 和 非 阻塞 IO 的 妃 一 个 好 处 是 文件 系统 不 必 立 刻 返 回 数据 ， 所 








以 可 以 对 上 层 请 求 的 IO 进行 优化 排队 处 理 ， 或 者 批量 向 下 层 请 求 IJO， 这 
样 就 大 大 提升 了 系统 性 能 。 


(3) Direct IO: ”文件 系统 部 有 自己 的 缓存 机 制 ， 增 加 缓存 就 是 为 
了 使 性 能 得 到 优化 。 而 有 些 应 用 程序 ， 比 如 数据 库 程 序 ， 它 们 有 目 己 的 
缓存 ，IO 在 发 出 之 前 已 经 经 过 上 自己 的 缓存 算法 优化 过 了 ， 如 有 果 请 求 IO 到 
达 文 件 系 统 之 后 ， 又 被 缓存 起 来 进行 额外 的 优化 ， 就 是 多 此 一 举 了 ， 恕 
浪费 了 时 间 ， 又 降低 了 性 能 。 对 于 文件 系统 返回 的 数据 ， 同 样 也 有 这 个 
多 余 的 动作 。 所 以 文件 系统 提供 了 夯 外 的 一 种 接口 ， 惑 是 Direct ”IO 接 
口 。 调 用 这 种 接口 的 程序 ， 其 IO 请 求 、 数 据 请 求 以 及 回 送 的 数据 将 都 不 
被 文件 系统 缓存 ， 而 是 直接 进入 应 用 程序 的 缓存 ， 这 样 就 提升 了 性 能 。 
此 外 ， 在 系统 路 径 上 任何 一 处 引入 缓存 ， 如 采 是 Write Back 模 式 ， 都 将 
带 来 数据 一 致 性 的 问题 。Direct IO 绕 过 了 文件 系统 的 缓存 ， 所 以 降低 了 
数据 不 一 致 的 风险 。 











提示 : ”关于 更 详尽 的 系统 IO 论 述 ， 请 参考 本 书后 面 的 章节 。 


第 6 重 ” 阵 列 之 行 一 大话 破 盘 阵 
列 
昌 伏 生 阵列 
mSCSI 
mLUN 
四 于 疹 / 后 冰 


两 三 块 磁 盘 做 RAID 0 或 1， 四 五 块 磁盘 做 个 RAID 3、4、5 是 小 事 一 
桩 ， 不 过 太 没 狗 力 。 要 玩 就 弄 个 几 十 块 盘 ， 那 才 过 瘾 。 这 不 ， 有 人 发 明 
了 专门 装 这 些 磁盘 的 大 柜子 ， 我 们 这 就 去 看 看 这 柜子 是 怎么 回 事 儿 吧 。 








退隐 江湖 一 一 太 系 了， 该 软 葡 了 





自从 张 真人 创立 了 降 龙 三 党 之后， 江湖 各 门 各 派 争 相 修 炼 ， 商 人 不 
叶 推 出 基于 降 龙 掌 的 新 商品 。 江 湖上 浮躁 之 气 再 次 礁 来 ， 很 少 有 人 去 钻 
研 底层 功夫 了 ， 都 是 拿 来 就 用 ， 不 思 进 取 。 几 十 年 过 去 了 ， 张 老道 已 经 
成 了 头发 苑 白 的 老人 。 





这 天 晚上 ， 人 少 星 稀 。 唯 独 天 上 的 北斗 七 星 ， 光 芒 还 是 那么 灿烂 ， 
仿佛 已 逝去 百年 的 七 星 大 侠 ， 还 在 天 上 盏 吾 钻 研 。 





张 真 人 如 今 也 已 经 是 白 发 苍苍 ， 可 是 知己 已 不 在 。 一 百年 来 ,江湖 
上 为 了 利益 你 争 我 抢 ， 反 目 成 代 ， 打 打 杀 杀 。 吗 呼 哉 ! ! ! 难道 这 个 江 


湖 真 要 从 此 衰败 么 ? 张 老道 失望 至 极 。 
闻 道 


尘世 浮华 迷人 了 眼 ， 
梦 中 情境 亦 非 真 。 
朝 右 闻 道 夕 死 可 ， 
世间 何 处 有 高 人 ? 





第 二 天 ， 张 真人 对 外 宣布 ， 他 从 此 退隐 江湖 ， 不 再 参与 江湖 事 。 瞬 
时 间 ， 整 个 江湖 就 像 地震 了 一 样 ， 人 们 没有 了 主心骨 ， 都 不 知道 该 干 什 
么 好 了 。 打 打 杀 杀 的 也 不 打 了 ， 商 人 也 没 得 吹 了 。 很 多 商人 纷纷 上 武当 
来 游说 张 真人 ， 让 他 出 山 ， 包 荣华 富贵 ， 都 被 张 真人 一 一 回绝 了 。 江 湖 
又 恢复 了 以 往 的 平静 ， 只 是 这 平静 似乎 预示 着 一 场 更 加 猛烈 的 暴风 雨 即 
将 来 临 








前 仆 后 继 一 一 后 来 者 大 上 


话说 有 位 少年 ， 目 幼 好 钻研 和 寻根 问 夸 ， 被 人 称 作 “ 隔 一 路 *?”。 此 人 
不 善于 口头 表达 ， 不 会 忽 您 ， 但 是 如 末世 界 只 剩 下 他 一 个 人 ， 那 么 他 便 
会 爆发 出 神奇 的 力量 。 由 于 内 向 的 性 格 ， 他 吃 了 不 少 亏 ， 但 他 依然 我 行 
我 素 ， 并 不 在 乎 别人 的 议论 和 狂 忌 其 至 是 诉 毁 。 这 位 少年 名 为 无 忌 。 他 
实际 上 也 确实 是 无 所 苦 忌 ， 明 知 山 有 虎 ， 偶 问 席 山行 ， 用 天 真 和 执著 去 
挑战 世俗 ， 跌 倒 了 大 不 了 重 来 。 





既然 选择 了 这 条 路 ， 残 要 把 它 走 完 。 孤 独 和 压迫 给 了 他 巨 大 的 动 
力 ， 每 天 晚上 都 在 刻 否 学 习 。 他 学 习 IO 大 法 和 磁盘 大 挪移 ， 学 习 七 星 北 
斗 阵 和 降 龙 大 法 。 虽 然 他 并 没有 实践 过 这 些 知 识 ， 但 是 依然 有 一 股 力量 


促使 他 不 断 地 学 习 钻 研 。 





6.1 初 露 天 倪 一 外 置 磁盘 柜 应 用 探索 


无 忌 已 经 充分 掌握 了 前 人 留 下 的 心 法 口诀 。 在 不 知道 该 做 点 什么 的 
时 候 ， 他 突然 有 了 一 个 想法 。 虽 然 按照 七 星 大 侠 的 RAID 方 式 ， 可 以 将 
多 块 磁 盘 做 成 逻辑 盘 ， 但 是 普通 的 服务 器 或 者 PC 机 箱 里 面 ， 也 惑 安 半 
两 三 块 磁盘 ， 空 间 束 满 了 。 如 果 做 很 多 块 盘 的 RAID， 把 磁盘 都 放 到 机 
箱 里 面 肯定 不 行 ， 得 想 个 办 法 来 让 机 器 可 以 市 多 块 磁盘 。 











“ 拿 出 来 ， 拿 出 来 ， 全 部 都 掏 出 来 ! ”他 找 来 一 台 机 器 ， 装 了 一 块 
Ultra 320 SCSI 卡 ， 这 个 卡 只 有 一 个 通道 ， 可 以 连接 15 块 磁盘 。 但 是 15 块 
盘 怎 么 放 入 一 个 机 箱 呢 ? 太 困 难 了 ， 所 以 必须 把 这 些 盘 放 到 机 箱 外 面 。 
但 是 连 线 和 电源 问题 又 不 好 办 。 他 索性 找 来 一 个 箱子 ， 把 所 有 磁盘 都 放 
在 这 个 箱子 里 。 箱 子 有 独立 电源 和 散热 系统 ， 保 障 磁 盘 的 稳定 运行 。 接 
口 方面 ， 内 部 其 实 就 是 一 条 SCSI 线 缆 ， 只 不 过 将 它 做 到 了 电路 板 上 ， 然 
后 在 外 面 放 一 个 接口 ， 这 个 接口 是 用 来 连接 主机 上 的 SCSI 卡 的 。 如 果 主 
机 上 装 的 是 不 带 RAID 功 能 的 SCSI 卡 ， 那 么 加 电 之 后 ， 主 机 会 识别 到 磁 
盘 箱 中 的 所 有 人 磁盘。 箱子 中 有 多 少 磁 盘 ， 在 OS 磁盘 管理 器 中 就 会 显示 
多 少 块 磁盘 。 如 果 主 机 上 安装 的 是 带 RAID 功 能 的 SCSI 卡 ， 那 么 可 以 用 
这 个 RAID 卡 先 来 对 认 到 的 多 块 磁盘 做 一 下 RAID， 划 分 出 逻辑 盘 ， 这 时 
OS 识别 到 的 就 是 逻辑 磁盘 ， 而 不 会 认 到 箱子 中 的 物理 磁盘 。 

















这 种 简单 的 磁盘 箱 如 图 6-1 所 示 ， 无 忌 给 它 取 了 个 学 名 ， 叫 
做 “JBOD”， 也 就 是 Just a Bound Of Disks, “只 是 一 串 磁 盘 ”， 这 个 描述 
非常 形象 。 无 忌 立 即将 这 个 做 法 公布 了 出 去 ， 没 想到 大 受 欢 迎 ， 一 时 间 
各 个 厂家 争 相 生产 这 种 磁盘 柜 ， 在 市 场 上 卖 得 很 火 。 








图 6-1 ” JBOD 磁盘 阵列 示意 图 





6.2 ”精益 求 精 结合 RAID 卡 实现 外 置 磁盘 阵列 


思考 : 能 侣 把 RAID 功 能 做 到 磁盘 箱 中 ， 因 为 如 条 要 调整 RAID 
的 话 ， 还 需要 重 局 主机 等 ， 会 影响 主机 应 用 。 如 果 做 到 了 磁盘 
箱 中 ， 那 么 在 主机 上 就 不 需要 做 什么 ， 只 要 在 磁 税 箱 中 做 完 之 
后 连接 到 主机 ， 主 机 重启 之 后 或 者 不 用 重 司 就 能 认 到 新 逻辑 盘 
汪汪 








经 过 多 次 实验 ， 终 于 做 成 了 一 个 设备 。 少 年 把 这 种 自 带 RAID 控 制 
器 的 磁盘 箱 叫 做 “磁盘 阵列 ”。 自 此 在 江湖 上 有 了 一 个 不 成 文 的 规定 ， 凡 
是 JBOD 都 叫做 磁盘 柜 ， 几 是 自 带 RAID 控 制 器 的 盘 柜 就 叫做 磁盘 阵列 或 
者 盘 阵 。 盘 柜 和 盘 阵 ， 前 者 只 是 一 串 外 置 的 磁盘 ， 而 后 者 自 带 RAID 控 
制 器 。 图 6-2 为 JBOD 磁 盘 柜 实物 图 。 





图 6-2 ” JBOD 磁盘 柜 实 物 图 











盘 阵 是 在 盘 柜 的 基础 上 ， 将 内 部 的 磁盘 经 过 其 自 带 的 RAID 控 制 器 
的 分 分 合 合 ， 虚 拟 化 成 逻辑 磁盘， 然后 经 过 外 部 SCSI 接 口 连 接 到 主机 上 
问 的 SCSI 接 口 。 此 时 ， 整 个 盘 阵 对 于 主机 来 说 ， 就 是 主机 SCSI 总 线 上 
的 一 个 或 者 多 个 设备 ， 有 具有 一 个 或 者 多 个 SCSI ID。 上 所 有 逻辑 磁盘 都 以 
LUN 的 形式 呈现 给 主机 。 


如 图 6-3 所 示 ， 盘 阵 中 的 SCSI 控 制 器 在 逻辑 上 有 两 个 部 分 ， 右 边 的 
S2 控 制 器 连接 了 一 条 SCSI 总 线 ， 上 面 有 若干 磁盘 。 左 边 的 S1 控 制 器 同 
样 也 连接 了 一 条 SCSI 总 线 ， 但 是 上 面具 有 两 个 设备 : 一 个 就 是 主机 
SCSI 控 制 器 ， 另 一 个 就 是 它 自 己 。 





图 6-3 ” 带 RAID 控 制 器 的 磁盘 阵列 示意 图 











毫 无 疑问 ， 在 左边 的 SCSI 总 线 上 ， 盘 阵 SCSI 控 制 器 是 作为 Target 模 
式 ， 被 主机 SCSI 控 制 右 操控 ， 处 于 被 动 地 位 ; 在 右边 的 SCSI 总 线 上 ， 
盘 阵 的 S2 ”控制 右 成 了 Initiator 模 式 ， 它 在 右边 总 线 上 占据 主动 权 ， 拥 有 
最 高 优先 级 ， 而 各 个 磁盘 均 为 SCSI ”Target， 受 控 于 Initiator。 当 然 S1 和 
S2 不 一 定 就 是 两 块 物理 上 分 开 的 必 片 ， 很 有 可 能 就 是 一 块 单 独 的 忆 片 逻 
辑 地 分 成 两 个 部 分 。 甚 至 有 可 能 将 RAID 芯 片 和 SCSI 控 制 器 芯片 全 部 集 
成 到 一 个 大 心 卢 中 。 





图 6-4 所 示 的 是 一 个 SATA 盘 阵 控 制 器 的 主板 示意 图 。 


图 6-4 一 个 可 以 连接 16 块 SATA 磁 盘 的 小 型 RAID 控 制 器 主板 


图 6-5 所 示 的 是 一 个 小 型 盘 阵 控制 占 的 内 部 实物 图 。 





图 6-5 “一 个 小 型 控制 器 实物 图 


图 6-6 押 示 的 是 一 台 盘 阵 的 磁盘 插 槽 实物 图 。 





图 6-6 ”磁盘 插 槽 、 背 板 


图 6-7 所 示 的 为 这 合 盘 阵 的 电源 模块 插 槽 。 




















图 6-7 电源 模块 插 模 


6.3 ”独立 宣言 一 独立 的 外 部 磁盘 阵列 


主机 由 于 肚 量 太 小 容 不 下 想法 太 多 的 磁盘 ! 终于 磁盘 从 主机 内 部 跑 
出 来 了 ， 破 盘 们 在 外 置 的 大 箱子 里 ， 在 RAID 控 制 属 的 带领 下 ， 欣 欣 回 
末 ， 勇 往 直 前 ! 


磁盘 和 控制 器 发 布 了 独立 宣言 ， 彻 感 摆 脱 了 主机 的 束缚 ， 成 为 与 主 
机 对 峙 的 一 个 独立 的 外 部 设备 。 从 此 以 后 ， 存 储 技术 才 真 正 的 成 为 一 个 
独立 的 庞大 学 科 ， 并 不 断 发 展 壮大 。 本 书后 面 的 章节 会 介绍 更 多 的 存储 
技术 ， 包 括 存 储 网 络 和 网 络 存 储 。 





1. 前 端 和 后 端 


对 于 盘 阵 来 说 ， 图 6-3 中 RAID 控 制 器 的 左边 就 称 为 “前端 ”， 右 边 则 
称 为 “后 端 ”。 面 问 主 机 对 外 提供 服务 的 就 叫 前 端 ， 面 癌 目 己 管 理 的 磁盘 
用 于 欠 部 管理 而 外 部 不 需要 了 解 的 部 分 就 叫做 后 器。 同样 ， 对 于 主机 来 
次 ， 生 的 SCSI 适 配器 反而 成 了 后 端 ， 而 以 太 网 卡 可 能 变 成 了 前 问 。 因 为 
对 于 主机 来 说 ， 和 直接 面 对 外 部 客户 机 的 是 以 太 网 ， 而 管理 磁盘 的 工作 不 
必 对 客户 说 明 ， 所 以 变 成 了 后 端 。 





2. 内 部 接口 和 外 部 接口 





对 于 盘 阵 来 说 ， 还 有 一 个 内 部 接口 和 外 部 接口 的 概念 。 内 部 接口 是 
指 盘 阵 RAID 控 制 器 连接 其 内 部 磁盘 时 用 的 接口 ， 比 如 可 以 连接 IDE 磁 
盘 、SCSI 磁 盘 、SATA 磁 盘 和 FC 磁 盘 等 。 外 部 接口 是 指 盘 阵 控制 器 对 于 
主机 端 ， 也 就 是 前 端 ， 提 供 的 是 什么 接口 ， 比 如 SCSI 接 口 、FC 接 口 
等 。 内 部 接口 可 以 和 外 部 接口 相同 ， 比 如 内 部 用 SCSI 磁 盘 ， 外 部 也 用 





SCSI 接 口 连接 主机 ， 这 种 情况 也 惑 是 图 6-3 中 所 示 的 情况 。 





内 外 接口 也 可 以 不 同 ， 比 如 内 部 连接 IDE 磁 盘 ， 外 部 却 用 SCSI 接 口 
连接 主机 ( 仪 限 于 盘 阵 ， 盘 柜 必须 内 外 接口 一 致 )。 盘 阵 控 制 器 是 一 个 
虚拟 化 引擎， 它 的 前 端 和 后 端 可 以 不 一 致 ， 它 可 以 向 主机 报告 其 有 多 少 
LUN， 尽 管内 部 的 磁盘 是 IDE 的 。 


3. 多 外 部 接口 


同时 ， 我 们 也 不 要 被 盘 阵 上 为 什么 可 以 有 多 个 外 部 SCSI 接 口 而 感到 
困惑 。 有 多 个 接口 是 为 了 连接 多 台 主 机 用 的 。 每 个 由 盘 阵 RAID 控 制 器 
生成 的 逻辑 磁 往 ， 可 以 通过 设置 只 分 配 〈Assign/Map) 到 其 中 一 个 口 ， 
比如 LUN1 被 分 配 到 了 1 号 口 ， 那 么 连接 到 2 号 口 的 主机 就 不 会 看 到 这 个 
LUN。 也 可 以 把 一 个 LUN 同 时 分 配 《 或 叫做 Map， 了 映射 ) 到 两 个 口 ， 那 
么 两 台 主 机 能 同时 识别 出 这 个 LUN。 让 两 台 主 机 同时 对 一 个 LUN 写 数 
据 ， 底 层 是 允许 的 ， 但 是 很 容易 造成 数据 的 不 一 致 ， 除 非 使 用 集群 文件 
系统 ， 或 者 高 可 用 性 系统 软件 的 参与 。 








4. 关于 LUN 


LUN 是 SCSI 协 议 中 的 名 词 ， 我 们 前 面 也 描述 过 。LUN 是 SCSI ID 的 
更 细 一 级 的 地 址 号 ， 每 个 SCSI ID (Target ID) 下 面 还 可 以 有 更 多 的 
LUN ID 〈 视 ID 字段 的 长 度 而 定 ) 。 对 于 大 型 磁盘 阵列 来 说 ， 可 以 生成 
几 百 甚至 几 千 个 虚拟 磁盘 ， 为 每 个 虚拟 磁盘 分 配 一 个 SCSI ”ID 是 远 远 不 
够 用 的 。 因 为 每 个 SCSI 总 线 最 多 允许 16 个 设备 接 入 (目前 32 位 SCSI 标 
准 最 大 允许 32 个 设备 ) 。 要 在 一 条 总 线 上 放置 多 于 16 个 物理 设备 也 是 不 
可 能 的 ，LUN 就 是 这 样 一 个 次 级 寻 址 ID 。 磁 盘 阵 列 可 以 在 一 个 SCSI ID 
下 虚拟 多 个 LUN 地 址 ， 每 个 LUN 地 址 对 应 一 个 虚拟 磁盘 ， 这 样 就 可 以 在 











一 条 总 线 上 生成 众多 虚拟 磁盘 ， 以 满足 再 求 。 


后 来 ， 人 们 把 硬件 层次 生成 的 虚拟 磁盘 ， 统 一 称 为 LUN”， ， 
不 是 在 SCSI 环 境 下 ， 虽 然 LUN 最 初 只 是 SCSI 体 系 里 面 的 一 个 概念 。 
由 软件 生成 的 虚拟 磁盘 ， 统 一 称 为 “ 卷 "， 比 如 各 种 卷 管理 软件 、 
RAID 软 件 等 所 生成 的 虚拟 磁盘 。 





有 些 盘 阵 配 有 液晶 操控 面板 ， 如 图 6-8 所 示 。 而 有 些 低 端 的 盘 阵 更 
征 在 液晶 面板 周围 加 上 了 按钮 ， 用 来 对 盘 阵 进行 简单 快速 的 配置 ， 比 如 
查看 磁盘 状态 、 设 置 RAID、 划 分 逻辑 磁盘 等 。 这 种 方式 极其 简化 了 配 
置 操作 ， 一 般 用 户 通 过 阅读 说 明 书 就 可 以 完成 配置 。 不 过 液晶 屏 磊 比较 
小 ， 能 完成 的 功能 不 多 ， 操 作 相 比 用 鼠标 要 麻烦 。 所 以 一 些 副 阵 提供 了 
COM 口 或 者 以 太 网 接口 ， 可 以 用 PC 连接 这 些 接口 与 盘 阵 通 信 ， 通 过 仿 
真 终端 或 Web 界 面 就 可 以 对 盘 阵 进行 配置 。 














图 6-8 ”一 个 带 液晶 面板 的 盘 阵 前 视图 














提示 : A 
连接 ， 完 全 是 为 了 配置 磁盘 阵列 的 各 种 参数 ， 而 不 是 通过 这 些 
配置 专用 接口 从 磁盘 阵列 的 磁盘 上 该 写 数据 。 


6.4 双龙 戏 珠 一 双 控 制 右 的 局 安全 性 磁盘 阵列 


如 果盘 阵 内 部 只 有 一 个 控制 嚣 模块， 那么 会 是 一 个 SPOF (Single 
Point Of Failure) ， 即 单 点 故障 点 。 所 以 一 些 高 端的 盘 阵 内 部 都 有 两 个 
控制 器 ， 互 为 见 余 。 分 配给 其 中 一 个 控制 器 的 LUN 逻 辑 卷 ， 可 以 在 这 个 
控制 器 因 故 隐 失 效 的 时 候 ， 上 自动 被 另 一 个 工作 正常 的 控制 器 接管 ， 继 续 
处 理 针对 这 个 LUN 的 读 写 请 求 。 两 个 控制 器 平时 都 管理 各 自 的 LUN， 一 
旦 发 现 对 方 故 障 ， 那 么 就 会 自动 将 所 有 LUN 都 接管 过 来 。 


因为 如 此 ， 两 个 控制 占 之 间 需 要 相互 通信 ， 通 告 对 方 自 己 的 状态 以 
及 交互 一 些 其 他 的 信息 。 两 个 控制 占 之 间 可 以 用 PCI 忌 线 连接 ， 也 可 以 
用 厂商 自己 设计 的 总 线 来 连接 ， 没 有 统一 标准 。 至 于 交互 信息 的 逻辑 和 
内 容 ， 更 是 因 品 牌 而 不 同 ， 而 没有 标准 来 统一 它们 。 











为 了 避免 单 点 故障 ， 给 盘 阵 安装 一 个 额外 的 控制 器 ， 这 个 控制 器 和 
原来 的 控制 右 在 它们 后 端 共享 一 条 或 者 多 条 磁盘 总 线 。 两 个 控制 右 可 以 
使 用 Active-Standby 方 式 ， 也 可 以 使 用 Dual-Active 的 互 备 方式 连接 。 








1. Active-Standby 


这 种 方式 又 称 HA (High Availability 方 式 ， 高 可 用 性 ) ， 即 两 个 控 
制 器 中 同一 时 刻 只 有 一 个 在 工作 ， 另 外 一 个 处 于 等 待 、 同 步 和 监控 状 
态 。 一 旦 主 控制 器 发 生 故障 ， 则 备份 控制 器 立即 接管 其 工作 。 





对 于 内 部 为 SCSI 总 线 的 双 控 制 器 盘 阵 ， 在 机 头 内 部 的 一 条 SCSI 总 
线 中 ， 两 个 控制 器 可 以 分 别 占 用 一 个 ID， 这 样 剩 余 14 个 ID 给 磁盘 使 用 。 
平时 只 有 主 控制 器 这 个 ID 作为 Pnitiator 向 除了 备份 控制 器 ID 之 外 总 线 上 





的 其 他 ID (也 就 是 所 有 磁盘 的 ID〉 来 发 送 指令 从 而 读 写 数据 。 





同时 备份 控制 器 与 主 控制 喜之 间 保 持 通信 和 缓存 同步 ， 一 旦 主 控制 
需 与 备份 控制 器 失去 联系 ， 那 么 备份 控制 器 立即 接管 主 控制 器 。 同 时 为 
了 预防 脑 分 裂 〈 见 下 文 ) ， 备 份 控制 器 在 接管 之 前 需要 通过 茶 种 机 制 将 
主 控制 属 断 电 或 者 重启 ， 释 放 其 总 线 使 用 权 ， 然 后 上 自己 接管 后 端 总 线 和 
前 端 总 线 。 





提示 : ”主机 端 必须 用 两 个 SCsI 适 配器 分 别 连接 到 盘 阵 的 两 个 
控制 器 上 ， 才 能 达到 宛 余 的 目的 ， 但 是 这 样 做 主机 端 必须 通过 
某 种 方式 感知 到 这 种 HA 策略 并 在 故障 发 生 时 切换 。 目 前 ， 由 

于 SCSI 盘 阵 本 身 比 较 低 端 ， 可 接 入 容量 不 大 ， 所 以 没有 双 控制 
器 的 设计 ， 以 上 文字 只 是 对 HA 机 制 的 一 种 描述 。 但 是 对 于 本 

书后 面 要 讲述 的 FC 盘 阵 来 说 ， 使 用 双 控制 器 以 及 在 主机 端 使 

用 双 FC 适 配 卡 是 非常 普遍 的 。 





2. Dual-Active 


顾名思义 ， 这 种 双 探 制 器 的 实现 方式 是 两 个 控制 器 同时 在 工作 ， 
个 控制 器 都 对 所 有 后 端的 总 线 有 通路 ， 但 是 每 个 总 线 平 时 只 被 其 中 一 个 
控制 器 管理 ， 另 一 个 控制 器 不 去 触动 。 可 以 将 后 端 一 半数 量 的 总 线 交 由 
一 个 控制 器 管理 ， 另 一 半 交 由 另外 一 个 控制 器 管理 。 一 旦 其 中 一 个 控制 
损坏 ， 则 另外 一 个 控制 器 接管 所 有 上 总线。 这 种 方式 比 Active-Standby 方 
式 高 效 很 多 。 





3. 脑 分 裂 (Split Brain ) 


这 个 词 明显 有 扣 称 怖 。 设 想 一 下 ， 如 果 某 时 刻 连接 两 个 控制 如 之 间 


的 通路 出 现 了 问题 ， 而 不 是 其 中 茶 个 控制 器 死机 ， 此 时 两 个 控制 器 其 实 
都 是 工作 正常 的 ， 但 是 两 者 都 检测 不 到 对 方 的 存在 ， 所 以 两 者 都 答 试 接 
管 所 有 总 线 ， 这 时 候 就 是 所 谓 的 “ 脑 分 裂 ”， 即 同时 有 两 个 活动 控制 融 来 
操控 所 有 后 并 设备 。 这 种 情况 是 可 怕 的 ， 类 似 精神 分 裂 症 。 





如 何 预 防 这 种 情况 呢 ? 通 第 做 法 是 利用 一 个 仲裁 者 来 选择 到 底 使 用 
哪 一 个 控制 器 接 管 所 有 总 线 ， 比 如 用 一 两 个 控制 器 都 能 访问 到 的 磁盘 ， 
控制 器 向 其 上 写 入 自己 的 仲裁 信息 。 一 旦 发 生 脑 分 裂 ， 二 者 就 参考 这 个 
磁盘 ， 谁 最 后 写 入 了 信息 就 把 控制 权 给 谁 。 或 者 用 一 种 电源 控制 右 ， 一 
旦 其 中 某 个 控制 器 要 接管 ， 那 么 不 管 对 方 是 确实 发 生 故 障 了 还 是 正常 
的 ， 这 个 控制 器 都 会 器 电 源 控 制 恬 发 送信 号 ， 让 对 方 重 局 并 进入 
Standby 状 态 ， 这 样 就 成 功 地 预防 了 脑 分 裂 。 











接管 了 总 线 的 控制 器 一 般 都 会 对 总 线 上 所 有 磁盘 进行 SCSI Reserve 
操作 ， 即 预订 操作 。 总 线 上 所 有 目标 设备 一 旦 被 预订 ， 它 们 便 不 再 接受 
其 他 控制 器 的 IO 请 求 。SCSI 2 标准 中 的 SCSI Reserve 不 允许 其 他 控制 器 
读 写 被 原 有 控制 器 预订 的 设备 ， 但 是 SCSI 3 中 的 Reserve 策 略 有 了 一 些 灵 
活性 ， 可 以 允许 其 他 控制 器 对 已 经 被 预订 的 目标 设备 进行 读 IO， 而 写 IO 
则 被 拒绝 。 


图 6-9 所 示 的 是 一 双 控 制 器 盘 阵 机 头 示 意图 。 





图 6-9” 双 控制 器 磁盘 阵列 示意 图 





提示 : “实际 中 ， 由 于 SCSI 盘 阵 比较 低 端 ， 一 般 没 有 这 种 设计 
模式 的 产品 。 





6.5 龙 涉 凤 尾 一 一 连接 多 个 扩展 柜 


一 条 SCSI 总 线 最 多 可 以 连接 15 块 磁盘 ， 为 了 这 15 块 磁盘 ， 大 动 干戈 
地 赋予 两 个 昂贵 的 RAID 控 制 器 ， 有 点 不 值 。 为 了 把 这 两 个 控制 器 充分 
利用 起 来 ， 榨 取 最 后 一 滴 性 能 ，15 块 磁盘 不 够 ， 那 就 再 加 。 前 面 说 过 ， 
一 个 控制 器 上 可 以 有 多 个 通道 ， 一 个 通道 下 面 就 是 一 条 SCSI 总 线 ， 那 么 
将 盘 阵 的 每 个 控制 器 上 再 多 接 一 个 或 者 两 个 通道 ， 来 充分 发 挥 它 的 能 
力 ， 这 样 就 比较 实惠 了 。 如 图 6-10 所 示 ， 这 人 台 盘 阵 机 头 带 有 一 个 扩展 后 
端 人 磁盘 柜 接口 。 























图 6-10” 带 有 一 个 扩展 外 部 磁盘 通道 接口 的 控制 器 示意 图 




















通道 建 好 之 后 ， 下 一 步 就 是 要 扩充 磁盘 数量 了 。 当 然 ，JBOD 就 成 
了 最 佳 选择 。 

图 6-11 所 示 的 盘 阵 的 每 个 控制 器 上 多 出 一 个 额外 的 磁盘 通道 接口 ， 
这 个 接口 露 在 机 箱 外 面 ， 用 线 统 连接 了 一 个 JBOD 扩 展柜 。 








图 6-11 外接 一 个 OD 扩展 柜 的 磁盘 阵列 





经 过 这 样 的 改造 ， 可 连接 的 人 磁盘 数量 成 倍增 长 。 图 中 所 示 的 是 每 个 
控制 器 增加 了 一 个 磁盘 通道 ， 还 可 以 增加 到 两 个 或 者 多 个 通道 。 理 论 
上 ， 只 要 RAID 控 制 器 处 理 速度 够 强 ， 总 线 带宽 和 面板 上 空间 够 大 ， 多 
增加 几 个 通道 都 没 问 题 。 


JBOD 盘 柜 以 前 只 有 一 个 外 部 接口 ， 为 了 配合 双 控 制 器 ，JBOD 在 其 
外 部 也 增加 了 一 个 接口 用 来 连接 元 余 的 控制 器 。 这 样 ， 扩 展柜 上 也 有 两 
个 外 部 接口 了 。 





把 带 有 控制 器 的 磁盘 柜 称 作 “ 机 头 ”， 因 为 它 就 像 火 车 头 一 样 ， 是 提 
供 动力 的 。 机 头 里 可 以 有 磁盘 ， 也 可 以 根本 不 含 磁盘 。 把 用 于 扩展 容量 
用 的 JBOD 叫 做 “扩展 柜 ?， 它 就 像 一 节 节 火车 车 厢 ， 本 刁 没 有 动力 ， 全 
靠 车 头 带 ， 但 是 基本 的 供电 和 冷却 系统 还 是 要 有 的 。 网 6-12 所 示 的 是 
IBM 的 DS400 盘 阵 机 头 后 视 岁 ， 每 控制 器 提供 3 个 通道 ， 机 头 内 部 的 磁盘 
占用 一 个 ， 然 后 男 外 两 个 提供 扩展 ， 在 后 面板 上 给 出 两 个 SCSI 接 口 。 图 
中 Expansion ports 所 示 的 就 是 这 两 个 SCSI 接 口 。 右 边 空 白 的 地 方 是 用 来 
接 入 另外 一 个 控制 器 的 ， 这 个 控制 器 是 可 选 组 件 。 








图 6-12 ”DS400 盘 阵 的 机 头 后 视图 


图 6-13 是 用 于 连接 DS400 机 头 的 扩展 柜 EXP400。 可 以 看 到 它 的 左右 
各 有 一 个 接口 模块 ， 每 个 模块 上 有 一 个 SCSI 接 口 用 来 连接 机 头 。 





图 6-13 EXP400 扩 展柜 的 后 视图 





6.6” 钟 上 添 花 一 完整 功能 的 模 世 化 磁盘 阵列 


再 后 来 ， 机 头 做 的 都 比较 床 亮 ， 而 且 感 觉 很 厚实 。 但 是 J 了 了 OD 就 是 
一 扒 磁 盘 ， 显 得 和 机 头 有 些 不 搭配 。 所 以 也 给 扩展 柜 增 加 了 所 谓 的 模 
块 ， 不 仔细 看 的 话 ， 外 观 和 机 头 没 多 大 区 别 。 只 不 过 扩展 柜 的 模块 上 ， 
没有 RAID 控 制 器 的 功能 ， 但 是 会 加 上 一 些 其 他 功能 ， 如 探测 磁盘 温 及 
等 二 线 辅助 功能 。 这 个 模块 将 接口 、 功 能 芯片 、 电 路 等 都 集成 在 一 个 板 
子 上 ， 所 以 外 观 和 机 头 差 不 多 。 


图 6-14 所 示 的 ESM 模 块 ， 就 是 实现 这 些 功 能 的 插 板 。 图 6-15 中 所 示 
的 是 一 个 磁盘 扩展 柜 的 实物 后 视图 ， 可 以 看 到 上 下 两 个 模块 ， 这 两 个 模 
块 不 但 负责 链 路 通信 ， 还 负责 收集 设备 各 处 的 传感器 发 来 的 信息 。 














图 6-14 ”一 个 扩展 柜 的 前 视图 图 6-15 一 个 磁盘 扩展 柜 的 后 视图 











图 6-14 为 一 台 盘 阵 的 前 视图 。 图 6-15 是 一 台 FC 接 口 的 扩展 柜 后 视 
图 ， 可 以 看 到 上 下 两 个 ESH (Electrical Switch Hub ) 模块 。 这 些 磁盘 扩 
展柜 上 的 模块 中 主要 包含 单片机 或 者 DSP 必 片 、FC-AL 半 交换 逻辑 处 理 
以 及 其 他 功能 的 FPGA/ASIC/CPLD 芯 片 、SFP 适 配器 编码 芯片 、ROM 或 
者 Flash 忌 片 〈 存 放 Firmware) 、RAM 组 存世 片 〈 用 于 存放 芯片 执行 程 
序 时 所 需 的 数据 ) 等 ， 视 设计 不 同 而 定 。 如 果 有 新 的 Firmware 被 开发 出 
来 ， 可 以 将 程序 逻辑 写 入 Flash 或 ROM 芯 片 中 ， 这 个 过 程 就 是 固件 升 
级 。FPGA/CPLD 等 心 片 需要 用 外 置 的 编程 器 写 入 新 的 电路 逻辑 。ASIC 
心 片 不 可 升级 ， 是 固定 逻辑 的 芯片 ， 适 用 于 成 熟 的 、 量 产 的 芯片 ， 比 如 
SFP 编 码 心 片 等 。 











图 6-16 为 扩展 柜上 的 一 个 ESH2 模 块 的 内 部 实物 图 。 


图 6-16 ESH2 模 块 实物 图 


6.7 “一脉相承 一 一 主机 和 磁盘 阵列 本 是 一 家 


1. 盘 阵 《磁盘 阵列 ) 控制 右 的 主机 化 





随 看 人 们 需求 的 不 断 提 高 ， 一 个 存储 系统 拥有 几 TB 甚 至 儿 十 几 百 
TB 的 容量 已 经 不 是 什么 尺 人 的 事情 了 。 面 对 如 此 大 的 容量 和 如 此 多 的 
磁盘 ， 小 小 的 控制 器 已 经 不 能 满足 要 求 了 。 因 此 大 的 主机 系统 符 代 了 短 
小 精 悍 的 控制 器 。 








思考 : ”可 能 有 人 已 经 不 知 所 措 了 ， 用 主机 系统 痊 代 盘 阵 控制 
器 ， 这 不 歼 盾 么 ? 盘 阵 是 给 主机 服务 的 ， 主 机 蔡 代 了 一 阵 控制 
人 右 ， 电 不 是 乱 了 寿 分 了 ? 


和 





事实 并 非 如 此 。 众 所 周知 ， 主 机 系统 的 经 典 架 构 就 是 CPU、 内 存 、 
总 线 、 各 种 IO 设备 和 CPU 执行 的 代码 〈 软 件 ) ， 而 观察 一 下 盘 阵 控制 器 
的 基本 架构 ， 如 RAID 控 制 器 芯片 CPU) 、 内 存 、 总 线 、IO 接 口 
《SCSI 接 口 等 ) 和 RAID 蕊 片 执行 的 代码 〈 软 件 ) ， 就 可 以 发 现 盘 阵 控 
制 器 就 是 一 个 简单 的 主机 系统 。 





既然 这 样 ， 完 全 可 以 用 一 人 台 主 机 服务 器 来 充当 存储 系统 的 控制 右 。 
比如 ， 在 这 台 主 机 上 插入 几 张 SCSI 卡 作为 前 端 接口 卡 ， 再 插入 若干 
SCSI 卡 作为 后 端 连 接 磁 盘 箱 的 接口 卡 ， 然 后 设计 软件 从 / 疝 后 端 读 写 数 
据 ， 经 过 处 理 或 者 虚拟 化 之 后 ， 再 传送 给 前 器 的 主机 服务 器 。 





目前 有 两 种 趋势 : 一 种 是 趋 问 使 用 现成 的 主机 来 充当 控制 器 的 载 
体 ， 另 一 种 是 趋向 使 用 高 集成 度 的 芯片 作为 控制 器 的 核心 。 两 种 趋势 各 
有 利 次 。 


图 6-17 所 示 的 是 一 台 主 机 化 的 磁盘 阵列 实物 图 。 


图 6-17 ”主机 化 的 盘 阵 控制 器 








2. 盘 阵 的 类型 


按照 前 端 和 后 端 接口 来 分 ， 有 SCSIFC 盘 阵 、FC-FC 盘 阵 、SATA- 
FC 盘 阵 、SCSI-SCSI 盘 阵 等 类 型 。SCSI-FC 类 型 表示 后 端 接口 为 SCSI 接 
口 ， 前 端 用 于 连接 主机 的 为 FC 接 口 ， 也 融 是 后 端 为 SCSI 磁 盘 ， 前 端 为 
FC 接 口 的 盘 阵 。 





我 们 在 后 面 会 讲 到 FC-FC 盘 阵 ， 这 也 是 目前 最 高 端的 盘 阵 所 采用 的 
架构 。 图 6-18 所 示 的 就 是 一 台大 型 FC 磁 盘 阵列 的 透视 图 ， 图 示 中 一 共 5 
个 机 柜 ， 中 间 的 机 柜 整 柜 都 为 控制 器 ， 上 方 可 见 一 排 1O 插 卡 ， 插 卡 上 方 
为 9 个 风扇 。 其 余 机 柜 中 均 为 磁盘 扩展 柜 。 








图 6-18 EMC DMX 系 列 盘 阵 透 视图 





6.8 天罗地网 


存储 区 域 网 络 


SAN 








大 家 来 看 最 后 一 张 图 片 ， 如 图 6-19 所 示 。 我 们 一 开始 描绘 的 那 
张 “ 网 中 有 网 ”的 图 片 ， 现 在 大 家 应 该 能 更 深刻 地 理解 了 。 网 络 ， 不 仅仅 
指 以 太 网 、TCP/IP 网 ， 可 以 是 SCSI 网 、PCI 总 线 网 、USB 网 等 。 RAID 控 
制 器 ， 束 相当 于 一 个 路 由 器 ， 也 就 是 协议 转换 器 。 


图 6-19 ”网 中 有 网 








将 磁盘 放 到 了 主机 外 部 ， 存 储 设备 和 主机 之 间 ， 束 形成 了 义 一 个 独 
立 的 网 络 : 存储 区 域 网 络 (Storage Area Network，SAN) 。 


数据 就 是 在 这 种 网 络 中 来 回 穿 梭 ， 格 式 不 断 被 转换 和 还 原 。 


第 7 草 ” 熟 读 宝 典 一 一 系统 与 系统 





之 间 的 语言 OSI 
m OSI 
四 二 元 素 
曙 七 层 结构 


干 百 年 来 ， 江 湖 中 人 一 直 痢 把 祖宗 流传 下 来 的 一 本 宝典 铭记 于 心 ， 
这 本 宝典 束 是 号 称 “ 号 令 武林 ， 英 敢 不 从 ”的 OSI 大 典 ! 











任何 系统 之 间 ， 如 果 需 要 通信 ， 就 有 一 套 上 自己 的 协议 系统 。 这 个 协 
议 系 统 不 仅 要 定义 双方 互相 通信 所 使 用 的 语言 ， 还 要 规定 所 使 用 的 硬 
件 ， 比 如 通信 线路 等 。 例 如 以 太 网 协议 ， 凡 是 接 入 以 太 网 的 交换 机 或 
者 HUB) 节点 ， 痢 必须 苯 循 以 太 网 所 规定 的 通信 规程 。 两 个 对 讲 机 之 间 
进行 通话 ， 必 须 预 多 定义 好 发 送 和 接收 的 频率 ， 而 且 还 要 指定 通信 的 逻 
辑 ， 比 如 每 说 一 句 话 之 后 ， 要 说 一 个 “完毕 ”， 表 示 本 地 已 经 说 完 ， 该 对 
方 说 了 。 











7.1 人 类 模型 与 计算 机 模型 的 对 比 训 析 
人 和 计算 机 ， 二 者 有 着 天 然 的 相似 性 。 


7.1.1 人 类 模型 








人 类 上 自身 用 语言 来 交流 信息 ， 这 本 身 就 是 系统 间 通 信 的 极 佳 例 子 。 
每 个 人 都 是 一 个 系统 ， 这 个 系统 由 八大 子 系统 组 成 ， 每 个 子 系统 行使 目 
己 的 功能 ， 各 个 子 系统 相互 配合 ， 使 得 人 体 可 以 做 出 各 种 各 样 的 事情 ， 
包括 制造 计算 机 系统 这 个 “部 分 仿生 ”产物 。 


1. 消化 系统 


消耗 系统 负 员 食物 的 摄取 和 消化 ， 使 我 们 获得 糖 类 、 脂 肪 、 怎 白 
质 、 维 生 素 等 营养 ， 再 经 过 一 系列 生化 酶 促 反 应 ， 最 终 可 以 生成 能 量 ， 
以 ATP 分 子 的 形式 同 各 个 细胞 供应 化 学 能 ， 再 经 过 一 系列 的 分 子 机 器 
《蛋白质 或 者 蛋白 质 复合 体 ) 的 处 理 ， 可 以 形成 机 械 能 、 热 、 光 、 电 等 
各 种 能 量 形式 。 


2. 神经 系统 





神经 系统 负责 处 理 外 部 信息 和 调控 人 类 自 吴 运动 ， 使 我 们 能 对 外 界 
的 刺激 有 很 好 的 反应 ， 包 括 学 习 等 重要 的 活动 也 是 在 神经 系统 控制 下 完 
成 的 。 比 如 皮肤 、 耳 东 、 眼 睛 等 接收 的 各 种 信号 ， 都 会 经 过 神经 网 络 传 
送 到 大 脑 进行 处 理 并 做 出 反映 。 


3. 呼吸 系统 


呼吸 系统 是 气体 交换 的 场所 ， 可 以 使 人 体 获 得 新 鲜 的 氧气 。 人 类 制 
造 、 储 存 和 利用 能 量 的 每 个 过 程 ， 都 需要 氧气 的 参与 ， 氧 气 是 很 好 的 氧 
化 剂 ， 人 类 利用 这 种 氧化 剂 ， 氧 化 摄取 的 糖 、 怎 白质 等 物质 ， 产 生 能 
量 ， 如 果 没 有 氧气 ， 则 人 体 一 切 的 生命 活动 就 会 终止 ， 包 括 心肌 的 收缩 
和 扩张 运动 。 





4. 循环 系统 








循环 系统 负责 氧气 、 营 养 和 体液 以 及 各 种 信号 控制 分 子 的 运输 ， 废 
物 和 二 氧化 碳 的 排泄 ， 以 及 免疫 活动 。 人 体 的 这 些 空间 中 ， 各 种 器 官 按 
照 规则 分 布 着 ， 每 个 器 官 行使 其 功能 ， 必 须 供给 它们 能 量 、 水 和 氧气 以 
及 各 种 控制 因子 各 白 ， 遇 布 周身 的 密 密 麻 厅 的 动脉 、 静 脉 和 毛细 血管 ， 
就 是 运输 这 些 物 质 必 需 的 通道 。 这 些 物 质 深 在 血液 中 ， 从 动脉 流入 器 

完成 生命 逻辑 后 ， 从 议 脉 流入 肾脏 ， 过 洲 瞩 物 ， 排 汇 ， 干 净 的 静脉 
血 再 流 回 心脏 ， 然 后 进入 动脉 ,经 过 肺 部 的 时 候 ， 将 肺 部 获取 的 氧气 吸 
溶 入 血液 ， 成 为 鲜红 色 的 动脉 血 ， 然 后 再 流入 各 个 器 官 ， 供 给 必须 物 
质 。 











5. 运动 系统 








运动 系统 负 贡 身体 的 活动 ， 使 我 们 可 以 做 出 各 种 动作 。 和 骨骼 和 肌肉 
属于 运动 系统 ， 骨 骼 虽然 不 直接 运动 ， 但 是 它 能 在 肌肉 的 牵引 下 进行 运 
动 。 控 制 肌肉 运动 的 是 神经 信号 ， 大 脑 发 出 神经 控制 信号 《一 系列 的 和 皇 
日 质 或 者 离子 流 ) ， 肌 肉 组 织 收 到 之 后 ， 便 会 引发 雪崩 似 的 化 学 反应 ， 
包括 肌肉 细胞 中 的 微 管 结构 的 不 断 重 组 和 释放 ， 用 这 种 形式 来 改变 细胞 
形状 ， 从 而 造成 肌肉 收缩 或 者 扩张 。 而 微 管 的 组 装 和 释放 ， 需 要 能 量 和 
酶 的 参与 ， 这 时 候 ， 细 胞 便 会 贫 焚 地 利用 ATP 分 子 来 获取 化 学 能 ， 而 血 











液 ATP 损 耗 之 后 ， 血 液 便 会 加 速 流动 到 肌肉 周围 ， 提 供 更 多 的 能 量 。 这 
也 是 运动 时 心脏 加 速 跳 动 的 原因 。 而 心脏 跳动 速 有 度 的 控制 因素 很 多 ， 比 
如 受到 惊吓 的 时 候 ， 大 脑 便 会 分 泌 一 些 物质 ， 传 送 到 心肌 ， 引 发 反应 ， 
促使 跳动 速度 加 快 。 








6. 内 分 泌 系 统 

内 分 泌 系 统 调节 生理 活动 ， 使 各 个 器 官 组 织 协调 运作 。 内 分 泌 系 统 
是 一 个 中 央 调 控 系 统 ， 比 如 生长 素 束 是 内 分 泌 系 统 分 泌 的 一 种 重 白质 分 
子 ， 它 被 骨骼 吸收 后 ， 可 以 促进 骨骼 生长 。 内 分 泌 系 统 如 果 发 生 功 能 
障 ， 则 人 体 束 会 表现 异常 ， 包 括 精 神 和 物理 上 的 异 节 。 

7. 生殖 系统 

生殖 系统 负责 生殖 活动 ， 维 持 第 二 性 征 。 生 殖 系统 是 人 类 繁衍 的 关 
键 ， 生 殖 系 统 将 人 类 的 所 有 特征 融入 精子 和 卵子 ， 受 精 卵 在 母 杀 子宫 中 
逐渐 发 育成 全 功能 的 人 体 。 

8. 泌尿 系统 

泌尿 系统 负责 血液 中 生化 废物 的 排泄 ， 产 生 尿 液 。 


7.1.2 计算 机 模型 





我 们 友 现 ， 计 算 机 系统 和 工作 模式 ， 与 生物 系统 有 很 大 一 部 分 是 类 
似 的 。 


1. 计算 机 的 消化 系统 





消化 子 系统 是 为 整个 系统 提供 基本 能 量 和 排泄 消化 废物 的 。 给 计算 
机 提供 能 量 的 是 电源 和 密布 在 电路 板 上 的 供电 线路 。 为 计算 机 排泄 能 量 
废物 的 ， 是 接地 低 电位 触 点 。 电 流 流 经 供电 线路 ， 到 接地 触 点 终止 ， 将 
能 量 提供 给 电路 板 上 的 各 个 部 件 (器 官 ) 。 此 外 ， 计 算 机 的 “消化 ”也 包 
售 妨 外 的 意思 ， 即 吞 入 数据 、 吐 出 数据 的 过 程 。 计 算 机 从 磁盘 上 读 入 数 
据 ， 进 行 计 算 《〈 消 化 ) 后 ， 再 输出 数据 。 


2. 计算 机 的 循环 系统 


循环 子 系统 是 为 整个 系统 提供 能 量 和 物质 传输 通道 的 。 给 计算 机 提 
供 数 据 传 输 通道 的 是 各 种 总 线 ， 数 据 从 总 线 流入 CPU 处 理 单 元 ， 完 成 计 
算 逻 辑 后 ， 又 从 总 线 输 出 到 内 存 或 者 外 设 。 所 以 我 们 说 ， 计 算 机 的 循环 
系统 ， 就 是 总 线 ， 心 脏 就 是 电路 振荡 装置 。 


3. 计算 机 的 呼吸 系统 


呼吸 子 系统 是 为 整个 系统 提供 完成 生命 巡 辑 所 必需 的 氧化 刑 ， 即 氧 
气 为 计算 机 散热 的 风 局 ， 貌 似 呼吸 系统 ， 但 风 刷 的 功能 更 类 似 于 皮肤 和 
毛孔 的 散热 作用 。 


4. 计算 机 的 神经 系统 


神经 子 系统 的 作用 是 传输 各 种 信号 ， 调 节 各 个 右 官 的 功能 。 对 于 生 
物体 来 说 ， 神 经 系统 是 运行 在 脑 组 织 中 的 一 种 逻辑 ， 这 种 逻辑 通过 执行 
一 系列 生化 物理 反应 来 体现 它 的 存在 。 通 过 向 血液 中 释放 各 种 重 白 质 信 
号 分 子 ， 从 而 靶 问 各 种 器 官 ， 调 它们 的 功能 。 对 于 计算 机 系统 来 说 ， 
神经 系统 就 是 由 CPU 载 入 执行 的 程序 ， 程 序 生成 各 种 信号 ， 通 过 总 线 传 
和 输 给 各 个 外 部 设备 ， 从 而 调节 它们 的 工作 。 


计算 机 的 神经 系统 ， 可 以 认为 束 是 外 部 人 硬件 设备 的 驱动 程序 。 神 经 
网 络 就 是 控制 总 线 ， 循 环 系统 是 数据 总 线 。 而 生物 体内 没有 地 址 总 线 的 
概念 ， 血 管 凑 乱 的 分 布 ， 并 没有 一 种 显 式 的 区 分 机 制 来 区 分 各 个 器 官 或 
者 组 ， 信 号 分 子 可 以 过 布 周 游 全 喘 。 


5. 计算 机 的 运动 系统 


计算 机 本 身 是 一 堆 电 路 和 必 片 ， 不 存在 运动 的 概念 。 但 是 如 果 癌 计 
算 机 接口 上 接 入 了 可 以 运动 的 部 件 ， 比 如 打印 机 、 电 动机 、 硬 盘 等 ， 那 
么 这 些 设备 就 可 以 在 计算 机 控制 信号 〈 神 经 信号 ) 的 驱动 下 做 运动 ， 并 
且 可 以 打印 或 者 读 写 数据 。 








6. 计算 机 的 生殖 系统 


目前 ， 计 算 机 系统 表现 的 生殖 能 力 ， 只 是 在 一 个 硬件 中 生成 不 同 的 
软件 。 软 件 通 过 CPU 的 执行 ， 可 以 任意 复制 上 自身， 并 可 以 形成 新 的 逻 
辑 。 在 这 种 逻辑 下 ， 程 序 通过 无 数 次 的 复制 ， 难 免 在 一 些 细微 的 Bug 或 
者 电路 干扰 的 情况 下 发 生 奇特 的 变化 ， 这 些 变化 一 开始 可 能 不 太 会 表现 
出 来 ， 但 是 随 着 量变 的 积累 ， 束 会 引发 质变 ， 发 生 进化 。 











当然 ， 计 算 机 系统 完全 可 以 物理 复制 硬件 ， 即 通过 程序 控制 外 部 机 
船 ， 来 生产 新 的 计算 机 硬件 ， 然 后 将 软件 复制 到 硬件 上 ， 继 续 索 殖 。 


7.1.3 个 体 间 交流 十 群体 进化 的 动力 





人 也 好 ， 计 算 机 也 好 ， 他 们 之 间 都 在 不 集 地 交流 着 。 人 和 人 的 交 
流 ， 让 人 类 得 到 了 进化 。 同 样 ， 计 算 机 之 间 的 交流 ， 也 会 让 计算 机 得 到 
进化 。 交 流 是 进化 的 动力 ， 不 可 能 有 茶 种 事物 会 完全 脱离 外 界 的 刺 油 而 








目 身 进化 。 


OSI 便 是 这 种 交流 所 遵循 的 一 张 蔓 图。 


7.2 系统 与 系统 之 间 的 语言 一 一 OSI 初 步 


OSI 模 型 是 一 种 被 提取 抽象 出 来 的 系统 间 通 信 模 型 。OSI 中 文 的 意 
思 为 “开放 式 系 统 互联 ”模型 ， 是 一 个 描述 两 个 或 者 多 个 系统 之 间 如 何 交 
流 的 通用 模型 。 它 不 只 适合 于 计算 机 系统 互联 ， 而 且 适 合 任何 独立 系统 
之 间 的 互联 。 比 如 ， 人 体 和 人 体 之 间 的 通信 ， 或 者 人 体 和 计算 机 之 间 的 
通信 ， 都 可 以 用 OSI 模型 来 描述 。 





比如 我 和 你 之 间 需 要 交流 ， 我 们 面对面 坐 着 ， 此 时 我 有 一 句 话 要 和 
你 说 : “您 好 ， 您 怎么 称呼 ? ” 


首先 ， 我 要 说 出 这 句 话 ， 要 在 脑海 中 生成 这 人 句 话 ， 即 在 语言 处 理 单 
元 中 根据 要 表达 的 意思 ， 生 成 符合 语法 的 数据 。 然 后 通过 神经 将 数据 信 
号 发 送 到 声带 、 咬 肌 、 天 头 和 口 形 固定 之 后 ， 使 声带 振动 。 声 融 振 动 导 
致 口腔 空气 共振 ， 发 出 声音 ， 经 过 空气 机 械 波 振动 ， 到 达 你 的 耳膜 接收 
需 ， 耳 膜 被 机 械 波 谐振 于 一 定 频率 ， 耳 膜 的 振动 通过 神经 信号 传导 到 大 
脑 ， 大 脑 相关 的 处 理 单 元 进行 信号 的 解 调 ， 最 终 从 神经 信号 中 提取 出 我 
说 的 话 “ 您 好 ， 您 怎么 称呼 ? ”， 这 人 句 话 在 大 脑 中 ， 可 能 是 离子 流产 生 的 
模拟 电信 号 ， 也 可 能 是 通过 其 他 形式 表示 ， 比 如 一 套 编 码 系统 。 这 人 句 话 
被 传送 到 大 脑 的 语言 处 理 单元 ， 这 个 单元 分 析 这 句 话 , “您 好 ?是 一 个 问 
候 语 ， 当 你 知道 我 在 问候 你 的 时 候 ， 你 的 大 脑 会 在 这 个 “您 好 ?信和 号 的 刺 
激 下 ， 进 入 一 种 “ 礼 铝 ?这 辑 运算 过 程 ， 运 算 生 成 的 信号 ， 通 过 神经 传送 
到 你 的 颈 部 肌肉 ， 收 缩 ， 使 你 的 头 部 下 降 ， 并 使 面部 肌肉 收缩 ， 这 就 完 
成 了 点 头 致意 和 微笑 的 动作 。 














这 个 过 程 ， 与 计算 机 网 络 通信 的 模型 完全 一 致 。 两 人 台 计 算 机 之 间 通 
过 以 太 网 交换 机 相连 ， 它 们 之 间 要 进行 通信 。 比 如 ，a 计 算 机 想 癌 b 计 算 


机 发 送 一 个 数据 包 ， 这 个 数据 包 的 内 容 是 “打开 文件 C:tellme.txt”， 过 程 
如 下 所 示 。 








(1) a 计算 机 首先 要 在 内 存 中 通过 双方 定义 的 语言 ， 生 成 这 个 数据 
包 。 


将 这 个 数据 包 通 过 总 线 发 送 给 TCP/IP 协 议 处 理 单元 ， 告 诉 TCP/IP 处 
理 单元 对 方 的 耳 地 址 和 所 用 的 传输 方式 CUDP 或 TCP) 和 端口 号 。 





TCP/P 处 理 模 块 收 到 这 个 包 之 后 ， 将 它 包 装 好 ， 通 过 总 线 发 送 给 以 
太 网 卡 。 





以 太 网 卡 对 数据 包 进 行 编码 ， 然 后 通过 电路 将 包装 好 的 数据 包 变 成 
一 串 电 路 的 高 低 电 平 振荡 ， 发 送 给 交换 机 。 


交换 机 将 数据 包 交 换 到 b 计 算 机 的 接口 。 


(2) b 计 算 机 收 到 这 串 电 位 流 后 ， 将 其 输送 到 以 太 网 卡 的 解码 心 
片 ， 去 邱 以 太 网 头 ， 之 后 产生 中 断 信 号 ， 将 数据 包 送 到 内 存 。 


由 TCP/P 协 议 处 理 模 块 对 这 个 数据 包 进 行 分 析 ， 提 取 卫 头 和 TCP 或 
UDP 头 ， 以 便 区 分 应 输送 到 哪个 应 用 程序 的 缓冲 区 内 存 。 


最 终 TCP/IP 协 议 将 “打开 文件 C:\tellme.txt” 这 句 话 ， 成 功 输送 到 了 b 
计算 机 应 用 程序 的 缓冲 区 内 存 中 。 


(3) b 计 算 机 应 用 程序 提取 这 人 句 话 ， 分 析 它 的 语法 ， 发 现 a 计 算 机 
要 求 它 打 开 C:\tellme.txt 文 件 ， 则 应 用 程序 根据 这 个 命令 ， 调 用 操作 系统 
打开 文件 的 API 执 行 这 个 操作 。 





分 析 一 下 上 面 的 过 程 ， 我 们 发 现 如 下 内 容 。 


数据 总 是 由 原始 直接 可 读 状态 被 转变 成 电路 的 电位 振 沪 流 ， 或 者 频 
率 和 振幅 不 断 变化 的 机 械 波 ， 也 可 能 转换 成 一 定 频 率 的 电磁 波 。 


互相 通信 的 两 个 系统 之 间 必 定 要 有 连通 的 介质 ， 空 气 、 以 太 网 或 者 
其 他 形式 ， 电 磁 波 传 递 不 需要 介质 。 


相互 通信 的 双方 必须 知道 自己 是 在 和 谁 通 信 。 
以 上 三 个 要 素 ， 就 是 系统 互联 通信 所 具备 的 “ 连 、 找 、 发 ”三 要 素 。 


a 连 : 就 是 指 通信 的 双方 必须 用 某 种 形式 连通 起 来 ， We， 
任何 形式 连通 的 系统 之 间 是 无 法 通信 的 。 即 便 是 电磁 波 通信 ， 
至 少 通过 了 电磁 波 连 通 。 

a 找 : 是 说 通信 的 双方 或 者 多 方 ， 必 须 能 够 区 分 自己 和 对 方 以 及 多 
方 (广播 系统 除外 ) 。 

a 发 : 定义 了 通信 的 双方 如 何 将 数据 通过 连通 介质 或 者 电磁 波 发 送 
到 对 方 。 


7.3 OSI 模型 的 七 个 层次 


网 络 通信 三 元 素 抽 象 模型 是 对 OSI 模 型 的 更 高 层次 的 抽象 。OSI 模 
型 将 系统 间 通 信和 划分 成 了 七 个 层次 。 





OSI 模型 的 最 上 面 的 三 层 ， 可 以 归属 到 应 用 层 之 中 ， 因 为 这 三 层 都 
不 关心 如 何 将 数据 传送 到 对 方 ， 只 关心 如 何 组 织 和 表达 要 传送 的 数据 。 


7.3.1 ”应 用 层 








应 用 层 是 OSI 模型 的 最 上 层 ， 它 表示 一 个 系统 要 对 另 一 个 系统 所 传 
达 的 最 终 信 息 。 比 如 “您 好 ， 您 怎么 称呼 ? ”这 句 话 ， 就 是 应 用 层 的 数 
据 。 应 用 层 只 关心 应 用 层 自 里 的 逻辑 ， 比 如 这 人 句 话 应 该 用 什么 语法 ， 应 
该 加 逗号 还 是 句号 ?末尾 是 否 要 加 一 个 问号 ? 用 “你 ”还 是 “您 ”等 这 样 的 
逻辑 。 对 于 计算 机 系统 来 襄 ， 上 文 所 述 的 例子 中 “open file 
Cxtellme.txt"”， 这 条 指令 ， 就 是 应 用 层 的 数据 。 应 用 层 程序 不 必 关 心 这 
条 指令 是 如 何 传 达到 对 方 的 。 








732 表示 层 


表示 层 就 是 对 应 用 层 数 据 的 一 种 表示 。 如 末 前 面 说 的 “您 好 ， 您 怎 
么 称呼 ? ”这 人 句 话 是 有 一 定 附加 属性 的 ， 例 如 “您 好 ”这 两 个 字 要 显示 在 
对 方 的 屏幕 上 ， 用 红色 显示 在 第 1 行 的 中 央 ， 而 “您 怎么 称呼 ? ”这 几 个 








字 用 赣 色 显示 在 第 10 行 的 中 央 。 这 些 关 于 颜色 、 位 置 等 类 似 的 信息 ， 就 
构成 了 表示 层 的 内 容 。 


发 送 方 必须 用 一 种 双方 规定 好 的 格式 来 表示 这 些 信息 ， 比 如 用 一 个 
特定 长 度 和 位 置 的 字段 来 编码 各 种 颜色 《一 般 用 三 原色 的 组 合 编码 来 表 








示 ) ， 用 一 个 字段 来 表示 行列 坐标 位 置 。 将 这 些 附 加 表示 层 信 息 字 段 放 
置 于 要 表达 的 内 容 的 前 面 或 后 面 ， 接 受 方 按照 规定 的 位 置 和 编码 来 解析 
这 些 表 示 层 信息 ， 然 后 将 颜色 和 位 置信 息 赋予 “您 好 ， 您 怎么 称呼 ? ”这 
句 话 ， 显 示 于 屏幕 上 。 和 需要 强调 一 点 ， 表 示 层 不 一 定 非 得 是 单独 的 一 个 
结构 体 ， 它 可 以 租 入 在 实体 数据 中 。 这 就 是 表示 层 ， 一 些 加 密 等 操作 就 
是 在 表示 层 来 起 作用 的 。 























7.3.3 会 话 层 


顾名思义 ， 会 话 层 的 逻辑 一 定 是 建立 某 种 会 话 交 互 机 制 。 这 种 交互 
机 制 实 际 上 是 双方 的 应 用 程序 之 间 在 交互 。 它 们 通过 交互 一 些 信 息 ， 以 
便 确定 对 方 的 应 用 程序 处 于 民 好 的 状态 中 。 比 如 两 个 人 通电 话 ， 拨 通 之 
后 这 个 问 :“ 能 听 清 么 ? "那个 说 : “能 听 清 ， 请 讲 。” 这 就 是 一 个 会 话 的 
过 程 。 也 就 是 说 通信 的 双方 在 发 送 实际 数据 之 前 ， 先 建立 一 个 会 话 ， 互 
相 打 个 招呼 ， 以 便 确 认 双 方 的 应 用 程序 都 处 于 正常 状态 。 











应 用 层 、 表 示 层 和 会 话 层 的 数据 内 容 被 封装 起 来 ， 然 后 交 给 了 我 们 
的 货物 押运 员 传 输 层 。 


TCP/P 协 议 体 系 模型 中 有 4 层 ， 即 应 用 层 〈 应 用 访问 层 ) 、 传 输 
层 、 网 络 层 和 物理 链 路 层 〈 硬 件 访问 层 ) 。TCP/P 协 议 体系 没有 完全 按 
照 OSI 匹 配 ， Cd 表示 层 和 会 话 层 统统 合并 为 一 层 ， 
叫做 应 用 访问 层 ， 思 是 指 这 个 层 全 部 是 与 应 用 程序 相关 的 逻辑 ， 与 网 

络 通信 无 关 ， 人 4 需 调用 下 层 的 接口 即 可 完成 通信 。 


7.3.4 “传输 层 


可 以 说 OSI 模型 中 上 三 层 属于 应 用 相关 的 ， 可 以 划 入 应 用 层 范 围 ， 

















而 下 四 层 就 属于 网 络 通信 方面 的 。 也 就 是 说 ， 下 四 层 的 作用 是 把 上 三 层 
生成 的 数据 成 功 地 送 到 目的 地 。 典 型 的 传输 层 程序 如 下 。 


TCP 协 议 的 作用 就 是 保障 上 层 的 数据 能 传输 到 目的 地 。TCP 束 像 一 
个 货运 公司 的 押运 员 ， 客 户 给 你 的 货物 ， 就 要 保证 给 客户 送 到 目的 地 ， 
而 不 管 你 通过 什么 渠道 ， 是 直达 《〈 直 连 路 由 ) 还 是 绕道 (下 一 跳 路 
由 ) ， 是 飞机 还 是 火车 、 轮 船 〈 物 理 线 路 类 型 ) 。 





如 果 运 输 过 程 中 出 现 错误 ， 必 须 重 新 把 货物 发 送出 去 。 每 件 货物 到 
了 目的 地 ， 必 须 找 收 件 人 签字 〈TCP 中 的 ACK 应 答 包 ) ， 或 者 一 批 货 
到 达 后 ， 收 件 人 一 次 签收 (滑动 窗口 )。 





最 后 回 公司 登记 。 


提示 : ITCP 还 处 理 拥 塞 和 流量 控制 。 比 如 调度 〈 路 由 器 ) 选择 
了 走 这 条 路 ， 但 是 太 拥 挤 了 ， 那 么 我 也 不 好 次 什么 ， 因 为 选 哪 
条 路 到 达 目 的 是 由 调度 (路 由 占 ) 说 了 算 ， 我 只 管 押 运 。 那 么 
我 只 能 通知 后 续 的 货物 慢 一 点 及 货 ， 因 为 这 条 路 太 挤 了 。 当 道 
路 变 得 畅通 时 ， 我 会 通知 后 面 的 货物 加 速 发 货 。 这 就 是 TCP 的 
任务 。TCP 是 通过 接收 方 返回 的 ACK 应 答 数据 包 来 判断 链 路 是 
否 拥 挤 ， 比 如 发 了 一 批 俩 ， 半 天 都 没 接 收 到 对 方 的 签字 ， 证 明 
链 路 拥 宏 ， 有 货物 被 丢弃 了 ， 那 么 就 减缓 发 送 速 有 度 。 当 有 ACK 
被 接收 到 后 ， 我 会 增加 一 次 及 送 货物 的 数量 ， 直 到 再 次 拥 窗 。 
那么 调度 怎么 知道 这 些 货物 是 送 到 哪里 的 呢 ? 这 是 网 络 层 程 序 
的 任务 。 

注意 : 传输 层 的 程序 一 定 要 运行 在 通信 双方 的 终端 设备 上 ， 
而 不 是 运行 在 中 间 的 网 络 互联 设备 上 。 传 输 层 是 一 种 端 到 病 的 
保障 机 制 ， 所 谓 问 到 端的 保障 吏 是 指数 据 从 一 端 发 送 到 忆 一 器 











之 后 ， 对 方 必 须 在 它 的 传输 保障 时 间 中 成 功 收 到 并 处 理 了 数 

据 ， 才 能 算 发 送 成 功 。 如 果 只 是 发 送 到 了 对 方 的 网 卡 缓冲 区 ， 

此 时 有 发生 故 障 ， 如 突然 断 电 ， 这 就 不 叫嚣 到 端的 保障 。 因 为 数 
气 在 网 卡 缓冲 区 内 ， 还 没有 被 提交 到 TCP 协 议 的 处 理 逻 辑 中 进 
行 处 理 ， 所 以 不 会 返回 成 功 信 号 给 发 送 方 ， 那 么 这 个 数据 包 残 
没有 被 发 送 成 功 ， 发 送 方 会 通过 超时 来 感知 到 这 个 结果 。 





7.3.5 网络 层 


客户 把 货物 交 给 货运 公司 的 时 候 ， 必 须 填写 目的 地 址 “比如 了 地 
址 ) 。 只 要 一 个 地 址 就 够 了 ， 至 于 到 这 个 地 址 应 该 坐 几 路 公交 车 或 哪 趟 
火车 等 问题 ， 客 户 统统 不 管 ， 全 部 交 给 网 络 层 处 理 。 


货运 公司 为 每 件 货 物 贴 上 一 个 地 址 标签 〈(IP 头 ) 。 


货运 公司 的 调度 们 擎 握 了 全 球 范 围 的 地 址 信息 《路 由 表 ) ， 比 如 去 
东 东 地 方 应 该 走 哪 条 路 。 





在 选择 了 一 条 路 之 后 ， 就 让 司机 开车 上 路 了 。 
押运 员 进 行 理 贷 和 收发 货物 ， 没 事 束 在 后 车 厢 里 睡觉。 


此 时 最 忙 的 是 各 个 中 转 站 的 调度 了 。 仙 物 每 次 中 转 到 一 个 地 方 束 交 
给 那个 地 方 的 调度 ， 由 那个 调度 来 决定 下 一 站 应 该 到 哪里 。 





接班 的 时 候 ， 旧 调度 不 必 告 诉 新 调度 最 终 目 的 应 该 怎么 走 ， 因 为 所 
有 的 调度 都 知道 这 个 目的 ， 一 看 就 知道 该 走 什么 路 了 。 











例如 ， 有 客户 从 新 疆 发 货 到 青岛 ， 由 于 新 疆 没 有 直达 青岛 的 航班 或 
者 火车 ， 所 以 只 能 先 到 达 北 京 ， 然 后 再 从 北 泵 直达 青鸟 。 








新 疆 的 调度 收 到 货物 之 后 ， 他 查找 路 由 表 ， 友 现 要 到 青鸟， 必须 先 
到 北京 。 新 疆 的 调度 会 在 货物 上 贴 上 青岛 的 标签 而 不 是 北京 的 标签 ， 但 
古 发 货 的 时 候 ， 调 度 会 选择 将 货物 运送 到 新 疆 到 北京 的 火车 上 。 





货物 到 达 北 泵 之 后 ， 北 京 货 运 分 公司 的 调度 收 到 这 件 货 物 ， 首 先 查 
看 这 件 货 物 的 最 终 目 的 地 址 ， 然 后 北京 调度 也 去 查找 路 由 表 。 他 的 路 由 
表 与 新 疆 调度 的 路 由 表 不 同 ， 在 他 的 表 上 ， 北 京 到 青岛 有 直达 的 火车 ， 
所 以 北京 调度 立即 将 货物 原封 不 动 的 送 上 去 青岛 的 火车 。 就 这 样 一 站 一 
站 的 往 前 送 ( 路 由 转 友 )， 货 物 最 终 从 新 疆 到 达 了 青鸟 。 





思考 : “那么 调度 是 怎么 知道 全 球 地 址 表 〈 路 由 表 ) 的 呢 ? 这 
个 表 的 生成 是 一 个 复杂 的 学 习 阶 段 ， 可 以 通过 调度 自行 学 习 或 
者 调度 之 间 相互 通告 ， 也 可 以 通过 手工 录入 。 前 者 称 为 动态 路 
由 ， 后 者 称 为 静态 路 由 。 


路 由 器 充当 的 就 是 调度 的 角色 。 比 如 在 青岛 想 访问 一 个 位 于 北京 的 
服务 器 ， 有 具体 步骤 如 下 。 


首先 必须 知道 这 个 服务 器 的 IP 地 址 ， 然 后 用 这 个 IP 地 址 作为 最 终 目 
的 地 址 组 装 成 数据 包 ， 发 送 给 位 于 青岛 的 Internet 提 供 商机 房 中 的 路 由 
句 。 


这 个 路 由 器 收 到 这 个 包 后 ， 解 析 其 目的 IP 地 址 ， 然 后 查找 其 路 由 
表 ， 发 现 这 个 目的 耳 地 址 的 包 应 该 从 1 号 端口 转发 出 去 ， 所 以 它 立 即将 
这 个 包 原 封 不 动 地 向 一 号 口 转发 。 一 号 口 通过 光缆 直接 连接 到 了 位 于 河 
北 机 房 中 的 另 一 台 路 由 器 。 


提示 : ”当然 青岛 到 河北 之 间 不 可 能 只 用 一 条 连续 不 断 的 光 统 
连接 ， 中 途 肯 定 经 过 一 些 光缆 通信 中 继 站 。 





河北 的 路 由 器 收 到 这 个 卫 包 后 ， 同 样 根据 目的 卫 地 址 碍 找 路 由 表 ， 
发 现 这 个 目的 地 址 的 包 应 该 从 8 号 端口 中 转 及 ， 它 立即 将 这 个 包 转 发 同 8 
号 端口 。 


8 写 端 口 通过 光 绕 直接 连接 到 了 位 于 北京 机 房 的 一 台 路 由 器 。 


这 人 台 路 由 器 同样 奏 找 路 由 表 做 转发 动作 。 





经 过 一 层 层 的 寻找 ， 最 终 找到 了 北京 的 这 台 服 务 器 ， 将 这 个 包 传送 
到 这 人 台 服 务 器 的 网 卡 ， 并 提交 到 TCP/PP 协 议 处 理 内 存 空 间 中 。 


经 过 解析 和 处 理 ， 服 务 器 发 现 最 终 的 数据 是 一 个 TCP 握 手数 据 包 ， 
然后 TCP/P 程 序 立 刻 返 回 一 个 确认 包 ， 再 次 返回 给 服务 器 一 个 确认 包 。 
三 次 握手 完成 后 ， 就 可 以 同 服务 器 发 送 HTTP 请 求 来 获取 它 的 网 页 资源 
于 


7.3.6 ”数据 链 路 层 
数据 链 路 层 就 是 指 连 通 两 个 设备 之 间 的 链 路 ， 数 据 要 经 过 这 条 链 路 


来 传递 给 对 方 。 数 据 链 路 层 的 程序 将 上 层 的 数据 包 再 次 打包 成 对 应 链 路 
的 特定 格式 ， 按 照 对 应 链 路 的 规则 在 链 路 上 传输 到 对 方 。 





数据 链 路 就 好 比 交 通 规则 。 在 蜗 速 公路 或 者 铁路 上 是 需 要 遵守 规则 
的 ， 不 能 超速 ， 不 能 乱 停车 ， 不 能 开车 灯 到 最 亮 等 。 上 路 之 前 ， 先 要 看 
看 公路 的 质量 怎么 样 ， 是 不 是 适合 跑车 或 者 先 和 对 方 商量 一 下 传输 的 事 
宜 。 这 就 是 链 路 层 协商 。 





链 路 层 的 作用 





首先 是 协商 链 路 参数 ， 比 如 双 工 、 速 率 、 链 路 质量 等 。 


其 次 是 将 上 层 数 据 内 容 打 包 成 帧 ， 加 上 同步 头 进行 传输 ， 一 次 传输 
一 句 或 者 一 个 字符 一 个 字符 的 传输 (取决 于 上 层 的 选择 〉。 


最 后 ， 链 路 层 程 序 调用 物理 层 提 供 的 接口 ， 将 帧 提交 给 物理 层 。 


相对 于 传输 层 的 保障 来 说 ，OSI 的 数据 链 路 层 也 提供 一 些 保障 机 
制 。 比 如 一 些 链 路 层 协 议会 在 每 个 帧 后 面 加 一 个 校 验 字段 ， 如 果 对 方 收 
到 的 帧 的 校 验 值 与 这 个 校 验 字段 不 符 ， 则 证 明 链 路 受到 干扰 ， 数 据 产生 
辐 变 ， 那 么 驶 将 这 一 帧 视 为 无 效 帧 直接 丢 和 并， 不 会 同上 层 报 告 这 个 错 
误 ， 因 为 上 层 对 链 路 层 的 错误 不 关心 。 而 接收 方 的 传输 层 协议 会 感知 某 
个 包 没 有 到 达 或 者 不 完整 ， 接 收 方 的 传输 层 协议 会 要 求 发 送 方 重 新 传送 
这 个 不 完整 或 者 没有 接收 到 的 包 ， 也 就 是 端 到 端的 保障 传输 。 链 路 层 只 
侦 错 ， 不 纠 错 ， 而 传输 层 既 侦 错 ， 又 纠 错 。 





根据 OSI 模型 ， 两 合 路 由 器 或 者 交换 机 之 间 传 送 数据 也 属于 两 个 系 
统 间 的 互联 ， 那 么 它们 也 一 定 遵循 OSI 的 模型 。 下 面 就 来 分 析 一 下 两 台 
PC 之 间 通 信和 两 个 路 由 器 之 间 通 信 有 什么 区 别 。PC 间 通信 我 们 上 文 已 
经 描述 过 ， 下 面 来 讲 一 下 路 由 间 的 通信 。 





简单 的 路 由 器 设备 工作 在 OSI 的 第 三 层 ， 即 网 络 层 。 它 只 处 理 下 三 
层 的 内 容 ， 只 有 下 三 层 的 处 理 逻 辑 ， 而 没有 上 四 层 的 处 理 逻 辑 。 路 由 器 
收 到 包 后 ， 只 检查 包 中 的 IP 地 址 ， 不 会 改变 任何 IP 头 之 上 的 其 他 内 容 ， 
最 简单 的 路 由 器 其 至 不 会 改变 IP 头 。 在 一 些 带 有 诸如 NAT 功 能 的 路 由 器 
上 ， 可 能 会 对 卫 包 的 源 或 者 目的 耳 地 址 做 修改 。 数 据 包 流 入 路 由 器 后 ， 
路 由 器 只 分 析 到 第 三 层 的 了 P 头 ， 便 可 以 根据 路 由 表 完 成 转发 逻辑 。 








如 图 7-1 所 示 为 通信 路 径 上 各 个 设备 所 作用 的 层次 示意 图 ， 具 体 过 


程 如 下 。 














图 7-1 通信 路 径 上 各 个 设备 所 作用 的 层次 








左边 的 PC 机 A 连 接 到 路 由 器 A 的 以 太 网 卡 L 上 ， 路 由 器 A 的 以 太 网 卡 
2 与 路 由 器 B 的 以 太 网 卡 2 相连 ， 右 边 的 PC 机 B 连 接 到 路 由 器 B 的 以 太 网 
卡 1 上 。 此 时 ， 要 用 PC 机 A 上 的 下 浏览 器 访问 位 于 PC 机 B 上 的 Web 服 务 ， 
在 下 浏览 器 的 地 址 栏 中 输入 PC 机 B 的 人 P 地 址 并 按 Enter 键 后 ，IE 浏 览 器 便 
会 调用 WinSock 接 口 来 访问 操作 系统 内 核 的 TCP/IP 协 议 栈 。IE 浏 览 器 告 
诉 TCP/IP 协 议 栈 它 所 访问 的 目的 IP 地 址 和 目的 端口 ， 并 把 要 发 送 的 数据 
告诉 TCP/IP 协 议 栈 。IE 浏 览 嚣 发送 给 PC 机 B 的 数据 ， 当 然 是 一 个 HTTP 
GET 请 求 ， 具 体内 容 属 于 上 三 层 ， 在 这 里 不 关心 也 不 做 分 析 。 


TCP/IP 协 议 栈 收 到 这 个 数据 之 后 ， 发 现下 浏览 器 与 PC 机 B 当 前 并 不 
存在 连接 ， 所 以 它 首先 要 向 PC 机 B 上 的 TCP/IP 协 议 栈 发 起 连接 请 求 ， 也 
就 是 TCP 的 三 次 握手 过 程 。 PC 机 A 的 TCP/IP 协 议 栈 先 组 装 第 一 次 握手 IP 
包 ， 组 好 后 发 送 给 操作 系统 内 核 缓冲 区 ， 内 核 调 用 网 卡 驱 动 程序 从 缓冲 
区 内 将 这 个 IP 包 编码 并 在 线路 上 传递 出 去 。 握 手数 据 包 很 小 ， 只 要 一 个 
以 太 网 帧 束 可 以 容纳 。 





这 个 帧 最 终 到 达 路 由 器 A 的 以 太 网卡 1 绥 冲 区 内 。 以 太 网 卡 1 产 生 中 
断 信 号 ， 然 后 将 这 个 帧 去 挥 以 太 网 兴 ， 发 送 到 路 由 器 A 的 内 存 中 ， 等 待 
IP 转 发 逻辑 模块 的 处 理 。 运 行 在 路 由 絮 A 上 的 IP 转 发 逻辑 模块 ， 其 实 束 
是 IP 路 由 协议 计算 模块 ， 这 个 模块 分 析 此 IP 包 的 头 部 目的 IP 地 址 ， 查 找 
路 由 表 以 确定 这 个 包 将 从 哪个 接口 及 送 出 去 。IP 路 由 运算 一 定 要 快速 局 
效 ， 才 不 至 于 对 网 络 性 能 造成 瓶颈 。 





路 由 器 A 碍 找 路 由 表 发 现 这 个 包 应 当 从 以 太 网 卡 2 转 发 出 去 ， 所 以 


它 立 即将 这 个 包 发 送 到 以 太 网 卡 2 并 通过 线路 传送 到 了 路 由 器 B 的 以 太 网 
卡 2 上 。 经 过 同样 的 过 程 ， 路 由 器 B 将 这 个 包 路 由 到 PC 机 B 的 以 太 网 卡 组 
冲 区 内 ，PC 机 B 的 网 卡 产生 中 断 ， 将 这 个 包 通 过 总 线 传 送 到 PC 机 B 的 
TCP/IP 协 议 栈 缓冲 区 内 存 。 


运行 在 PC 机 B 上 的 TCP/IP 协 议 栈 程序 分 析 这 个 包 ， 发 现 IP 是 自己 
的 ，TCP 端 口号 为 80， 握 手 标识 位 为 二 进 制 1， 就 知道 这 个 连接 是 由 源 
地 址 IP 所 在 的 设备 向 自己 的 80 端 口 ， 也 就 是 Web 服 务 程序 所 监听 的 端口 
发 起 的 握手 连接 。 根 据 这 个 逻辑 ，TCP/IP 协 议 栈 返回 握手 确认 IP 包 给 PC 
机 A，PC 机 A 再 返回 一 个 最 终 确认 包 ， 这 样 就 完成 了 TCP 的 三 次 握手 。 





握手 成 功 后 ，PC 机 A 上 的 TCP/IP 协 议 栈 立即 在 其 缓冲 区 内 将 由 正 浏 
蜂 器 发 送 过 来 的 HTTP GET 请 求 数据 组 装 成 TCP/IP 数 据 包 ， 发 送 给 PC 机 
B。PC 机 B 得 到 这 个 数据 包 之 后 ， 分 析 其 TCP 端 口号 ， 并 根据 对 应 关系 
将 数据 放 到 监听 这 个 端口 的 应 用 程序 的 缓冲 区 内 存 。 


应 用 程序 收 到 这 个 GET 请 求 之 后 ， 便 会 触发 Web 服 务 逻 辑 流程 ， 返 
回 Web 网 页 数据 ， 同 样 经 由 PC 机 B 的 TCP/IP 协 议 栈 ， 发 送 给 PC 机 A。 








上 述 过 程 是 一 个 正常 通信 的 过 程 。 





提示 : ”如 果 在 PC 机 B 向 PC 机 A 传送 网 页 数据 的 时 候 ， 路 由 器 A 
和 路 由 器 B 之 间 的 链 路 发 生 了 几 秒 钟 的 短暂 故障 后 又 恢复 连通 
性 ， 这 期 间 丢 失 了 很 多 数据 。 虽 然 这 样 ， 依 靠 TCP 协 议 的 纠 错 
功能 ， 数 据 依然 会 被 顺序 的 传送 给 PC 机 A。 


我 们 就 来 分 析 一 下 TCP 是 如 何 做 到 的 。 假 如 ， 在 链 路 中 断 的 时 候 ， 
恰好 有 一 个 帧 在 链 路 上 传送 。 发 生 故 障 后 ， 这 个 帧 就 永久 的 丢失 了 。 即 
使 链 路 恢复 后 ， 路 由 需 也 不 会 重新 传送 这 个 帧 。 但 PC 机 B 由 于 很 长 时 间 





都 没有 收 到 PC 机 A 的 确认 信息 ， 便 知道 刚才 发 送 的 数据 包 可 能 已 经 被 中 
途 的 网 络 设备 丢弃 了 ， 所 以 PC 机 B 上 的 TCP 协 议 将 重新 发 送 这 个 数据 
包 。 


提示 : ”未 接收 到 确认 的 包 会 存放 在 缓冲 区 内 ， 不 会 删除 ， 直 
到 收 到 对 方 确认 。 


所 以 ， 即 便 中 途经 过 的 网 络 设备 将 这 个 包 丢 弃 了 ， 运 行 在 通信 路 径 
最 两 端的 TCP/IP 协 议 ， 依 然 会 重 传 这 些 丢 弃 的 包 ， 从 而 保障 了 数据 传 
输 ， 这 也 就 是 端 到 端的 传输 保障 。 只 有 站 到 端的 保障 ， 才 是 真正 的 保 
障 ， 因 为 中 途 网 络 设备 不 会 缓存 发 送 的 数据 ， 更 不 会 自动 重 传 。 





7.3.7 ”物理 层 


物理 层 的 作用 就 是 研究 在 一 种 介质 上 《或 者 真空 ) 如 何 将 数据 编码 
发 送 给 对 方 。 如 果 选 择 公 路 来 跑 汽 车 ， 要 根据 沥青 路 或 者 土路 来 选用 不 
同 的 轮胎 :如 果 选 择 利用 空气 来 跑 飞 机 ， 则 需 根 据 不 同 的 气流 密度 来 调 
整 飞行 参数 ， 如 果 选 择 了 真空 ， 则 只 能 利用 电磁 疲 或 者 光 来 传输 ， 可 以 
根据 障碍 物 等 因素 选择 不 同 波长 的 波 来 承载 信 写 ;如果 选择 了 海水 ， 则 
要 根据 不 同 的 浪 避 来 调整 豚 海 参数 。 这 些 都 是 物理 层 所 关心 的 。 

















物理 层 和 链 路 层 的 区 别 











物理 层 和 链 路 层 是 很 容易 混 消 的 两 个 层次 。 链 路 层 是 控制 物理 层 
的 。 物 理 层 好 比 一 个 罕 头 举 脑 的 传送 带 ， 它 不 停 地 在 运转 ， 只 要 有 东西 
放 到 传送 带 上 就 会 被 运输 到 对 方 。 不 管 给 它 什么 东西 ， 它 都 一 视 同 仁 并 
且 不 会 俘 下 。 





假设 你 我 之 间 有 一 个 不 停 运转 的 传送 带 ， 共 时刻 我 有 一 大 批 货物 要 


传送 给 你 ， 是 否 可 以 一 股 脑 的 把 这 些 货物 不 停 地 放 到 传送 带 上 ， 一 下 子 
传送 给 你 呢 ? 当然 可 以 ， 但 是 那样 将 没有 整理 货物 的 时 间 ， 永 远 处 于 不 
停 地 从 传送 带 上 拿 下 货物 的 状态 ， 货 物 越 堆 越 多 ， 最 终 造 成 月 溃 。 如 果 
能 将 货物 一 批 一 批 的 传送 过 来 ， 不 但 给 予 了 双方 充足 的 整理 货物 的 时 

间 ， 而 且 使 得 货物 传输 显得 井井有条 。 而 将 货物 分 批 这 件 事 ， 传 送 带 本 
身 是 不 会 做 的 ， 只 能 靠 TCP 或 者 来 做 。 链 路 层 给 每 批 货物 附加 上 一 些 
标志 性 的 头 部 或 者 尾部 ， 接 收 方 看 到 这 些 标志 ， 就 知道 一 批 货物 又 来 

了 ， 并 做 接收 动作 。 











每 种 链 路 ， 都 有 目 己 的 一 个 最 适 分 批 大 小 ， 叫 做 最 大 传输 单元 ， 
MTU。 每 次 传输 ， 链 路 上 最 大 只 能 传输 MTU 大 小 的 货物 。 如 果 要 在 一 
次 传输 中 传送 大 于 这 个 大 小 的 货物 ， 超 过 了 链 路 接收 方 的 处 理 否 叶 量 ， 
则 可 能 造成 接收 方 缓冲 区 溢出 或 者 强行 截断 等 错误 。 





TCP 和 IP 这 两 个 协议 程序 都 会 给 货物 分 批 。 第 一 个 分 批 的 是 TCP， 
下 到 IP 这 一 层 ， 叉 会 根据 链 路 层 的 分 批 大 小 来 将 TCP 已 经 分 批 的 贷 物 再 
次 分 批 ， 如 果 TCP 分 批 小 于 链 路 层 分 批 ， 则 了 P 不 需要 再 分 。 如 果 是 大 于 
链 路 层 的 分 批 ， 则 IP 会 将 货物 分 批 成 适合 链 路 层 分 批 的 大 小 。 被 人 P 层 分 
批 的 货物 ， 最 终 会 由 接收 方 的 IP 层 来 再 组 闭合 并 ， 但 是 由 TCP 分 批 的 货 
物 ， 接 收 方 的 TCP 层 不 会 合并 ，TCP 可 以 任意 分 割 货 物 进 行 发 送 而 接收 
的 时 候 并 不 做 合并 的 动作 。 对 货物 的 处 理 分 析 全 部 交 由 上 层 应 用 程序 来 
处 理 ， 所 以 利用 TCP/P 通 信 的 应 用 程序 必须 对 自己 所 发 送 的 数据 有 定 界 


音 施 。 








说 白 了 ， 物 理 层 就 是 用 什么 样 的 线 统 、 什 么 样 的 接口 、 什 么 样 的 物 
理 层 编码 方式 ， 归 零 还 是 不 归 零 ， 同 步 方式 ， 外 同步 还 是 内 同步 ， 高 电 
压 范围 ， 低 电压 范围 ， 电 气 规范 等 的 东西 。 








通过 物理 层 编码 后 ， 我 们 的 数据 最 终 变 成 了 一 串 比 特 流 ， 通 过 电路 
振荡 传输 给 对 方 。 对 方 收 到 比特 流 后 ， 提 交 给 链 路 层 程序 ， 由 程序 处 
理 ， 剥 去 链 路 层 同 步 头 、 帧 头 帧 尾 、 控 制 字符 等 ， 然 后 提交 给 网 络 层 处 
理 程序 〈TCP/P 协 议 栈 等 ) 。 卫 头 是 个 标签 ， 收 件 人 通过 IP 头 来 查看 这 
个 货物 是 谁 发 的 。TCP 头 在 完成 押运 使 命 之 后 ， 还 有 一 个 作用 就 是 确定 
由 哪个 上 层 应 用 程序 来 处 理 收 到 的 包 〔( 用 端口 号 来 决定 ) 。 应 用 程序 收 
到 TCP 提 交 的 数据 后 ， 进 行 解析 人 处理。 








7.4 OSI 与 网 络 


网 络 就 是 由 众多 节点 通过 茶 种 方式 互相 连通 之 后 所 进行 的 多 点 通信 
系统 。 既 然 涉及 到 市 点 与 证 点 间 的 通信 ， 那 么 就 会 符合 OSI 模 型 。 











首先 我 们 看 看 计算 机 总 线 网 络 。CPU、 内 存 、 外 设 三 者 通过 总 线 互 
相连 接 起 来 ， 当 然 总 线 之 间 还 有 北桥 和 南 桥 ， 这 两 个 蕊 片 犹如 IP 网 络 中 
的 IP 路 由 器 或 者 网 桥 。CPU 与 内 存 这 两 个 部 件 都 连接 到 北桥 这 个 路 由 器 
上 ， 然 后 北桥 连接 到 南 桥 ， 南 桥 下 连 一 个 HUB 总 线 ，HUB 上 连接 了 众 
多 的 外 设 ， 这 些 外 设 共 享 这 个 HUB 与 南 桥 进行 通信 。 





提示 : ”说 到 HUB， 不 要 认为 是 专 指 以 太 网 中 的 HUB，HUB 的 
意思 束 是 一 条 总 线 。 如 果 在 这 条 总 线 上 运行 以 太 网 协议 ， 则 就 
是 以 太 网 HUB; 如 果 在 这 条 总 线 上 运行 的 是 PCI 协 议 ， 则 就 是 
PCIHUB (PCI 总 线 ) 。 


连接 到 以 太 网 HUB 上 的 各 个 节点 ， 采 用 CSMA/VCD 的 竞争 机 制 来 获 
取 总 线 使 用 权 ，PCI 总 线 同 样 采 用 仲裁 竞争 机 制 ， 只 是 实现 方式 不 同 。 
实现 方式 也 可 以 称 为 协议 ， 所 以 有 以 太 网 HUB 和 PCI HUB 之 分 ， 也 就 是 
说 HUB 上 运行 的 是 不 同 的 协议 。 当 然 以 太 网 HUB 设 计 要 求 远 远 比 PCI 
HUB 低 ， 速 度 也 低 很 多 。 








图 7-2 所 示 的 模型 是 一 个 常见 的 小 型 网 络 ， 几 台 PC 通 过 以 太 网 HUB 
和 路 由 器 互相 连接 起 来 ， 然 后 通过 运行 在 每 台 PC 上 的 TCP/P 协 议 来 通 
信 。 路 由 器 的 作用 只 是 分 析 目 的 IP 地 址 从 而 做 转发 动作 。 




















图 7-2 


全 


型 的 网 络 





而 我 们 再 观察 一 下 图 7-3， 发 现 除了 连接 各 个 组 件 之 间 的 线路 变 成 
了 并 行 多 线路 之 外 ， 其 他 没有 什么 大 的 变化 。 但 是 ， 这 两 个 网 络 的 通信 
过 程 是 有 区 别 的 。 上 面 的 网 络 利 用 一 种 高 级 复杂 的 协议 一 一 ICP/P 协 议 
来 通信 ， 而 图 7-3 所 示 的 网 络 是 通过 直接 总 线 协 议 进行 通信 。 在 下 面 的 
网 络 中 ， 各 个 部 件 之 间 的 连 线 非常 短 ， 速 度 很 蜗 且 非常 稳定 ， 自 号 束 可 
以 保障 数据 的 稳定 传输 ， 所 以 不 需要 TCP 这 种 传输 保障 协议 的 参与 。 在 
上 面 的 网 络 中 ， 各 个 部 件 之 间 可 能 相隔 很 远 的 距离 ， 链 路 速度 慢 ， 稳 定 
性 不 如 主板 上 的 导线 高 ， 所 以 必须 运行 一 种 痢 到 端的 传输 保障 协议 ， 比 
如 TCP 协 议 ， 来 保障 端 到 端的 数据 传输 。 














图 7-3 ”计算 机 总 线 网 络 





此 外 ， 上 面 的 两 个 网 络 模 型 ， 其 本 质 是 相同 的 ， 因 为 它们 两 个 都 是 
从 基本 原理 发 展 而 来 的 。 我 们 说 ， 这 两 个 网 络 模型 都 符合 OSI 这 个 抽象 
模型 。 再 甚 者 ， 这 两 个 模型 都 符合 “ 连 、 找 、 发 ”抽象 模型 。 








首先 ， 所 有 部 件 之 间 都 用 了 导线 来 连接 。 对 于 第 一 个 人 模型， 导线 为 
双 绞 线 或 者 其 他 形式 的 外 部 电 绕 ， 对 于 第 二 个 模型 ， 导 线 为 电路 板 上 印 
刷 的 蛇行 线 。 这 就 是 所 谓 “ 连 ”。 


其 次 ， 这 两 个 模型 中 都 有 寻 址 的 逻辑 。 第 一 个 模型 利用 IP 地 址 作为 
寻 址 方法 ; 第 二 个 模型 中 利用 地 址 总 线 作为 寻 址 方法 。 这 就 是 所 
谓 “ 找 >” 有 


提示 : ”生物 细胞 之 间 的 通信 ， 同 样 符合 OSI 模 型 和 “ 连 找 发 " 模 
型 。 细 胞 之 间 通过 血管 来 传递 信息 ， 这 就 是 “ 连 *"， 通 过 配 体 一 
受 体 关系 来 找到 目标 ， 这 就 是 “ 找 "， 血 液 流动 将 配 体 分 子 传递 
(广播 ) 到 人 体 的 每 个 角落 ， 这 就 是 “发 "。 我 国 分 子 生态 学 创 


始 人 向 近 敏 曾经 提出 分 子 信 息 网 络 学 说 ， 就 恰恰 体现 了 网 络 的 
思想 。 在 分 子 上 层 ， 还 有 细胞 信息 网 络 学 说 和 遗传 信息 网 络 学 
说 ， 它 们 一 个 比 一 个 高 层 ， 一 个 比 一 个 抽象 。 然 而 分 子 信 息 网 
络 也 不 一 定 束 是 最 底层 的 网 络 ， 或 许 还 有 原子 信息 网 络 、 电 子 


信息 网 络 等 。 











最 后 ， 第 一 个 模型 利用 TCP 协 议 进行 有 保障 的 数据 发 送 动 作 ， 第 二 
个 模型 中 由 于 线路 非常 稳定 ， 不 需要 高 级 协议 参与 ， 而 古 直 接 利 用 电路 
逻辑 从 目标 部 件 将 数据 复制 过 来 。 这 惑 是 所 谓 “ 及 ”。 


网 中 有 网 


我 们 在 以 前 的 章节 中 ， 多 次 提 到 过 “网 中 有 网 ”这 个 词 。 而 我 们 现在 
再 来 体会 一 下 ， 发 现 计 算 机 系统 、 计 算 机 网 络 、Internet， 这 些 系统 ， 确 
实 可 以 用 网 中 有 网 来 描述 。 计 算 机 总 线 这 个 微型 网 络 ， 通 过 一 个 网 卡 ， 
接 入 以 太 网 交换 机 或 者 HUB， 与 其 他 计算 机 总 线 网 络 形成 一 个 局 域 
网 ， 然 后 这 个 局 域 网 再 连接 到 路 由 器 网 关 ， 从 而 连接 到 更 大 的 网 络 ， 甚 
至 Internet。 


所 有 的 网 络 ， 都 按照 OSI 和 * 连 找 发 ”模型 有 条 不 率 地 通信 交互 着 ， 
为 我 们 服务 。 分 子 之 间 和 细胞 之 间 神 奇 地 相互 作用 独 ， 地 球 和 月 球 有 条 
不 率 地 旋转 运行 看 ， 太 阳 系 绥 慢 地 上 自转， 并 围绕 着 更 大 的 银河 系 旋转 。 


第 8 章 ” 勇 破 难 关 一 一 Fibre 
Channel 协 议 详 解 


四 下 ibre Channel 





@ 网 状 通 道 协议 


OSI 


本 书 的 第 6.8 市 ， 引 出 了 SAN 的 概念 。SAN 首 先是 个 网 络 ， 而 不 是 
旨 存 储 设 备 。 当 然 ， 这 个 网 络 是 专门 用 来 给 主机 连接 存储 设备 用 的 。 这 
个 网 络 中 有 着 很 多 的 元 件 ， 它 们 的 作用 都 是 为 了 让 主机 更 好 地 访问 存储 


设备 。 


SAN 概 念 的 出 现 ， 只 是 个 开头 而 已 ， 因 为 按照 SCSI 总 线 16 个 节点 的 
限制 ， 不 可 能 接 入 很 多 的 磁盘 。 要 扩大 这 个 SAN 的 规模 ， 还 有 很 长 一 段 
路 要 走 。 如 果 仅 仅 用 并 行 SCSI 总 线 ， 那 么 SAN 只 能 像 PCI 总 线 一 样 作为 
主机 的 附属 品 ， 而 不 可 能 成 为 一 个 真正 独立 的 “网 络 ?。 必 须 找到 一 种 可 
寻 址 容量 大 、 稳 定性 强 、 速 度 快 、 传 输 距离 远 的 网 络 结构 ， 从 而 连接 控 
制 器 和 磁盘 或 者 连接 控制 器 到 主机 。 








干脆 破釜沉舟 ， 独 立 研发 一 套 全 新 的 网 络 传输 系统 ， 专 门 针 对 局 部 
范围 的 高 速 高 效 传 输 。 


然而 ， 形 成 一 套 完 整 的 网 络 系统 并 非 易 事 ， 首 先 必须 得 有 个 蓝图 。 





这 个 瘤 图 是 否 有 现成 可 以 参考 的 呢 ? 当然 有 ，OSI 就 是 一 个 经 典 的 蓝 
图 。OSI 是 对 任何 互联 系统 的 抽象 。 


8.1 FC 网 络 一 一 极 佳 的 候选 角色 


FC 协议 自从 1988 年 出 现 以 来 ， 已 经 发 展 成 为 一 项 非常 复杂 、 高 速 
的 网 络 技术 。 它 最 初 并 不 是 研究 来 作为 一 种 存储 网 络 技术 的 。 最 早 版 本 
的 FC 协议 是 一 种 为 了 包括 IP 数 据 网 在 内 的 多 种 目的 而 推出 的 高 速 骨干 网 
技术 ， 它 是 作为 惠普 、Sun 和 IBM 等 公司 组 成 的 R&D 实验 室 中 的 一 项 研 
究 项 目 开 始 出 现 的 。 曾 经 有 几 年 ，FC 协 议 的 开发 者 认为 这 项 技术 有 一 
天 会 取代 100BaseT 以 太 网 和 FDDI 网 络 。 在 20 世 纪 90 年 代 中 期 ， 还 可 以 
看 到 研究 人 员 关 于 FC 技术 的 论文 。 这 些 论文 论述 了 FC 协议 作为 一 种 高 
速 骨 干 网 络 技术 的 优点 和 能 力 ， 而 把 存储 作为 不 重要 的 应 用 放 在 了 第 二 


二 


位 。 


Fibre Channel 也 就 是 “网 状 通道 ”的 意思 ， 简 称 FC。 

提示 : ”由 于 Fiber 和 Fibre 只 有 一 字 之 差 ， 所 以 产生 了 很 多 流传 
的 误解 。FC 只 代表 Fibre Channel， 而 不 是 Fiber Channel， 后 者 
被 翻译 为 “光纤 通道 "， 甚 至 接口 为 FC 的 磁盘 也 被 称 为 “光纤 磁 
盘 ”， 其 实 这 些 都 是 很 滑稽 的 误解 。 


不 过 到 目前 为 止 ， 似 乎 称 FC 为 光纤 而 不 是 直接 称 其 FC 的 文章 和 资 
料 更 多 。 这 种 误解 使 得 初 入 存储 行业 的 人 摸 不 看 头脑 ， 认 为 FC 就 是 使 
用 光纤 的 网 络 ， 甚 至 将 FC 与 使 用 光纤 传输 的 以 太 网 链 路 混 清 起 来 。 在 
本 书 内 不 会 使 用 “光纤 通道 ?或 者 “光纤 磁盘 ?这 种 定义 ， 而 统统 使 用 FC 
和 ”“FC 磁 盘 ”。 相 信 在 阅读 完 本 章 之 后 ， 大 家 就 不 会 再 混 消 这 些 概念 了 ， 
会 知道 FC 与 光纤 根本 就 没有 必然 的 联系 。 











Fibre ” Channel 可 以 称 为 FC 协议 ， 或 FC 网 络 、FC 互 联 。 像 TCP/IP 一 
样 ，FC 协 议 集 同 样 具 备 TCP/IP 协 议 集 以 及 以 太 网 中 的 很 多 概念 ， 比 如 


FC 交换 、FC 交 换 机 、FC 路 由 、FC 路 由 器 ，SPF 路 由 算法 等 。 我 们 完全 
可 以 类 比 地 看 待 TCP/IP 协 议 以 及 FC 协议 ， 因 为 它们 都 遵循 0SI 的 模型 。 
任何 互联 系统 都 逃 不 过 OSI 模 型 ， 不 可 能 存在 杂种 不 能 归属 于 OSI 中 茶 
个 层次 的 元 素 。 





下 面 我 们 用 OSI 来 将 FC 协议 进行 断层 分 析 。 
8.1.1 ”物理 层 


OSI 的 第 一 层 就 是 物理 层 。 作 为 一 种 高 速 的 网 络 传输 技术 ，FC 协 议 
体系 的 物理 层 具有 比较 高 的 速度 ， 从 1Gb/s、2Gb/s、4Gb/s 到 当前 的 
8Gb/s。 作 为 高 速 网 络 的 代表 ， 其 底层 也 使 用 了 同步 串 行 传输 方式 ， 而 
且 为 了 保证 传输 过 程 中 的 电 直 流 平 衡 、 时 钟 恢复 和 纠 错 等 特性 ， 其 传输 
编码 方式 采用 NMb 编 码 方式 。 








为 了 实现 远 距 离 传输 ， 传 输 介 质 起 码 要 文 持 光纤 。 铜 线 也 可 以 ， 但 
是 距离 受 限 制 。FC 协 议 集 中 物理 层 的 电气 子 层 名 为 FC0， 编 码 子 层 名 为 
FC1。, 

8.1.2 ” 链 路 层 


1. 字符 编码 以 及 FC 帧 结构 





现代 通信 在 链 路 层 一 般 部 是 成 帧 的 ， 也 就 是 将 上 层 发 来 的 一 定数 量 
的 位 流 打包 加 头 尾 传输 。FC 协 议 在 链 路 层 也 是 成 帧 的 。 既 然 需要 成 
帧 ， 那 么 一 定 要 定义 帧 控制 字符 。 


FC 协议 定义 了 一 系列 的 帧 控制 集 略 及 对 应 的 字符 。 这 些 控 制 字 符 
不 是 ASCII 码 字符 集中 定义 的 那些 控制 字符 ， 而 是 单独 定义 了 一 套 专门 





用 于 FC 协议 的 字符 集 ， 称 为 “有 序 集 ”"。 其 中 的 每 个 控制 字符 其 实 是 由 4 

个 8 位 字 节 组 成 的 ， 称 为 一 个 “ 字 ”(word) ， 而 每 个 控制 字 开 头 的 一 个 

字 节 总 是 经 过 8 10b 编 码 之 后 的 0011111010 (左旋 ) 或 者 
1100000101 ( 右 旋 )。 





由 于 还 没有 标准 名 词 出 现 ， 所 以 不 得 不 引入 “左旋 ”和 “ 右 旋 ”这 两 个 
化 学 名 词 来 描述 这 种 镜像 编码 方式 。 左 旋 和 右 旋 是 指 1 和 0 对 调 。 编 码 电 
路 可 以 根据 上 一 个 10 位 中 所 包含 的 1 的 个 数 来 选择 下 一 个 10 位 中 1 的 个 
数 。 如 果 上 一 个 1 的 个 数 比 0 的 个 数 少 ， 那 么 下 一 个 10 位 中 就 编码 成 1 的 
个 数 比 0 的 个 数 多 ， 这 样 总 体 平衡 了 1 和 0 的 个 数 。 





0011111010 左 旋 或 者 1100000101 右 旋 ，FC 协 议 给 这 个 字符 起 了 一 
个 名 字 ， 叫 做 K28.5。 这 个 字 未 经 过 8 10b 编 码 之 前 的 值 是 十 六 进 制 BC， 
即 10111100， 它 的 低 5 位 为 11100 《十进制 的 28〉， 高 3 位 为 101 十进制 
的 5) 。FC 协 议 便 对 这 个 字 表 示 为 “K28.5”"， 也 就 是 说 高 三 位 的 十 进 制 是 
5， 低 5 位 的 十 进 制 是 28， 这 样 便 可 以 组 合成 相应 的 二 进 制 位 码 。 然 后 再 
加 上 一 个 描述 符号 K《〔〈 控 制 字符 ) 或 者 D 〈 数 据 字 符 ) 。K28.5 这 个 字符 
没有 ASCII 字 符 编 码 与 其 冲突 ， 它 的 二 进 制 流 中 又 包含 了 连续 的 5 个 1， 
非常 容易 被 电路 识别 ， 当 然 符合 这 些 条 件 的 字符 还 有 好 几 个 。 











每 个 控制 字 均 由 K28.5 字 符 开 头 ， 后 接 3 个 其 他 字符 〈 可 以 是 数据 字 
符 ) ， 由 这 4 个 字符 组 成 的 字 来 代表 一 种 意义 ， 比 如 SOF (Start Of 
Frame) 、EOF (End Of Frame) 等 。 











定义 了 相关 的 控制 字 之 后 ， 需 要 定义 一 个 帧 凑 了 。EFC 协 议定 义 了 
一 个 24B 的 帧 头 。 以 太 网 帧 头 才 14B， 用 起 来 还 绰绰有余 ， 为 什么 FC 需 
要 定义 24B 呢 ?在 这 个 问题 上 ， 协 议 的 设计 者 独树一帜 ， 因 为 这 24B 的 
帧 头 不 但 包含 了 寻 址 功能 ， 而 且 包 含 了 传输 保障 的 功能 。 网 络 层 和 传输 


层 的 逻辑 都 用 这 24B 的 信息 来 传递 。 


我 们 知道 ， 基 于 以 太 网 的 TCP/IP 网 络 ， 它 的 开销 一 共 是 : 14B (以 
太 网 帧 头 ) 十 20B (IP 头 ) 十 20B (TCP 头 ) 三 54B， 或 者 把 TCP 头 换 成 
8B 的 UDP 头 ， 一 共 是 42B。 这 惑 注定 了 FC 的 开销 比 以 太 网 如 上 TCP/P 的 
开销 要 小 ， 而 实现 的 功能 都 差不多 。 


可 以 看 出 ， 以 太 网 中 用 于 寻 址 的 开销 太 大 ， 一 个 以 太 网 MAC 头 和 
一 个 下头 这 两 个 就 已 经 34B 了 ， 更 别 说 再 加 上 TCP 头 了 。 而 FC 将 寻 址 、 
传输 保障 合并 起 来 放 到 一 个 关中， 长 度 才 24B。 图 8-1 所 示 的 是 一 个 FC 
帧 的 示意 图 ， 图 8-2 是 一 个 FC 帧 编码 之 后 的 表示 。 








图 8-1 一 个 FC 帧 的 结构 图 8-2 一 个 完整 的 FC 帧 的 有 序 集 表示 





2. 链 路 层 流 量 控制 


在 链 路 层 上 ，FC 定 义 了 两 种 流 控 策略 :一 种 为 端 到 端的 流 控 ， 男 
一 种 为 缓存 到 绥 存 的 流 控 。 端 到 器 流 控 比 缓存 到 缓存 流 控 要 上 层 和 高 
级 。 在 一 条 链 路 的 两 器 ， 首 先 面 对 链 路 的 一 个 部 件 就 是 缓存 。 接 收 电 路 
将 一 帧 成 功 接收 后 ， 束 放 入 了 缓存 中 。 如 果 由 于 上 位 程序 处 理 缓慢 而 造 
成 缓存 已 经 充满 ，FC 协 议 还 有 机 制 来 通知 发 送 方 减缓 及 送 。 如 果 链 路 
的 一 端 是 FC 终 端 设备 ， 另 一 端 是 FC 交 换 机 ， 则 二 者 之 间 的 缓存 到 缓存 
的 流量 控制 只 能 控制 这 个 FC 终端 到 FC 交换 机 之 间 的 流量 。 

















而 通信 的 最 终 目 标 是 网 络 上 的 男 一 个 FC 终 首 ， 这 之 间 可 能 经 历 了 
多 个 FC 交换 机 和 多 条 链 路 。 而 如 果 数 据 流 在 力 外 一 个 FC 终端 之 上 发 生 
拥 压 ， 则 这 个 FC 终 端 就 必须 通知 发 起 端 降低 发 送 频率 ， 这 就 是 “ 端 到 
端 ” 的 流量 控制 。 图 8-3 示 出 了 这 两 种 机 制 的 不 同 之 处 。 


























图 8-3 B2B 和 E2E 两 种 方式 的 流量 控制 示意 图 








3. MTU 


一 般 情况 下 ， 以 太 网 的 MTU 为 1500B， 而 FC 链 路 层 的 MTU 可 以 到 
2112B。 这 样 ，FC 链 路 层 相 对 以 太 网 链 路 层 的 效率 又 提高 


8.1.3 网络 层 
1. 拓扑 


与 以 太 网 类 似 ，FC 也 提供 了 两 种 网 络 拓扑 模式 : FC-AL 和 Fabric。 





FC-ALFC-AL 拓 扑 类 似 于 以 太 网 共享 总 线 拓扑 ， 但 是 连接 方式 不 是 
总 线 ， 而 是 一 条 仲裁 环 路 (Arbitral Loop) 。 每 个 FC AL 设备 首尾 相 接 
构成 了 一 个 环 路 。 一 个 环 路 能 接 入 的 最 多 节点 是 128 个 ， 实 际 上 是 用 了 

-个 字 市 的 寻 址 容量 ， 但 是 只 用 到 了 这 个 字 节 经 过 810b 编 码 之 后 奇偶 平 
衡 (0 和 1 的 个 数 相 等 的 值 ， 也 就 是 256 个 值 中 的 134 个 值 来 寻 址 ， 这 些 
被 筛选 出 来 的 地 址 中 又 被 广播 地 址 、 专 用 地 址 等 占用 了 ， 最 后 只 剩 下 
127 个 实际 可 用 的 节点 地 址 。 








图 8-4 为 4 个 FC-AL 设 备 接 入 一 个 仲裁 环 的 拓扑 图 。 仲 裁 环 是 一 个 由 
所 有 设备 “串联 ?形成 的 财 合 环 路 。 如 果 某 个 设备 发 生 故 障 ， 这 个 串联 的 
环 路 是 不 是 就 会 全 部 瘫痪 呢 ?” 在 FC-AL 和 焦 线 设备 的 每 个 接口 上 都 有 一 
套 “ 劳 路 电路 ”(Bypass_ Circuit) ， 这 套 电 路 一 旦 检测 到 本 地 设备 故障 或 
电源 断 开 ， 束 会 自动 将 这 个 接口 短路 ， 从 而 使 得 整个 环 路 将 这 个 故障 的 
设备 Bypass 挥 ， 不 影响 其 他 设备 的 工作 。 








图 8-4 FC 仲裁 环 结构 示 意图 





数据 帧 在 仲裁 环 凡是 一 跳 一 跳 被 传输 的 ， 并 且 任 何 时 刻 数据 帧 只 能 
按照 一 个 方向 向 下 游 传 输 。 图 8-5 为 AL 环 路 数据 帧 传输 机 制 的 示意 图 。 


图 8-5 ”AL 环 路 数据 帧 传输 机 制 示意 图 

















在 图 8-5 押 示 的 仲裁 环 中 ， 奉 a 贡 点 想 与 h 节 氮 通信 ， 在 a 节 点 局 得 促 
裁 之 后 ， 便 向 h 市 扩 发 送 数 据 帧 。 然 而 ， 由 于 这 个 环 的 数据 是 顺 时 针 方 
加 传递 的 ， 所 以 a 友 出 的 数据 帧 ， 只 能 先 锐 b 市 点 收 到 ， 由 b 节 点 接着 传 
递 到 c 季 点， 依次 传递 ， 最 终 传 递 到 Ph 节点。 所 以 ， 虽 然 a 和 P 节 点 之 间 只 
有 一 跳 的 距离 ， 但 是 仍然 需要 统一 团 来 传递 数据 。 





Fabric 男 一 种 Fabric 拓 扑 和 以 太 网 交换 拓扑 类 似 。Fabric 的 意思 为 “网 
状 构 造 "”， 表 明 这 种 拓扑 其 实 是 一 个 网 状 交 换 和 矩阵 。 


交换 矩阵 的 架构 相对 于 仲裁 环 路 来 说 ， 其 转发 效率 大 大 提高 了 ， 联 
入 这 个 矩阵 的 所 有 节点 之 间 都 可 以 同时 进行 点 对 点 通信 ， 加 上 包 区 换 方 
式 所 带 来 的 并 发 和 资源 充分 利用 的 特性 ， 使 得 交换 以 构 获 得 的 总 带宽 为 
所 有 端口 带宽 之 和 。 而 AL 架构 下 ， 接 入 环 路 的 节点 不 管 有 多 少 ， 其 珊 
览 总 为 恒定 ， 即 共 孚 的 环 路 带宽 。 











图 8-6 为 一 个 交换 矩阵 的 示意 图 。 每 个 FC 终端 设备 都 接 入 了 这 个 甜 
阵 的 端点 ， 一 个 设备 发 给 男 一 个 设备 的 数据 帧 被 交换 窍 阵 收 到 后 ， 和 矩阵 
便 会 * 拨 动 ”" 这 张 矩 阵 网 交叉 处 的 开关 ， 以 连通 电路 ， 传 输 数 据 。 可 以 将 
这 个 矩阵 想象 成 一 个 大 的 电路 开关 和 窍 阵 ， 和 矩阵 根据 通信 的 源 和 目的 决定 
拨 动 哪些 开关 。 这 种 矩阵 被 做 成 芯片 集成 到 专门 的 交换 机 上 ， 然 后 辅 以 
实现 FC 逻辑 的 其 他 蕊 片 或 CPPU、ROM， 就 形成 了 一 台 用 于 Fabric 交 换 的 
交换 机 。 





图 8-6 ”Cross Bar 交换 矩阵 示意 图 





图 8-7 所 示 的 是 一 台 Fabric 交 换 机 。FC 设 备 通过 光纤 或 者 铜 线 等 各 种 
标注 的 线 绕 连接 到 这 台 交 换 机 上 ， 便 可 以 实现 各 个 市 点 基于 FC Fabric 拓 
扑 方式 的 点 对 点 通信 。 


图 8-7” Brocade 公司 的 FC 交换 机 


FC 交换 拓扑 寻 址 容量 是 2 的 24 次 方 个 地 址 ， 比 以 太 网 理论 值 (2 
48) 少 。 即 便 是 这 样 ， 对 于 专用 的 存储 网 络 来 说 也 足够 了 ， 毕 竟 FC 设 
计 的 初衷 是 用 于 存储 网 络 的 一 种 高 速 高 效 网 络 。 


2， 寻 址 


任何 网 络 都 需要 寻 址 机 制 ，FC 当 然 也 不 例外 了 。 


首先 ， 像 以 太 网 端口 MAC 地 址 一 样 ，FC 网 络 中 的 每 个 设备 自身 都 
有 一 个 WWNN (World Wide Node Name) ， 不 管 这 个 设备 上 有 多 少 个 
FC 端 口 ， 设 备 始终 拥有 一 个 固定 的 WWNN 来 代表 它 自 身 。 然 后 ，FC 设 
备 的 每 个 端口 都 有 一 个 WWPN (World Wide Port Name， 世 界 范围 的 名 
字 ) 地 址 ， 也 就 是 说 这 个 地 址 在 世界 范围 内 是 唯一 的 ， 世 界 上 没有 两 个 
接口 地 址 是 相同 的 。 








FC Fabric 拓 扑 在 寻 址 和 编 址 方面 与 以 太 网 又 有 所 不 同 。 有 具体 体现 在 
以 太 网 交换 设备 上 的 端口 不 需要 有 MAC 地 址 ， 而 FC 交 换 机 上 的 端口 都 
有 自己 的 WWPN 地 址 。 这 是 因为 FC 交 换 机 要 做 的 工作 比 以 太 网 交换 机 
多 ， 许 多 智能 和 FC 的 逻辑 都 被 集成 在 FC 交换 机 上 ， 而 以 太 网 的 逻辑 相 
对 束 简 单 了 许多 ， 因 为 上 层 逻 辑 都 被 交 给 诸如 TCP/IP 这 样 的 上 层 协议 实 
现 了 。 然 而 FC 的 Fabric 网 中 ，FC 交 换 机 担当 了 很 重要 的 角色 ， 它 需要 处 
理 到 FC 协议 的 最 上 层 。 每 个 FC 终端 设备 除了 和 最 终 通信 的 目标 有 交互 


之 外 ， 还 需要 和 FC 交 换 机 打 好 交道 。 


WWNN 每 个 FC 设备 都 被 赋予 一 个 WWNN， 这 个 WWNN 一 般 被 写 
入 设备 的 ROM 中 不 能 改变 ， 但 是 在 某 些 条 件 下 也 可 以 通过 运行 在 设备 
上 的 程序 动态 的 改变 。 








WWPN 和 三 个 IDWWPN 地 址 的 长 度 是 64 位 ， 比 以 太 网 的 MAC 地 址 
还 要 长 出 16 位 。 可 见 FC 协 议 很 有 信心 ， 认 为 FC 会 像 以 太 网 一 样 普 及 ， 
全 球 会 产生 264 个 FC 接 口 。 然 而 ， 如 果 8B 长 度 的 地 址 用 于 高 效 路 由 的 
话 ， 无 疑 是 梦 麻 〈IPv6 地 址 长 度 为 128b， 但 是 鉴于 Internet 的 庞大 ， 也 只 
好 牺牲 速度 换 容 量 了 ) 。 所 以 FC 协 议决 定 在 WWPN 之 上 再 映射 一 层 寻 
址 机 制 ， 束 是 像 MAC 和 IP 的 映射 一 样 ， 给 每 个 连接 到 FC 网 络 中 的 接口 
分 配 一 个 Fabric ID， 用 这 个 有 D 而 不 是 WWPN 来 散 入 链 路 帧 中 做 路 由 。 这 
个 ID 长 24 位 ， 高 8 位 被 定义 成 Domain 区 分 符 ， 中 8 位 被 定义 为 Area 区 分 
符 ， 低 8 位 定义 为 PORT 区 分 符 。 


这 样 ，WWPN 被 映射 到 Fabric ID， 一 个 Fabric ID 所 有 24b 又 被 分 成 
Domain ID、Area ID、Port ID 这 三 个 亚 寻 址 单元 。 


a Domain ID: 用 来 区 分 一 个 由 众多 交换 机 组 成 的 大 的 FC 网 络 中 每 
个 FC 交换 机 本 映 。 一 个 交换 机 上 所 有 接口 的 Fabric ID 都 共有 相同 
的 高 8 位 ， 即 Domain ID。Domain ID 同时 也 用 来 区 分 这 个 交换 机 
本 喘 ， 一 个 Fabric 中 的 所 有 交换 机 拥有 不 同 的 Domain ID 。 一 个 多 
交换 机 组 成 的 Fabric 中 ，Domain ID 是 自动 被 主 交 换 机 分 配给 各 个 
交换 机 的 。 根 据 WWNN 号 和 一 系列 的 选举 帧 的 传送 ，WWNN 最 
小 者 获胜 成 为 主 交 换 机 ， 然 后 这 个 主 交 换 机 回 所 有 其 他 交换 机 分 
配 Domain ID， 这 个 过 程 其 实 束 是 一 系列 的 特殊 帧 的 传送 、 解 析 
和 判断 。 





ma Area ID: 用 来 区 分 同一 台 交 换 机 上 的 不 同 端口 组 ， 比 如 1、2、 
3、4 端 口 属 于 Area 1，5、6、7、8 端 口 属于 Area 2 等 。 其 实 Area 
ID 这 一 层 亚 寻 址 单元 意义 不 是 很 大 。 我 们 知道 ， 每 个 FC 接 口 都 
会 对 应 一 块 用 来 管理 它 的 芯片 ， 然 而 每 个 这 样 的 忌 卢 却 可 以 管理 
多 个 FC 端 口 。 所 以 如 果 一 片 亿 片 可 以 管理 1、2、3、4 号 FC 端 
口 ， 那 么 这 个 已 片 束 可 以 属于 一 个 Area， 这 也 是 Area 的 物理 解 
释 。 同 样 ， 在 主机 端的 FC 适 配 卡 上 ， 一 般 也 都 是 用 一 块 心 厂 来 
管理 多 个 FC 接口 的 。 

ms Port ID: 用 来 区 分 一 个 同 Area 中 的 不 同 Port。 








经 过 这 样 的 3 段 式 寻 址 体系 ， 可 以 区 分 一 个 大 Fabric 中 的 每 个 交换 
机 、 交 换 机 中 的 每 个 端口 组 及 每 个 端口 组 中 的 端口 。 


3. 寻 址 过 程 


1) 地 址 映射 


既然 定义 了 两 套 编 址 体系 ， 那 么 一 定 要 有 映射 机 制 ， 就 像 ARP 协 议 
一 样 。FC 协 议 中 地 址 映射 步骤 如 下 。 


当 一 个 接口 连接 到 FC 网 络 中 时 ， 如 果 是 Fabric 架 构 ， 那 么 这 个 接口 
会 发 起 一 个 登录 注册 到 Fabric 网 络 的 动作 ， 也 就 是 同 目 的 Fabric ID 地 址 
FFFFFE 发 送 一 个 登录 帧 ， 称 为 FLOGIN，。 


交换 机 收 到 地 址 为 FFFFFE 的 帧 之 后 ， 会 动态 地 给 这 个 接口 分 配 一 
个 24b 的 Fabric ID， 并 记录 这 个 接口 对 应 的 WWPN， 做 好 映射 。 


此 后 这 个 接口 发 出 的 帧 中 不 会 携带 其 WWPN， 而 是 携带 其 被 分 配 的 
ID 作为 源 地 址 。 


提示 : ”以 太 网 是 既 携 带 MAC 地 址 ， 又 携带 IP 地 址 ， 在 效率 上 
打 了 折扣 。 


如 果 接 口 是 连 接 到 FC 仲裁 环 网 络 中 ， 那 么 整个 环 路 上 的 节点 会 选 
出 一 个 临时 节点 《根据 WWPN 号 的 数值 ， 最 小 的 优先 级 最 高 )》 ， 然 后 由 
这 个 节点 发 送 一 系列 的 初始 化 帧 ， 给 每 个 节点 分 配 环 路 ID。 


提示 : FC 网 络 中 的 FCID 都 是 动态 的 ， 每 个 设备 每 次 登录 到 
Fabric 所 获得 的 ID 可 能 不 一 样 。 同 样 ，FC 交 换 机 维护 的 Fabric 
ID 与 VWPN 的 映射 也 是 动态 的 。 


图 8-8 所 示 的 是 FC 设备 登录 到 Fabric 过 程 示 意图 。 


图 8-8 ”FC 设备 登录 Fabric 网 络 的 过 程 





2) 寻 址 机 制 
编 址 之 后 就 要 寻 址 ， 寻 址 则 牵扯 到 路 由 的 概念 。 


一 个 大 的 FC 网 络 中 ， 一 般 有 多 台 交 换 机 相互 连接 ， 它 们 可 以 链 式 
级 联 ， 也 可 以 两 两 连接 ， 甚 至 任意 连接 ， 束 像 人 网络 中 的 路 由 器 连接 一 
样 ， 但 是 FC 网 络 不 需要 太 多 的 人 工 介 入 。 如 果 将 几 台 交换 机 连接 成 一 
个 FC 网 络 ， 则 和 它们 会 自动 地 协商 自己 的 Domain ID， 这 个 过 程 是 通过 选 
举 出 一 个 WWPN 号 最 小 的 交换 机 来 充当 主 交 换 机 ， 由 主 交 换 机 来 向 下 给 
每 个 交换 机 分 配 Domain ID， 以 确保 不 会 冲突 。 














对 于 寻 址 过 程 ， 这 些 交 换 机 上 会 运行 相应 的 路 由 协议 。 最 广泛 使 用 
的 路 由 协议 就 是 SPF《〈 最 短路 径 优 先 ) 协议 ， 是 一 种 很 健壮 的 路 由 协 
议 。 比 如 用 于 IP 网 络 中 的 OSPF 协 议 ，FC 网 络 也 应 用 了 这 种 协议 。 这 样 
就 可 以 寻 址 各 个 节点 ， 进 行 各 个 节点 无 障碍 地 通信 。 


IP 网 络 需 要 很 强 的 人 为 介入 性 ， 比 如 给 每 个 节点 配置 IP 地 址 ， 给 每 
个 路 由 器 配置 路 由 信息 及 IP 地 址 等 ， 这 样 出 错 率 会 很 高 。FC 网 络 中 自动 
分 配 和 管理 各 种 地 址 ， 避 免 了 人 算 市 来 的 错误 。FC 和 采用 上 自动 分 配 地 址 
的 策略 ， 一 个 最 根本 的 原因 是 FC 从 一 开始 就 被 设计 为 一 个 专用 、 高 
效 、 高 速 的 网 络 ， 而 不 是 给 Internet 用 的 ， 所 以 自动 分 配 地 址 当然 适合 
它 。 如 果 给 Internet 也 自动 分 配 地 址 ， 那 么 后 果 不 堪 设想 。 





既然 要 与 目的 节点 通信 ， 怎 么 知道 要 通信 的 目标 地 址 是 多 少 呢 ? 我 
们 知道 ，FC 被 设计 为 一 个 专用 网 络 ， 一 个 小 范围 、 高 效 、 高 速 、 简 易 
配置 的 网 络 。 所 以 使 用 它 的 时 候 也 非常 简便 ， 就 像 在 Windows 中 浏览 风 
邻居 一 样 。 





每 个 市 点 在 登录 到 FC 网 络 并 且 被 分 配 ID 之 后 ， 会 进行 一 个 名 称 注 
册 过 程 ， 也 就 是 接口 上 的 设备 会 问 一 个 特定 的 目的 ID 发 一 系列 的 注册 
帧 ， 来 注册 目 己 。 这 个 ID 实际 上 并 没有 物理 设备 与 其 对 应 ， 只 是 运行 在 
交换机 上 的 一 套 名 称 服务 程序 而 已 ， 而 对 于 终端 FC 设 备 来 说 ， 会 认为 
自己 是 在 和 一 个 真实 的 FC 设备 通信 。 对 于 Windows 系 统 来 说 ， 每 台 机 器 
局 动 之 后 ， 如 果 设 置 了 WINS 服 务 器 ， 会 辐 WINS 服 务 占 来 注册 上 自己 的 主 
机 名 和 IP 地 址 。 











每 台 机 器 都 这 么 做 ， 所 以 网 络 中 的 WINS 服 务 器 就 会 掌握 网 络 中 的 
所 有 机 器 的 主机 和 了 了 。 同 样 ，FC 交 换 机 上 运行 的 这 个 名 称 服 务 程序 ， 就 
相当 于 WINS 服 务 器 。 但 是 其 地 址 是 唯一 的 、 特 定 的 ， 不 像 WINS 服 务 器 
可 以 被 配置 为 任何 IP 地 址 。 也 就 是 说 在 FC 协议 中 ， 这 个 地 址 是 大 家 都 公 
认 不 会 去 改变 的 ， 每 个 节点 都 知道 这 个 地 址 ， 所 以 都 能 找到 名 称 服务 
器 。 其 实 不 是 物理 的 服务 器 ， 只 是 运行 在 FC 交换 机 上 的 程序 ， 也 可 以 
认为 FC 交换 机 本 里 就 是 这 台 服 务 器 。 





节点 注册 到 名 称 服务 之 后 ， 服 务 便 会 将 网 络 上 存在 的 其 他 布点 信息 
告诉 这 个 接口 上 所 连接 的 设备 ， 束 像 浏 览 网 上 邻居 一 样 ， 所 以 这 个 接口 
上 的 设备 便 知 道 了 网 络 上 的 所 有 节点 和 资源 。 


ZONE 为 了 安全 性 考虑 ， 可 以 进行 人 为 配置 ， 让 名 称 服务 器 只 告诉 
菏 个 设备 特定 的 节点 。 比 如 网 络 上 存在 a、b、c、d 四 个 节点 ， 可 以 让 和 名 
称 服务 只 同 a 通 告 b、c 两 个 点 的 存在 ， 而 隐藏 4 节点， 这样 a 看 不 到 d。 
但 是 这 样 做 有 时 候 会 显得 很 不 保险 ， 因 为 a 虽然 没有 通过 名 称 服务 得 到 d 
的 ID， 但 是 如 果 将 节点 d 的 ID 直接 告诉 节点 a 的 话 ， 那 么 它 就 可 以 和 d 主 
动 太 起 通信 。 而 这 一 切 ， 交 换 机 不 做 干涉 ， 因 为 交换 机 傻 傻 的 认为 只 要 
名 称 服务 器 没有 辐 a 通 告 d4 的 ID，a 就 不 会 和 d 发 起 通信 。 











发 生 这 种 结果 的 原因 是 在 物理 上 节点 a 和 节点 d 并 没有 被 分 开 ，a 和 d 
总 有 办 法 通信 。 就 像 有 时 网 上 邻居 里 看 不 到 一 合 机 器 ， 但 是 它 明 明 在 
线 ， 那 么 如 果 此 时 知道 那 台 机 器 的 地 址 ， 照 样 可 以 不 通过 网 上 邻居 ， 直 
接 和 它 通 信 。 如 宋 两 个 市 点 被 物理 隔 开 了 ， 那 么 就 真 的 无 能 为 力 了 。 前 
者 实现 隔离 的 方法 叫做 软 ZONE， 后 者 的 做 法 叫做 便 ZONE。 





所 谓 ZONE， 即 分 区 的 意思 ， 同 一 个 分 区 内 的 节点 之 间 可 以 相互 通 
信 ， 不 同 分 区 之 间 的 节点 无 法 通信 。 软 ZONE 假设 大 家 都 是 守法 公民 ， 
名 称 服务 器 没有 通告 的 ID 就 不 去 连接 ， 而 硬 ZONE 不 管 是 否 守 法 都 会 从 
底层 硬件 上 强制 隔离 ， 即 使 某 个 节点 知道 了 另外 分 区 中 某 个 节点 的 ID， 
也 无 法 和 对 方 建立 通信 ， 因 为 底层 已 经 被 阻 昕 了。 图 8-9 是 一 个 Fabric 
ZONE 的 示意 网 。 








图 8-9 ”一 个 具有 三 个 ZONE 的 Fabric 


与 目标 通信 从 名 称 服务 器 得 知 网 络 上 的 节点 ID 之 后 ， 如 果 想 及 起 和 


一 个 节点 的 通信 ， 那 么 这 个 设备 需要 直接 回 目 的 端口 发 起 一 个 N_PORT 
Login 过 程 来 交换 一 系列 的 参数 ， 然 后 再 进行 Process Login 过 程 〈 类 似 于 
TCP 回 特定 应 用 端口 发 送 握手 包 一 样 ) ， 即 进行 应 用 程序 间 的 通信 。 比 
如 ，FC 可 以 承载 SCSI 协 议和 IP 协 议 ， 那 么 Initiator 端 就 需要 向 Target 端 对 
应 的 功能 发 起 请 求 ， 比 如 请 求 FCP 类 型 的 Process Login， 那 么 Target 并 就 
知道 这 个 连接 是 用 于 FCP 流 量 的 。 这 些 Login 过 程 其 实 就 是 上 三 层 的 内 
容 ， 属 于 会 话 层 ， 和 网 络 传输 已 经 没什么 关联 了 。 这 些 Login 的 帧 也 必 
须 经 过 FC 下 四 层 来 封装 并 传输 到 目的 地 ， 束 像 TCP 握 手 过 程 一 样 。 


名 称 服 务 器 只 是 FC 提供 的 所 有 服务 中 的 一 个 ， 其 他 还 有 时间 服 
务 、 别 名 服务 等 ， 这 些 地 址 都 是 事先 定 死 的 。 


Fabric 网 络 中 还 有 一 种 FC Control Service， 如 果 节 点 向 这 个 服务 注 
册 ， 也 就 是 癌 地 址 FFFFFD 友 送 一 个 State Change Registration (SCR) 
帧 ， 那 么 一 旦 整个 Fabric 有 什么 变动 ， 比 如 一 个 节点 离线 了 ， 或 者 一 个 
节点 上 线 了 、 或 者 一 个 ZONE 被 创建 了 等 ，Fabric 便 会 将 这 些 事件 封装 
到 Registered State Change Notification (RSCN) 帧 里 发 送 给 注册 了 这 项 
服务 的 所 有 节点 。 这 个 动作 束 像 预订 新 闻 一 样 ， 通 党 一 旦 布点 被 通知 有 
这 些 事 件 发 生 之 后 ， 节 点 需要 重新 进行 名 称 注 册 ， 以 便 从 名 称 服务 器 得 
到 网 络 上 的 最 新 资源 情况 ， 也 就 是 刷新 一 下 。 








这 些 众所周知 的 服务 都 是 运行 在 交换 机 内 部 的 ， 而 不 是 物理 上 的 一 
台 服 务 器 。 当 然 如 条 愿意 的 话 ， 也 完全 可 以 用 物理 服务 器 来 实现 ， 不 过 
这 样 做 的 话 ， 在 增加 了 扩展 性 的 同时 也 增加 了 Fabric 的 操作 难度 。 


以 上 描述 的 都 是 基于 FC 区 换 架 构 的 网 络 ， 即 Fabric (FC 交换 网 
络 ) 。 对 于 FC 仲 裁 环 架构 的 网 络 没有 名 称 注册 过 程 ， 环 上 的 每 个 节点 
都 对 环 上 其 他 市 点 了 如 指 掌 ， 可 以 对 任何 节点 发 起 通信 。 





提示 : “有 些 机 制 可 以 把 环 路 和 交换 结构 融合 起 来 ， 比 如 形成 
Private loop、Public loop 等 ， 这 方面 会 在 下 文中 介绍 。 





FC 的 链 路 层 和 网 络 层 被 合并 成 一 层 ， 统 称 FC2。 
8.1.4 ”传输 层 


FC 的 传输 层 同 样 也 与 TCP 类 似 ， 也 对 上 层 的 数据 流 进 行 Segment， 

而 且 还 要 区 分 上 层 程 序 ，TCP 是 利用 端口 号 来 区 分 ，FC 则 是 利用 
Exchange ”ID 来 区 分 。 每 个 Exchange (上 层 程序 ) 发 过 来 的 数据 包 ， 被 
FC 传输 层 分 割 成 Information ”Unit， 也 就 相当 于 TCP 分 割 成 的 Segment。 
然后 FC 传输 层 将 这 些 Unit 提 交 给 FC 的 下 层 进行 传输 。 下 层 将 每 个 
segment 当 作 一 个 Sequence， 并 给 予 一 个 Sequence ID， 然 后 将 这 个 
Sequence 再 次 分 割 成 FC 所 适应 的 帧 ， 给 每 个 帧 赋予 一 个 Sequence 
Count， 这 样 便 可 以 保证 帧 的 排列 顺序 。 接 收 方 接收 到 帧 之 后 ， 会 组 合 
成 Sequence， 然 后 根据 Sequence ID 来 顺序 提交 给 上 层 协 议 处 理 。 图 8-10 
显示 了 这 种 层次 结构 。 图 8-11 为 FC 网 络 上 的 数据 帧 传输 示意 














图 8-10 ”FC 协议 的 层次 结构 
图 8-11 Fabric 网络 上 的 帧 

传输 层 还 有 一 个 重要 和 角色， 就 是 适 配 上 层 协 议 ， 比 如 IP 可 以 通过 FC 
进行 传输 ，SCSI 指 令 可 以 通过 FC 来 传输 等 。 FC 会 提供 适 配 上 层 协 议 的 
接口 ， 就 是 IP over FC 及 SCSI over FC。 这 里 ，FC 只 是 给 IP 和 SCSI 提 供 
了 一 种 通路 ， 一 种 传输 手段 ， 就 像 IP over Ethernet 和 IP over ATM 一 样 。 


FC 也 是 通过 发 送 ACK 帧 来 癌 对 方 发 送 确 认 信 息 的 ， 这 个 和 TCP 的 实 
现 思想 一 样 。 只 不 过 一 个 ACK 帧 是 24B 加 上 CRC、SOF、EOF, 一 共 





36B， 而 TCP 的 ACK 帧 为 14 十 20 十 20 王 54B。 两 者 差别 已 经 很 明显 了 ， 
两 个 帧 看 不 出 来 ， 但 是 发 送 多 了 ， 差 别 就 看 出 来 了 。 要 看 累积 效应 。 当 
然 这 么 算是 很 粗略 的 ， 还 需要 包括 进 链 路 控制 ， 帧 间 际 开销 等 。 


在 传输 层 上 ，FC 定 义 了 儿 种 服务 类 型 ， 也 就 是 类 似 TCP/IP 协 议 中 
规定 的 TCP、UDP。FC 协 议 中 的 Class ”1 服务 类 型 是 一 种 面向 连接 的 服 
务 ， 即 类 似 电 路 交换 的 模式 ， 为 通信 的 双方 保留 一 条 虚 电 路 ， 以 进行 可 
靠 的 传输 。Class 2 类 型 提供 的 是 一 种 带 端 到 端 确认 的 保障 传输 的 服务 ， 
也 就 是 类 似 TCP。Class 3 类 型 不 提供 确认 ， 类 似 UDP。Class 4 类 型 是 在 
一 条 连接 上 保留 一 定 的 带宽 资源 给 上 层 应 用 ， 而 不 是 像 Class 1 类 型 那样 
保留 整个 连接 ， 类 似 RSVP 服 务 。 使 用 什么 服务 类 型 ， 会 在 端口 之 间 进 
行 PLogin 的 时 候 协 商 确定 。 


FC 传输 层 被 定义 为 FC4。 
8.1.5 ”上 三 层 


FC 协议 的 上 三 层 表 现 为 各 种 Login 过 程 、 包 括 名 称 服务 等 在 内 的 各 
种 服务 等 ， 这 些 都 是 与 网 络 传输 无 关 的 ， 但 是 的 确 属 于 FC 协议 体系 之 
内 的 ， 所 以 这 些 内 容 都 属于 FC 协议 的 上 三 层 。 


8.1.6 ”小 结 





综 上 所 述 ，FC 是 一 个 高 速 高 效 、 配 置 简单 ， 不 需要 太 多 人 为 介入 
的 网 络 。 基 于 这 个 原则 ， 为 了 进一步 提高 FC 网 络 的 速度 和 效率 ， 在 FC 
终端 设备 上 ，FC 协 议 的 大 部 分 逻辑 被 直接 做 到 一 块 独立 的 硬件 卡片 当 
中 ， 而 不 是 运行 在 操作 系统 中 。 如 果 将 部 分 协议 逻辑 置 于 主机 上 运行 ， 
会 占用 主机 CPU 内 存 资 源 。 


TCP/IP 束 是 一 种 运行 于 主机 操作 系统 上 的 网 络 协议 ， 其 IP 和 TCP 或 
者 UDP 模 块 是 运行 在 操作 系统 上 的 ， 只 有 以 太 网 逻辑 是 运行 在 以 太 网 卡 
心 片 中 的 ，CPU 从 以 太 网 卡 接收 到 的 数据 是 携带 有 IP 头 部 及 TCP/UDP 头 
部 的 ， 需 要 运行 在 CPU 中 的 TCP/IP 协 议 代码 来 进一步 处 理 这 些 头 部 ， 才 
能 生成 最 终 的 应 用 程序 需要 的 数据 。 


而 FC 协议 的 物理 层 到 传输 层 的 逻辑 ， 大 部 分 运行 在 FC 适 配 卡 的 心 
片 中 ， 只 有 小 部 分 关于 上 层 API 的 逻辑 运行 于 操作 系统 FC 卡 驱动 程序 
中 ， 这 样 束 使 FC 协议 的 速度 和 效率 都 较 TCP/IP 协 议 高 。 这 么 做 ,成 本 
无 疑 会 增加 ， 但 是 网 络 本 来 就 不 是 为 大 众 设计 的 ， 增 加 成 本 来 提高 速度 
和 效率 也 是 值得 的 。 








8.2 FC 协议 中 的 七 种 端口 类 型 

在 FC 网 络 中 ， 存 在 七 种 类 型 的 接口 ， 其 中 N、L 和 NEL 端 口 被 用 于 终 
端 节点 ，F、FL、E 和 G 端 口 在 交换 机 中 实现 。 
8.2.1 _ N 端 口 和 FE 端口 


N 端 口 和 F 端 口 专 用 于 Fabric 交 换 架 构 中 。 连 入 FC 交 换 机 的 终端 节点 
的 端口 为 N 端 口 ， 对 应 的 交换 机 上 的 端口 为 F 端 口 。N 代 表 Node，F 代 表 
Fabric。 用 N 端 口 模式 连 入 F 端 口 之 后 ， 网 络 中 的 N 节 点 之 间 就 可 以 互相 
进行 点 对 点 通信 了 。 图 8-12 所 示 的 是 N 端 口 和 F 端 口 的 示意 图 。 








图 8-12”N 端 口 和 F 端 口 





8.2.2 工 端 口 


LL 亲口 指 仲 裁 环 上 各 个 市 点 的 端口 类 型 (LOOP〉。 环 路 上 的 所 有 
设备 可 以 通过 一 个 FCAL 的 集线器 相连 ， 以 使 得 布线 方便 ， 故 障 排除 容 
易 。 当 然 ， 也 可 以 使 用 最 原始 的 方法 ， 就 是 首尾 相 接 。 图 8-13 所 示 的 是 
利用 集线器 连接 的 拓扑 。 


图 8-13 ”基于 FCAL 集 线 器 的 FCAL 环 路 连接 





1. 私有 环 


私有 环 ， 就 是 说 这 个 FC 仲 裁 环 是 封 困 的 ， 只 能 在 这 个 环 中 所 包含 
的 节点 之 间 相 互通 信 ， 而 不 能 和 环 外 的 任何 节点 通信 。 





2. 开放 环 





这 个 环 是 开放 的 ， 环 内 节点 不 但 可 以 和 环 内 的 节点 通信 ， 而 且 也 可 
以 和 环 外 的 节点 通信 。 也 就 是 说 可 以 把 这 个 环 作 为 一 个 单元 连接 到 FC 
交换 机 上 ， 从 而 使 得 环 内 的 节点 可 以 和 位 于 FC 交换 机 上 的 其 他 N 市 点 通 
信 。 如 宁 将 多 个 开放 环 连 接 到 交换 机 ， 那 么 这 几 个 开放 环 之 间 也 可 以 相 
互通 信 。 








要 实现 开放 环 架 构 ， 需 要 特殊 的 端口 ， 即 下 面 描述 的 NL 和 FL 问 
口 。 


8.2.3 NEL 疹 口 和 EL 端口 


NL 端口 是 开放 环 中 的 一 类 端口 ， 它 具有 N 端 口 和 L 端 口 的 双重 能 
力 。 换 而 言 之 ，NL 端 口 支 持 交 换 式 光纤 网 登录 和 环 仲裁 。 而 HL 端口 是 
FC 区 换 机 上 用 于 连接 开放 仲裁 环 结构 的 中 介 端 口 。 








开放 环 内 可 以 同时 存在 NL 节点 和 LL 节点 ， 而 只 有 NL 节点 才能 和 环 
外 的 、 位 于 FC 交 换 结 构 中 的 多 个 N 节 点 或 者 其 他 类 型 节点 通信 。NL 节 
点 也 可 以 同时 和 开 节点 通信 。 图 8-14 为 NL 和 EL 端口 示意 图 。 





图 8-14 ”NL 和 FL 端口 示意 图 





开放 环 的 融合 机 制 


FC-SW 设 备 的 工作 方式 是 它 会 登录 到 网 络 (FLOGI) ， 并 在 Name 
Server 中 注册 (PLOGI) 。 设 备 要 传输 数据 时 会 先 到 Name ”Server 人 查询 
Target 设 备 ， 然 后 到 目标 设备 进行 注册 (PRLI) ， 最 后 传输 数据 。 





FC-AL 的 设备 工作 方式 与 此 完全 不 同 ， 在 环 路 的 初始 化 〈LIP) 过 


程 中 ， 生 成 一 个 环 路 上 所 有 设备 地 址 的 列表 ， 被 称 作 AL_PA， 并 存储 在 
Loop 中 的 每 个 设备 上 。 本 是 信 时 ， 会 到 AL_PA 中 得 
询 目 标 主 机 ， 然 后 根据 地 址 进行 通信 。 





要 让 一 个 私有 环 中 的 设备 和 Fabric 中 的 设备 达到 相互 通信 ， 必 须 采 
用 协议 转换 措施 ， 因 为 FC AL 和 FC Fabric 是 两 套 不 同 的 逻辑 体系 。 


提示 : ”在 本 书 第 13 章 论述 了 关于 “协议 之 间 相 互 作用 ” 即 “ 协 议 
杂交 ”方面 的 内 容 。 如 果 阅 读 到 那 一 章 ， 再 回头 来 研究 ， 我 们 
可 以 发 现 ，NEL 端 口 和 FL 端口 之 间 ， 完 全 就 是 一 种 Tunnel 模 

式 ， 它 们 利用 FC AL 的 逻辑 ， 承 载 FC Fabric 的 逻辑 ， 也 就 是 踩 
着 AL 走 Fabric。 比 如 Flogin、PLogin 等 这 些 帧 ， 都 通过 AL 链 路 
来 发 向 FE 端口， 而 整个 环 中 其 他 节点 ， 对 这 个 动作 丝毫 不 知 

道 ， 也 不 必 知 道 


如 果 采 用 MAP 方 式 达 到 两 种 协议 形式 的 最 大 程度 的 融合 ， 也 是 完全 
可 以 的 。 下 面 摘 述 的 这 种 模式 ， 束 是 采用 了 MAP 的 思想 。 





这 种 MAP 的 模式 使 环 内 的 任何 节点 可 以 和 环 外 的 任何 N 节 点 之 间 
就 像 对 方 和 自己 是 同类 一 样 通信 。 也 就 是 说 环 内 的 工 节 点 看 待 环 外 的 N 
节点 就 像 是 一 个 不 折 不 扣 的 工 节 点 。 反 过 来 ， 环 外 的 N 节 点 看 待 环 内 的 L 
节点 就 像 是 一 个 N 节 点 一 样 。 这 个 功能 是 通过 在 交换 机 上 的 FL 端口 实现 
的 ， 这 个 端口 承接 私有 环 和 Fabric。 在 私有 环 一 侧 ， 它 表现 为 工 端口 的 所 
有 逻辑 行为 ， 而 对 Fabric 一 侧 ， 它 则 表现 为 N 端 口 的 行为 ， 也 就 相当 于 
一 个 N 志 端口 协议 转换 。 这 个 接口 可 以 把 环 外 的 N 节 点 “ 带 ” 到 私有 环 
内 ， 同 时 把 环 内 的 节点 “ 带 ? 到 环 外 。 环 内 的 工 节 点 根本 不 会 知道 它们 所 
看 到 的 其 实 是 环 外 的 N 节 点 通过 这 个 特殊 的 工 端口 仿真 而 来 的 。 











当然 也 要 涉及 到 寻 址 的 MAP， 因 为 Fabric 和 AL 的 编 址 方式 不 同 ， 所 
以 需要 维护 一 个 地 址 映 冉 ， 将 环 内 的 市 把 统统 取 一 个 环 外 的 名 字 ， 也 就 
是 将 工 端口 地 址 对 应 一 个 N 端 口 地 址 ， 而 这 些 地 址 都 是 虚拟 的 ， 不 能 和 
环 外 已 经 存在 的 N 端 口 地 址 重合 ， 这 样 才 能 让 环 外 节点 知道 存在 这 么 一 
些 新 加 入 Fabric 的 节点 《其 实 是 环 内 的 节点 ) 。 而 要 让 环 外 节点 知道 这 
些 新 节点 的 存在 ， 束 要 将 这 些 新 的 节点 注册 到 名 称 服务 器 上 。 因 为 
Fabric 染 构 中 ， 每 个 节点 都 是 通过 查询 名 称 服务 器 来 获取 当前 Fabric 中 所 
存在 的 节点 的 。 同 样 ， 要 让 环 内 的 节点 知道 环 外 的 N 节 点 的 存在 ， 也 必 
须 给 每 个 N 市 点 取 一 个 AL 地 址 ， 让 这 些 地 址 参与 环 的 初始 化 ， 从 而 将 这 
些 地 址 加 入 到 AL 地 址 列表 中 。 这 样 ， 环 内 的 节操 就 能 根据 这 个 列表 知 
道 环 内 都 有 哪些 节点 了 。 

















让 各 自 都 能 看 到 对 方 ， 知 道 对 方 的 存在 ， 这 只 是 完成 了 MAP 的 第 一 
步 。 接 下 来 ， 还 要 进行 更 加 复杂 的 MAP， 即 协议 交互 逻辑 的 MAP。 假 
如 一 个 环 内 节点 要 和 一 个 环 外 节点 通信 ， 这 个 环 内 节点 会 认为 它 所 要 通 
信 的 就 是 一 个 和 它 同 类 的 工 节点 ， 所 以 它 赢 得 环 仲 裁 之 后 ， 会 直接 向 这 
个 虚拟 AL 地 址 发 起 通信 。 








这 个 虚拟 AL 地 址 对 应 的 物理 接口 实际 上 是 交换 机 上 的 仿真 L 端 口 ， 
仿真 工 端口 收 到 由 环 内 布点 发 起 的 通信 请 求 之 后 ， 便 开始 MAP 动 作 。 首 
先 仿真 工 端口 根据 这 个 请 求 的 目的 地 址 ， 也 就 是 那个 虚拟 地 址 ， 碍 找 地 
址 映射 表 ， 找 到 对 应 的 N 端 口 的 Fabric 地 址 。 然 后 主动 向 这 个 N 端 口 发 起 
PLogin 过 程 ， 也 就 是 将 AL 的 交互 逻辑 最 终 映 射 到 了 Fabric 的 交互 逻辑 。 
即 AL 癌 虚拟 地 址 友 起 的 通信 请 求 ， 被 仿真 L 尊 口 MAP 成 了 问 真 正 的 N 端 
口 发 起 PLogin 请 求 ， 这 就 是 协议 交互 轴 辑 的 MAP。 请 求 成 功 之 后 ， 仿 真 
L 谢 口 便 一 边 收集 环 内 L 节 点 发 来 的 数据 ， 一 边 将 数据 按照 Fabric 的 逻辑 
转发 给 真正 的 N 端 口 。 反 之 亦 然 ，N 端 口 的 逻辑 ， 仿 真 L 端 口 同样 也 会 


MAP 成 AL 环 的 逻辑 。 这 样 ， 不 管 是 环 外 的 N 端 口 还 是 环 内 的 L 端 口 ， 它 
们 都 认为 它们 正在 和 目 己 的 同类 通信 。 


图 8-15 所 示 为 开放 环 与 Fabric 融 合 的 示意 图 。 








图 8-15 “开放 环 融 合 机 制 示意 图 





同样 是 将 环 接 入 Fabric， 开 放 环 的 扩展 性 就 比 私 有 环 接 入 强 。 因 为 
一 个 NL 端 口 可 以 和 环 外 的 多 个 N 端 口 通信 。 也 融 是 说 ，NL 端 口 和 FL 端 
口 可 以 看 成 是 隐藏 在 环 中 的 N 端 口 和 F 端 口 。 它 们 如 果 要 通信 ， 不 能 像 
直 连 的 N 和 F 端 口 那样 直接 进行 Fabric 登 录 ， 而 必须 先 突 破 环 的 限制 ， 即 
先 要 赢得 环 仲裁 ， 再 按照 交换 架构 的 逻辑 进行 Fabric 登 录 ， 接 着 N 端 口 
登录 ， 然 后 进程 登录 。 而 这 一 切 ， 环 内 其 他 节点 不 会 感知 到 。 


具有 NEL 端 口 的 设备 既 能 和 环 内 的 工 端口 设备 通信 ， 又 能 和 环 外 的 N 
端口 设备 通信 ， 同 时 具有 N 和 工 端口 的 逻辑 ， 这 一 切 都 不 需要 仿真 
MAP， 只 需要 一 个 Tunnel 过 程 即 可 。 而 环 内 的 L 节 点 如 果 想 与 环 外 的 N 
端口 通信 ， 由 于 L 节 点 自身 没有 N 端 口 的 逻辑 ， 必 须 经 过 FL 端口 的 MAP 
过 程 。 所 以 ， 称 具有 NL 端 口 的 设备 为 Public 设 备 ， 即 开放 设备 。 而 称 有 具 
有 端口 的 设备 为 Private 设 备 ， 即 不 开放 的 私有 设备 。 








8.2.4 下 端口 
E 端 口 是 专 门 用 于 连接 交换 机 和 交换 机 的 端口 。 因 为 交换 机 之 间 级 
联 ， 需 要 在 级 联 线路 上 承载 一 些 控制 信息 ， 比 如 选举 协议 、 路 由 协议 


A 
等 。 


8.2.5”G 端 口 


G 端 口 比较 特殊 ， 它 是 “万 能 ”端口 ， 它 可 以 转变 为 上 面 讲 到 过 的 任 
何 一 种 端口 类 型 ， 按 照 所 连接 对 方 的 端口 类 型 进行 目 动 协商 变 成 任何 一 
种 闻 口 。 








终端 节点 端口 编 址 规则 


各 种 终端 节点 端口 (N、NL、L) 的 FC ID 地 址 都 是 24b (3B) 长 。 
但 是 N 端 口 只 使 用 3B 中 的 高 2B， 即 高 16b; 工 端口 只 使 用 3B 中 的 低 1B， 
即 低 8b; NL 端口 使 用 全 部 3B。 没 有 被 使 用 的 字 节 值 为 0。 





产生 这 种 编 址 机 制 不 同 的 原因 ， 是 3 种 端口 的 作用 方式 不 同 。 工 端口 
只 在 私有 环 内 通信 ， 而 一 个 环 的 节点 容量 是 128 个 ， 所 以 只 用 8b 就 可 以 
表示 了 。N 端 口 由 于 处 于 Fabric 交 换 架 构 中 ， 节 点 容量 很 大 ， 所 以 用 了 
16b 表 示 ， 最 大 到 65536 个 节点 。 而 NL 端 口 ， 因 为 既 处 于 环 中 ， 又 要 和 
Fabric 交 换 架 构 中 的 节点 通信 ， 所 以 它 既 使 用 N 端 口 的 编 址 ， 又 使 用 L 端 
口 的 编 址 ， 所 以 用 了 全 部 3B。 图 8-16 为 端口 编 址 示意 图 。 























图 8-16 三 种 FC 节点 类 型 的 编 址 异同 





任何 设备 都 可 以 接 入 FC 网 络 从 而 与 网 络 上 的 其 他 FC 设备 通信 ， 网 
络 中 的 设备 可 以 是 服务 器 、PC、 和 磁盘 阵列 、 磁 带 库 等 。 然 而 ， 就 像 以 
太 网 要 求 设 备 上 必须 有 以 太 网 接口 才能 连 入 以 太 网 络 一 样 ， 设 备 上 必须 
有 FC 接口 才 可 以 连 入 FC 网 络 。 





8.3 ”FC 适配器 


想 进 入 FC 网 络 ， 没 有 眼睛 和 和 耳 条 怎么 行 呢 ?FC 网 络 的 眼睛 就 是 FC 
适配器 ， 或 者 叫做 FC 主机 总 线 适配器 ， 即 FC HBA (Host Bus 
Adapter) 。 值 得 说 明 的 是 ，HBA 是 一 个 通用 词 ， 它 不 仅仅 指 代 FC 适 配 
器 ， 而 可 以 指 代 任 何 一 种 设备 ， 只 要 这 个 设备 的 作用 是 将 一 个 外 部 功能 
接 入 主机 总 线 。 所 以 ，PC 上 用 的 PCIPCIE 网 卡 、 显 卡 、 声 卡 和 AGP 显 
卡 等 都 可 以 叫做 HBA。 











图 8-17 所 示 的 就 是 PCI 接 口 的 FC 适配器 。 
图 8-17 FC 适 配 卡 


图 8-18 所 示 的 是 可 以 用 来 接 入 FC 网 络 的 各 种 线 比 ， 可 以 看 到 SC 光 
纤 、DB9 铜 线 和 RJ-45/47 线 统 ， 它 们 都 可 以 用 于 接 入 FC 网 络 ， 只 要 对 站 
设备 也 具有 同样 的 接口 。 所 以 ， 千 万 不 要 认为 FC 就 是 光纤 ， 这 是 非常 
滑稽 的 。 


图 8-18 ”各 种 接口 的 FC HBA 





同样 ， 也 不 要 认为 FC 交 换 机 就 是 插 光 纤 的 以 太 网 交换 机 ， 这 是 个 
低级 错误 。 称 呼 FC 为 光纤 的 习惯 误导 了 不 少 人 。FC 协 议 是 一 套 完 全 独 
并 的 网 络 协议 ， 比 以 太 网 要 复杂 得 多 。FC 其 实 是 Fibre Channel 的 意思 ， 
由 于 Fibre 和 Fiber 相 似 ， 再 加 上 FC 协 议 普 过 都 用 光纤 作为 传输 线 缆 而 不 
用 铜 线 ， 所 以 人 们 下 意识 的 称 FC 为 光纤 通道 协议 而 不 是 网 状 通道 协 
议 。 但 是 要 理解 ，FC 其 实 是 一 套 网 络 协议 的 称呼 ，FC 协 议和 光纤 或 者 
铜 线 实际 上 没有 必然 联系 。 如 果 可 能 的 话 ， 也 可 以 用 无 线 、 微 波 、 红 外 
线 或 紫外 线 等 来 实现 FC 协 议 的 物理 层 。 同 样 以 太 网 协议 与 是 否 用 光纤 








或 者 钢 线 、 双 绥 线 来 传输 也 没有 必然 联系 。 


所 以 “FC 区 换 机 就 是 插 光 纤 的 以 太 网 交换 机 ?的 说 法 是 错误 的 。 同 
样 “ 以 太 网 束 是 双 绞 线 *? 和 “以 太 网 就 是 水 晶 头 ” 这 些 说 法 部 是 滑 稳 的 。 








FC 适配器 本 身 也 是 一 个 小 计算 机 系统 ， 有 自己 的 CPU 和 RAM 以 及 
ROM。ROM 中 存放 Firmware， 加 电 之 后 由 其 上 的 CPU 载 入 运行 。 可 以 
说 它 就 是 一 个 租 入 式 设备 ， 与 RAID 卡 类 似 ， 只 不 过 不 像 RAID 卡 一 样 需 
要 那么 多 的 RAM 来 作为 数据 缓存 。 


8.4 ”改造 盘 阵 前 端 通 路 一 一 SCSI 迁 移 到 FC 


现在 是 考虑 把 原来 基于 并 行 SCSI 总 线 的 存储 网 络 架 构 全 面 迁移 到 
FC 提供 的 这 个 新 的 网 络 染 构 的 时 候 了 ! 











但 是 FC 协议 只 是 定义 了 一 套 完整 的 网 络 传输 体系 ， 并 没有 定义 诸 
如 SCSI 指 令 集 这 样 可 用 于 同人 磁盘 存 取 数 据 的 通用 语言 。 而 目前 已 经 有 了 
两 种 语言 ， 一 种 是 ATA 语 言 ATA 指令 集 ) ， 另 一 种 就 是 SCSI 语 言 
(CSCSI 指 令 集 ) 。 那 么 FC 是 否 有 必要 再 开发 第 三 种 语言 ? 完全 没有 必 
要 了 。SCSI 指 令 集 无 疑 是 一 个 高 效 的 语言 ，FC 只 需要 将 SCSI 语 言 拿 来 


用 就 可 以 ,但 必须 将 这 种 语言 承载 于 新 的 FC 传输 载体 进行 传送 。 








SCSI 协 议 集 是 一 套 完整 而 不 可 分 的 协议 体系 ， 同 样 有 OSI 中 的 各 个 
层次 。 物 理 层 使 用 并 行 传输 。SCSI 协 议 集 的 应 用 层 其 实 就 是 SCSI 协 议 
指令 ， 这 些 指 令 带 有 强烈 应 用 层 语义 。 而 我 们 要 解决 的 就 是 如 何 将 这 些 
§ 令 帧 传送 到 对 方 。 早 期 并 行 SCSI 时 代 ， 就 是 用 SCSI 并 行 总 线 技术 来 
传送 指令 ， 这 个 无 疑 是 一 个 致命 的 限制 。 随 着 技术 的 发 展 ， 并 行 SCSI 总 
线 在 速度 和 效率 上 已 经 远 远 无 法 满足 要 求 。 好 在 SCSI-3 协 议 规范 中 ， 将 
SCSI 指 令 语 义 部 分 (OSI 上 三 层 ) 和 SCSI 底 层 传输 部 分 (OSI 下 四 层 ) 
分 割 开 了 ， 使 得 SCSI 指 令 集 可 以 使 用 其 他 网 络 传输 方式 进行 传输 ， 而 不 
仅仅 限于 并 行 SCSI 总 线 了 。 








FC 的 出 现 束 是 为 了 取代 SCSI 协 议 集 的 底层 传输 模块 ， 由 FC 协议 的 
底层 模块 担当 传输 通道 和 手段 ， 将 SCSI 协 议 集 的 上 层 内 容 传送 到 对 方 。 
可 以 说 是 SCSI 协 议 集 租用 了 FC 协议 ， 将 自己 的 底层 传输 流程 外 包 给 了 
FC 协议 来 做 。 


FC 协议 定义 了 在 FC4 层 上 的 针对 SCSI 指 令 集 的 特定 接口 ， 称 为 
FCP， 也 束 是 SCSI over FC。 由 于 是 一 个 全 新 的 和 尝试 ， 所 以 FC 协议 决定 
先 将 连接 主机 和 磁盘 阵列 的 通路 ， 从 并 行 SCSI 总 线 蔡 换 为 串 行 传输 的 
FC 通 路 。 而 盘 阵 后 端 连接 磁盘 的 接口 ， 还 是 并 行 SCSI 接 口 不 变 。 





从 图 8-19 中 可 以 看 到 ， 连 接 主机 的 前 端 接口 已 经 替换 成 了 FC 接 口 ， 
原来 连接 在 主机 上 的 SCSI 适 配器 也 被 蔡 换 成 了 FC 适 配器 。 





图 8-19 “前端 FC、 后 端 SCSI 架 构 的 盘 阵 示意 图 





经 过 这 样 改造 后 的 盘 阵 ， 单 全 盘 阵 所 能 接 入 磁盘 的 容量 并 没有 提 
升 ， 也 惑 是 说 后 端 性 能 和 容量 并 没有 提升 ， 所 提升 的 只 是 前 器 性 能 。 因 
为 FC 的 高 效 、 高 速 和 传输 距离 ， 远 非 并 行 SCSI 可 比 。 


理解 : ”虽然 链 路 被 替换 成 了 FC， 但 是 链 路 上 所 承载 的 应 用 层 
数据 并 没有 变化 ， 依 然 是 SCSI 指 令 集 ， 和 并 行 SCSI 链 路 上 承 
载 的 指令 集 一 样 ， 只 不 过 换 成 FC 协 议 及 其 底层 链 路 和 接口 来 
传输 这 些 指令 以 及 数据 而 已 。 


从 图 8-19 中 可 以 看 到 ， 不 管 是 主机 上 的 FC 适配器 还 是 盘 阵 上 的 控制 
器 ， 都 没有 抛弃 SCSI 指 令 集 处 理 模块 ， 被 抛弃 的 只 是 SCSI 并 行 总 线 传 
输 模块 。 也 就 是 抛弃 了 原来 并 行 SCSI 协 议 集 位 于 OSI 的 下 四 层 (用 FC 的 
下 四 层 代 替 ) ,保留 了 整个 SCSI 协 议 的 上 三 层 ， 也 就 是 SCSI 指 令 音 


分 。 





将 磁盘 阵列 前 端 接口 用 FC 蔡 代 之 后 ， 极 大 地 提高 了 传输 性 能 以 及 
传输 距离 ， 原 来 低 效 率 、 低 速度 和 短 距离 的 缺点 被 彻底 区 服 了 。 


8.5 引入 FC 之 后 


引入 FC 之 后 有 如 下 优势 。 
1. 提高 了 扩展 性 


FC 使 存储 网 络 的 可 扩展 性 大 大 提高 。 如 图 8-20 所 示 ， 一 台 盘 阵 如 果 
只 提供 一 个 FC 前 剖 接 口 ， 同 样 可 以 连接 多 台 主 机 ， 办 法 是 把 它们 都 连 
接 到 一 台 FC 交 换 机 上 上。 就 像 一 台 机 器 如 果 只 有 一 块 以 太 网 卡 ， 而 没有 
以 太 交 换 机 或 HUB 的 话 ， 那 么 只 能 和 一 台 机 器 相连 。 如 果 有 了 以 太 网 交 
换 机 或 HUB， 它 就 可 以 和 N 人 台 机 器 连接 。 使 用 FC 交换 机 的 道理 也 一 样 ， 
这 就 是 引入 包 交 换 网 络 化 所 带 来 的 飞跃 。 


图 8-20 ”多 主机 共享 盘 阵 





多 人 台 主 机 共享 一 台 盘 阵 同 时 读 写 数据 ， 这 个 功能 在 并 行 SCSI 时 代 是 
想 都 不 敢 想 的 。 虽 然 并 行 SCSI 总 线 网 络 可 以 接 入 16 个 节点 ， 比 如 15 台 主 
机 和 一 台 盘 阵 连 入 一 条 SCSI 总 线 ， 这 15 台 主机 只 能 共享 这 条 总 线 的 带 
宽 ， 假 设 带宽 为 320MB/s， 如 果 15 台 主机 同时 读 写 ， 则 理论 上 平均 每 台 
主机 最 多 只 能 得 到 20MB/s 的 带宽 。 而 这 只 是 理论 值 ， 实 际 加 上 各 种 开 
销 和 随机 IO 的 影响 ， 估 计 每 台 主 机 能 获得 的 吞吐 量 会 不 足 10OMB/s。 再 
加 上 SCSI 线 缆 最 长 不 能 超过 25 米 ， 用 一 条 宽 线 缆 去 连接 十 几 台 主机 和 盘 
阵 的 难度 可 想 而 知 。 














而 引入 FC 包 交换 网 络 之 后 ， 首 先是 速度 提升 了 一 大 截 ， 其 次 由 于 
其 包 交 换 的 架构 ， 可 以 很 容易 地 实现 多 个 市 点 同一 个 节点 收 肥 数据 的 目 
的 。 





2. 增加 了 传输 距离 


FC 携带 有 现代 通信 的 特质 ， 比 如 可 以 使 用 光纤 。 而 这 束 可 以 使 主 
机 和 与 远 隔 几 百 米 甚 至 上 千 米 《使 用 单 模 光 缆 ) 之 外 的 盘 阵 相连 并 该 写 
数据 。 





3. 解决 了 安全 性 问题 





可 能 很 多 人 还 会 有 疑问 ， 在 图 8-20 所 示 的 拓扑 中 ， 多 个 主机 共用 一 
台 只 有 一 个 外 部 接口 的 盘 阵 不 会 冲突 么 ? 当然 不 会 。 第 一 ， 交 换 机 允许 
多 个 器 口 访问 同一 个 端口 是 一 个 分 时 复 用 的 包 交 换 过 程 ， 这 个 是 毋庸 置 
疑 的 。 第 二 ， 盘 阵 上 的 FC 前 端 接口 多 许多 个 其 他 器 口 进行 Port Login 过 
程 。 那 么 盘 阵 上 的 逻辑 磁盘 LUN 可 以 同时 被 多 个 主机 访问 么 ? 完全 可 
以 。SCSI 指 令 集中 有 一 个 选项 ， 即 独占 陈 访问 或 者 共享 式 访 问 。 








(1) 独占 式 访问 。 





即 只 允许 第 一 个 访问 某 个 目标 节点 的 节点 保持 对 这 个 目标 节点 的 访 
问 ， 第 二 个 节点 要 向 这 个 目标 节点 发 起 访问 请 求 ， 则 不 被 允许 ， 除 非 上 
一 个 节点 发 出 了 释放 指令 。 独 占 模式 下 ， 每 台 主 机 每 次 访问 目标 前 都 需 
要 进行 SCSI Reserve， 使 用 完 后 再 进行 SCSI Release 释 放 SCSI 目 标 ， 这 样 
其 他 节点 才能 访问 那个 目标 。 








(2) 共享 式 访 问 ， 即 允许 任何 人 来 访问 ， 没 有 任何 限制 。 


所 以 ， 盘 阵 上 的 任何 LUN 都 可 以 被 多 台 主 机 通过 一 个 前 端 接口 或 者 
多 个 前 端 接口 访问 。 这 是 一 个 优点 ， 也 是 一 个 隐患 。 因 为 多 个 主机 在 没 
有 相互 协商 和 同步 的 情况 下 ， 一 旦 对 同一 个 LUN 都 进行 写 操作 的 话 ， 就 
会 造成 冲突 。 比 如 两 台 Windows 主 机 正 处 于 运行 状态 ， 它 们 都 通过 FC 适 








配 卡 识 别 到 了 磁盘 阵列 上 的 同一 个 LUN。 此 时 主机 A 向 这 个 LUN 上 写 了 
一 个 文件 ， 假 设 主机 B 已 经 将 文件 系统 的 元 数据 读 入 了 内 存 ， 磁 盘 上 的 
数据 被 主机 A 更 改 这 个 动作 主机 B 是 感受 不 到 的 。 隔 一 段 时 间 之 后 ， 主 
机 B 可 能 将 文件 系统 缓存 Flush 到 磁盘 ， 此 时 可 能 会 抹 掉 这 个 文件 的 元 数 
据 信 息 。 





所 以 ， 在 没有 协商 和 同步 机 制 的 两 全 主机 之 间 共 至 一 个 LUN 古 一 件 
可 怕 的 事情 。 要 解决 这 个 问题 ， 可 以 每 次 只 开 一 台 机 器 ， 主 机 B 想 访问 
就 必须 把 主机 A 关机 或 凶 载 该 卷 ， 然 后 主机 B 开 机 或 挂 载 该 符 ， 这 样 才 
能 保证 数据 的 一 致 性 。 但 这 样 有 点 过 于 复杂 。 第 二 种 办 法 就 是 使 两 台 或 
者 多 人 台 机 器 同时 开机 或 同时 挂 载 该 卷 ， 而 让 机 右上 的 文件 系统 之 间 相 互 
协商 同步 ， 配 合 运 作 。 我 写 入 的 东西 会 让 你 知道 。 如 果 我 正在 写 入 ， 那 
么 你 不 能 读 取 ， 因 为 你 可 能 读 到 过 时 的 信息 。 





在 文件 系统 上 增加 这 种 功能 ， 需 要 对 文件 系统 进行 修改 ， 或 直接 安 
闭 新 的 文件 系统 模块 。 这 种 新 的 文件 系统 叫做 集群 文件 系统 ， 能 保证 多 
个 机 器 共 至 一 个 卷 ， 不 会 产生 破坏 。 


有 些 情况 确实 需要 让 两 台 机 器 同时 可 以 访问 同一 个 卷 〈 如 集群 环 
境 ) ， 但 是 大 多 数 情况 下 古 不 需要 共享 同一 个 卷 的 ， 每 合 机 器 拥有 各 目 
的 卷 ， 都 只 能 访问 属于 上 自己 的 卷 ， 这 样 不 束 太 平 了 么 ? 








是 的 ， 要 做 到 这 一 点 有 两 种 方法 。 分 析 从 主机 到 盘 阵 上 的 LUN 的 通 
路 ， 可 以 发 现 通 路 上 有 两 个 部 件 ， 第 一 个 部 件 是 FC 网 络 交 换 设备 ， 第 
二 个 部 件 就 是 磁盘 阵列 控制 器 。 可 以 在 这 两 个 部 件 上 做 某 种 “隐藏 ”或 
者 “欺骗 "， 让 主机 只 能 对 属于 它 自 己 的 LUN 进 行 访问 。 





(3) 在 磁盘 阵列 控制 医 上 做 “手脚 ”。 


SCSI 指 令 集中 有 一 条 指令 叫做 Report LUN， 也 就 是 在 SCSI 发 起 端 
和 目标 端 通信 的 时 候 ， 由 发 起 端 发 出 这 条 指令 ， 目 标 端 在 接收 到 这 条 指 
令 之 后 ， 就 要 向 发 起 端 报告 自己 的 LUN 信 息 。 可 以 在 这 上 面 做 些 手脚 ， 
骗 发 起 端 一 把 。 当 发 起 端 要 求 Report LUN 的 时 候 ， 盘 阵 控 制 器 可 以 根据 
发 起 端的 唯一 身份 (比如 WWPN 地 址 ) ， 提 供 相 应 的 LUN 报 告 给 它 。 





比如 针对 主机 A， 控 制 器 就 报告 给 它 LUN1、LUN2、LUN3。 虽 然 
盘 阵 上 还 配置 很 多 其 他 的 卷 ， 比 如 LUN4、LUN5、LUN6 等 ， 但 是 如 果 
告诉 控制 器 ， 让 它 根据 一 张 表 8-1 所 示 的 映射 表 来 判断 应 该 报告 给 某 个 
主机 哪个 或 哪些 LUN 的 话 ， 控 制 器 就 会 稍 秒 地 按照 指示 来 报告 相应 的 
LUN 给 相应 的 主机 。 





表 8-1 LUN 了 映射 表 





如 果菜 个 主机 强行 访问 不 属于 它 的 LUN， 盘 阵 控 制 器 便 会 拒绝 这 个 
请 求 。 上 面 那 张 映 射 表 完全 需要 人 为 配置 ， 因 为 盘 阵 控制 喜 不 会 知道 我 
们 的 具体 需求 。 所 以 对 于 一 个 盘 阵 来 说 ， 要 想 实现 对 主机 的 LUN 掩 贡 ， 
必须 配置 这 张 表 。 





盘 阵 上 的 这 个 功能 叫做 LUN Masking (LUN 掩蔽 ) ， 也 就 是 对 特定 
的 主机 报告 特定 的 LUN。 这 样 可 以 避免 “越界 ”行为 ， 也 是 让 多 台 主 机 共 
享 一 个 盘 阵 的 方法 ， 从 而 让 多 台 主 机 和 平 共享 一 台 盘 阵 资源 。 毕 竟 ， 对 
于 容量 动 辑 几 TB 甚至 几 百 TB 的 大 型 盘 阵 来 说 ， 如 果 不 加 区 分 的 让 所 有 
连接 到 这 人 台 盘 阵 的 主机 都 可 以 访问 到 所 有 的 卷 是 没有 必要 的 ， 也 是 不 安 
a 














不 仅 FC 接 口 盘 阵 有 这 个 功能 ，SCSI 前 端 接口 盘 阵 照样 可 以 实现 这 
个 功能 ， 因 为 这 是 SCSI 指 令 集 的 功能 ， 而 不 是 传输 总 线 的 功能 。 不 管用 





什么 来 传输 SCSI 指 令 集 ， 只 要 上 面 能 承载 SCSI 指 令 集 ， 那 么 指令 集中 
所 有 功能 都 可 用 。 


磁盘 阵列 除了 可 以 将 茶 些 LUN 分 配给 某 个 主机 之 外 ， 还 可 以 配置 选 
择 性 地 将 茶 个 或 东 坚 LUN 分 配 到 东 个 前 端 端口 上 。 也 就 是 说 ， 设 置 前 端 
主机 只 有 从 菏 个 盘 阵 问 口 进入 才能 访问 到 对 应 的 LUN， 从 盘 阵 前 端 其 他 
端口 访问 不 到 这 些 LUN。 有 些 双 控 制 右 的 盘 阵 可 以 定制 策略 将 某 些 LUN 
分 配 到 某 个 控制 器 的 某 些 端口 上 F。LUN Masking 的 策略 非常 灵活 ， 只 要 
有 需求 束 没 有 开发 不 出 来 的 功能 。 





总 之 ， 可 以 把 LUN 当 作 梨 糙 ， 有 很 多 食客 〈 主 机 ) 想 吃 这 些 指 糕 。 
然而 ， 食 客 要 吃 到 人 策 糕 ， 需 要 首先 通过 迷 宇 〈FC 网 络 ) ， 然 后 到 达 一 
个 城堡 〈 磁 盘 阵 列 ) 。 城 堡 有 好 几 个 门 〈“ 盘 阵 的 前 端 接 口 ) ， 如 果 城 保 
的 主人 很 宽松 ， 会 把 所 有 香料 分 配 到 所 有 门 中 ， 从 任何 一 个 门 进 入 都 可 
以 吃 到 所 有 熏 糕 。 如 果 主 人 决定 严格 一 些 ， 那 么 他 也 许 会 将 一 部 分 抹 糕 
分 配 到 1 号 门 ， 另 一 部 分 蛋糕 分 配 到 2 号 门 。 如 果 主 人 非常 严格 ， 那 他 会 
调查 每 个 食客 的 喘 份 ， 然 后 制定 一 个 表格 ， 根 据 不 同 身 份 来 给 食客 不 同 
的 各 糙 。 











(4) 在 FC 交 换 设备 上 做 “手脚 ”。 


我 们 前 面 提 到 过 ZONE。ZONE 的 功能 就 是 在 FC 网 络 交 换 设备 上 阻 
呆 两 个 节点 间 的 通路 ， 这 样 某 些 节点 就 根本 无 法 获取 并 访问 到 被 阻 断 的 
其 他 节点 ， 也 就 识别 不 到 其 上 的 LUN 了 。LUN masking 只 是 不 让 看 见 某 
个 节点 上 的 某 些 LUN 而 已 ， 而 ZONE 的 做 法 更 彻底 ， 力 度 更 大 。 


ZONE 有 软 ZONE 和 硬 ZONE 之 分 。 软 ZONE 就 是 在 名 称 服务 器 上 做 
手脚 ， 坎 骗 进行 名 称 注 册 的 节点 ， 根 据 ZONE 配 置 的 信息 癌 登 录 节 点 通 














告 网 络 上 的 其 他 节点 以 及 资源 的 信息 。 硬 ZONE 就 是 直接 把 交换 机 上 某 
些 端口 归 为 一 个 ZONE， 另 一 些 端口 归 为 另 一 个 ZONE， 在 两 个 ZONE 之 
间 完 全 底层 隔离 ， 端 口 之 间 都 不 能 通信 ， 如 图 8-21 所 示 。 








图 8-21 ZONE 示 意图 





图 中 有 两 个 ZONE，FC 盘 阵 B 所 连接 的 交换 机 端口 既 在 左边 的 
ZONE 中 ， 又 在 右边 的 ZONE 中 ， 这 样 是 允许 的 。 这 个 例子 中 ， 主 机 C 是 
无 法 和 盘 阵 A 通 信 的 ， 它 只 能 识别 到 盘 阵 B 上 的 LUN。 


有 了 LUN Masking 和 ZONE，EFC 网 络 的 安全 就 得 到 了 极 大 的 保障 ， 
各 个 节点 之 间 可 以 按照 事先 配置 好 的 规则 通信 。 





8.6 ”多 路 径 访 问 目标 


再 来 看 一 下 图 8-22。 这 是 一 个 具有 双 控 制 器 的 盘 阵 ， 两 个 控制 器 部 
连接 到 了 交换 机 上 ， 而 且 每 个 主机 上 都 有 两 块 FC 适 配 卡 ， 也 都 连接 到 
了 交换 机 上 。 前 文 说 过 ， 如 宋 在 盘 阵 上 没有 做 LUN Masking 的 稼 略 ， 而 
在 FC 交换 机 上 也 没有 做 任何 ZONE 的 集 略 ， 则 任何 节点 都 可 以 获取 到 网 
络 上 所 有 其 他 市 点 的 信息 。 





图 8-22 多 路 径 访 问 示 意图 





假设 盘 阵 上 有 一 个 LUN1 被 分 配给 控制 器 A，LUN2 被 分 配给 控制 器 
B， 那 么 可 以 计算 出 来 ， 每 个 主机 将 识别 到 4 块 磁盘 。 因 为 每 个 主机 有 两 
块 FC 适 配 卡 ， 每 个 适 配 卡 又 可 以 识别 到 控制 器 A 上 的 LUN1 和 控制 器 B 上 
的 LUN2。 也 就 是 次， 每 台 主 机 会 识别 到 双 份 元 余 的 磁盘 ， 而 主机 操作 
系统 对 这 一 切 一 无 所 知 ， 它 会 认为 识别 到 的 每 块 磁盘 都 是 物理 上 独立 
的 ， 这 样 很 容易 造成 混乱 。 











既然 会 造成 混乱 ， 那 么 为 何 要 在 一 台 主 机 上 安装 两 块 FC 适 配 卡 
呢 ? 这 样 做 融 是 为 了 元 余 ， 以 防止 单 点 故障 。 一 旦 茶 块 FC 卡 出 现 了 故 
障 ， 必 一 块 卡 依然 可 以 维持 主机 到 盘 阵 的 通路 ， 数 据 流 可 以 立即 转 癌 刀 
外 一 块 卡 。 





如 何 解 决 操作 系统 识别 出 多 份 磁盘 这 个 问题 呢 ? 办 法 就 是 在 操作 系 
统 上 安装 软件 ， 这 个 软件 识别 并 分 析 FC 卡 提交 上 来 的 LUN。 如 果 是 两 
个 物理 上 相同 的 LUN， 软 件 束 问 操作 系统 卷 管 理 程序 提交 单 份 LUN。 如 
果 某 块 FC 卡 故障 ， 只 要 主机 上 还 有 其 他 的 FC 卡 可 以 维持 到 FC 网 络 的 通 
路 ， 那 么 这 个 软件 依然 会 向 操作 系统 提交 单 份 LUN。 一 旦 所 有 FC 卡 全 


都 故障 了 ， 主 机 就 彻底 从 FC 网 络 断 开 了 ， 这 个 软件 也 就 无 法 提交 LUN 
了 ， 操 作 系 统 当然 也 识别 不 到 盘 阵 上 的 LUN 了 。 


此 外 ， 如 果盘 阵 的 某 个 控制 器 接口 发 生 故 障 ， 主 机 同样 可 以 通过 这 
个 软件 立即 重 定 同 到 另 一 个 备份 控制 器 ， 使 用 备份 控制 右 继 续 访问 盘 
阵 。 





这 种 软件 叫做 “多 路 径 ?软件 ， 中 高 端 产 品 的 开发 商都 会 提供 自己 适 
合 不 同 操作 系统 的 多 路 径 软件 。 多 路 径 软件 除了 可 以 做 到 元 余 高 可 用 性 
的 作用 之 外 ， 还 可 以 做 到 负载 均衡 。 因 为 主机 上 如 有 果 安 装 了 多 块 FC 适 
配 卡 ， 数 据 束 可 以 通过 其 中 任何 一 块 卡 到 达 目 的 ， 这 样 就 分 担 了 流量 。 





提示 : 多 个 存储 适配器 可 以 以 active/standby 模 式 或 者 
active/active 模 式 以 及 dual/multi active 模 式 工 作 。active/standby 
模式 是 指 同 一 时 刻 只 能 有 一 个 适配器 在 收发 数据 ，active/active 
模式 是 指 同一 时 刻 多 个 适配器 可 以 共同 收发 针对 同一 个 LUN 的 
数据 。 而 dual/multi active 则 是 两 个 或 指 多 个 适配器 不 能 同时 针 
对 同一 LUN 收 发 数据 ， 但 是 每 个 适配器 可 以 针对 不 同 的 LUN 收 
发 数据 。 





多 路 径 软件 示例 


如 图 8-23 所 示 为 EMC 公 司 针 对 其 存储 产品 所 开发 的 多 路 径 软件 
PowerPath 的 配置 监控 界面 。 可 以 看 到 这 人 台 Windows 主 机 上 安装 了 4 块 FC 
卡 。 存 储 系 统 向 这 台 主 机 共 映 射 了 7 个 LUN， 分 别 对 应 Disk 001 一 007。 





图 8-23 ”PowerPath 界 面 





如 图 8-24 所 示 ， 其 中 一 个 LUN 存 在 16 条 不 同 的 路 径 。 








图 8-24 每 个 LUN 通 过 16 条 路 径 被 访问 








如 图 8-25 所 示 ， 我 们 可 以 判断 出 整个 系统 的 拓扑 。 


图 8-25 ”系统 拓扑 图 





如 图 8-26 所 示 ， 一 块 FC 卡 出 现 故 障 后 ， 系 统 界 面 会 显示 出 来 。 如 图 
8-27 所 示 ， 虽 然 一 块 FC 卡 出 现 了 故障 ， 但 是 每 个 LUN 也 只 是 丢失 了 16 条 
路 径 中 的 4 条 ， 存 储 访 问 依 然 正 党。 


图 8-26 ”一块 FC 卡 出 现 故 障 图 8-27 LUN 依 然 可 以 通过 剩余 的 12 条 路 径 
被 访问 





多 路 径 软 件 与 阵列 控制 器 配合 切换 过 程 人 简介 


如 图 8-28 所 示 为 四 种 典型 的 连接 拓扑 下 各 种 链 路 故障 情况 的 示意 
图 。RDAC (Redundant Disk Array Controllers) 是 Linux 下 的 一 个 多 路 径 
软件 驱动 程序 ， 我 们 就 用 它 的 作用 行为 来 给 大 家 做 介绍 。 多 路 径 软件 一 
般 位 于 适配器 驱动 程序 之 上 ， 对 适配器 上 报 的 多 份 重 复 的 LUN 进 行 虚 
拟 ， 虚 拟 成 一 个 单一 的 逻辑 设备 然后 再 次 上 报 。 在 Windows 下 多 路 径 软 
件 属于 一 种 过 小 驱动 程序 层 (Filter Driver) 。 











图 8-28 四 种 典型 拓扑 下 的 多 路 径 切换 示意 图 





下 面 我 们 就 来 看 看 这 些 情况 下 多 路 径 软 件 到 底 会 怎么 来 动作 。 


(1) 在 第 一 个 场景 中 ，LUN1 的 Owner (或 称 Prefer) 控制 器 为 A， 
而 LUN2 的 Owner 控 制 器 为 B。 主 机 从 两 条 路 径 分 别 认 到 了 这 两 个 LUN， 
1 个 LUN1 和 1 个 LUN2。 多 路 径 软件 会 从 HBA1 链 路 来 访问 LUN1， 从 
HBA2 链 路 来 访问 LUN2。 某 时 刻 HBA2 连 接 交 换 机 的 链 路 发 生 故 障 ， 那 





么 此 时 对 LUN1 的 访问 路 径 不 受 影响 ， 但 是 对 LUN2 的 访问 链 路 完全 中 

断 ， 此 时 多 路 径 软 件 必 须 切换 到 HBA1 的 链 路 来 同时 承载 LUN1 与 LUN2 
的 流量 。 由 于 LUN2 的 Owner 控 制 器 为 B， 所 以 此 时 有 两 种 办 法 可 以 继续 
保持 对 LUN2 的 访问 : 第 一 种 办 法 就 是 主机 将 IO 通 过 HBA1 交换 机 人 A 传 
送 给 控制 器 A， 然 后 控制 器 A 将 IO 请 求 通过 控制 器 间 的 缓存 镜像 链 路 转 
发 到 控制 器 B， 控 制 堪 B 执 行 完 毕 后 将 结果 返回 给 控制 器 A， 之 后 原 路 返 
回 给 主机 ; 第 三 种 做 法 则 是 多 路 径 软 件 在 感知 到 故障 之 后 ， 判 断 出 只 能 
从 HBA1 的 链 路 走 到 控制 器 A 了 ， 那 么 此 时 多 路 径 软 件 可 以 向 控制 器 A 发 
送 命 令 ， 让 和 它 强 行 接管 对 LUN2 的 控制 权 ， 接 管 之 后 ， 针 对 LUN2 的 IO 就 
无 需 再 转发 给 控制 器 B 了 ， 直 接 由 控制 器 A 全 权 处 理 。 由 于 第 一 种 方式 

需要 耗费 镜像 通道 的 带宽 ， 所 以 出 于 性 能 考虑 ， 一 般 都 会 使 用 第 二 种 方 
式 处 理 ， 即 切换 Owner 控 制 器 。 


(2) 在 第 二 个 场景 中 ， 阵 列 的 双 控 制 器 各 通过 一 条 链 路 连接 到 一 
个 交换 机 上 。 此 时 主机 端 可 以 看 到 共 4 个 LUN， 从 HBA1 链 路 看 到 一 个 
LUN1 和 一 个 LUN2， 从 HBA2 链 路 看 到 一 个 LUN1 和 一 个 LUN2。 某 时 刻 
HBA1 链 路 故障 ， 那 么 此 时 坚 无 疑问 ， 多 路 径 软 件 一 定 要 切换 到 HBA2 
链 路 继续 收发 1O。 那 么 阵列 控制 器 之 间 是 否 需要 切换 LUN 的 控制 权 呢 ? 
不 需要 ， 因 为 主机 此 时 可 以 从 HBA2 交换 机 B 来 看 到 分 别 被 控制 器 A 与 
控制 器 B 管 控 的 LUN1 与 LUN2。 





(3) 在 第 三 个 场景 中 ， 有 两 台 主机 分 别 用 两 块 HBA 来 连接 交换 机 
了 。LUN1 只 映射 给 主机 1， 而 LUN2 只 映射 给 主机 2。 某 时 刻 ， 主 机 1 的 
HBA1 链 路 故障 或 者 卡 件 /接口 故障 ， 同 时 ， 阵 列 B 连 接 交 换 机 B 的 链 路 
也 发 生 故 障 。 此 时 ， 主 机 1 一 定 要 切换 到 HBA2 路 径 ， 通 过 交换 机 B 到 控 
制 器 A 从 而 保持 对 LUN1 的 访问 。 而 主机 2 则 根据 之 前 的 优选 路 径 来 判断 
是 否 切 换 ， 如 果 之 前 的 优选 路 径 是 通过 HBA2 -交换 机 B -控制 器 B 的 








话 ， 那 么 此 时 就 需要 切换 到 HBA1， 走 交换 机 A 再 到 控制 器 B 了 。 


(4) 在 第 四 个 场景 中 ，LUN1 与 LUN2 的 Owner 控 制 器 均 属于 控制 
器 B，LUN1 只 映射 给 主机 1， 而 LUN2 只 映射 给 主机 2。 此 时 主机 2 的 
HBA2 链 路 发 生 故 障 ， 那 么 此 时 主机 1 不 受 影响 ， 依 然 走 HBA2 ~ 交换 机 
B 一 控制 器 B 的 路 径 来 访问 LUN1; 而 主机 2 此 时 必须 切换 到 HBA1 来 收发 
IO， 但 是 HBA1 到 控制 器 B 并 没有 直接 路 径 ， 必 须 通 过 双 控 制 器 之 间 的 
镜像 路 径 ， 而 这 个 之 前 也 说 过 ， 不 推荐 使 用 ， 虽 然 理论 上 是 可 以 做 到 
的 。 那 么 此 时 主机 2 别 无 他 法 ， 只 能 通过 HBA1 向 阵列 的 控制 器 A 发 送 命 
令 ， 将 自己 所 要 IO 的 LUN2 的 Owner 控 制 器 切换 到 控制 器 A 上 ， 主 机 2 并 
不 会 要 求 将 LUN1 也 切换 ， 因 为 主机 2 只 能 感知 到 自己 所 访问 的 LUN， 也 
只 会 要 求 切换 自己 要 访问 的 LUN。 











45) 如 图 8-29 所 示 的 第 五 个 场景 中 为 妨 外 一 种 情况 ， 即 阵列 控制 
如 整 机 故障 的 情况 。 此 时 男 外 一 个 控制 器 会 通过 之 间 的 镜像 通道 (同时 
也 充当 心跳 线 ) 感知 到 对 方 阵列 已 死 ， 那 么 本 端 就 会 强行 将 对 端 控制 器 
之 前 所 管控 的 所 有 LUN 无 条 件 接管 。 同 时 ， 主 机 端 多 路 径 软 件 也 需要 根 
据 情 况 改变 优选 路 径 到 控制 器 A 而 不 是 已 死 的 控制 器 B 了 。 








图 8-29 ”阵列 控制 占 整 机 故障 场景 








(6) 第 六 个 场景 中 ， 阵 列 控制 器 B 连 接 本 地 磁盘 扩展 柜 的 链 路 故 
障 ， 这 样 就 导致 控制 器 B 认 不 到 本 地 下 挂 的 所 有 磁盘 了 ， 但 是 依然 可 以 
认 到 控制 器 A 处 的 磁盘 〈 控 制 器 B 有 链 路 连接 到 控制 器 A 下 面 的 磁盘 
柜 ) 。 此 时 控制 器 B 可 以 有 两 种 做 法 : 第 一 种 则 是 将 原本 处 于 其 下 挂 磁 
盘 上 的 LUN2 的 Owner 管 控 权 交 给 控制 器 A， 并 且 在 其 前 端 强 行 unmap 措 
LUN2， 这 样 主机 端的 多 路 径 软 件 就 可 以 感知 到 LUN2 的 消失 ， 上 自动 切换 
到 男 一 条 路 径 走 控制 器 A; 第 二 种 做 法 就 是 不 让 主机 端 多 路 径 软件 感知 





到 任何 变化 ， 主 机 针对 LUN2 的 IO 依然 下 发 到 控制 硕 B， 而 控制 器 B 接 收 
到 IO 之 后 ， 将 其 通过 双 控 之 间 的 镜像 路 径 转 发 到 控制 希 A 处 理 《控制 器 
A 依 然 可 以 访问 到 挂 在 控制 器 B 后 面 的 磁盘 ) ， 然 后 控制 项 A 将 结果 返回 
给 控制 咒 B， 之 后 控制 器 B 再 返回 给 主机 。 一 般 情 况 下 可 以 针对 不 同 场 
景 做 出 选择 ， 多 路 径 切 换 过 程 会 影响 主机 侧 应 用 程序 ， 但 是 不 切换 的 

话 ， 数 据 都 走 镜像 通道 ， 性 能 会 有 所 下 降 。 


8.7 FC 交换 网 络 节 点 4 次 Login 过 程 位 析 
每 个 FC 节点 连 到 FC Fabric 网 络 里 需要 经 历 4 次 Login 过 程 。 


第 一 次 Login 相 当 于 TCPIP 网 络 里 的 DHCP 过 程 ，FC 交 换 机 需要 为 每 
个 FC 节点 分 配 一 个 Fabric ID， 相 当 于 IP 地 址 ， 有 了 这 个 ID， 数 据 包 才能 
被 FC 交 换 机 正确 地 交换 ，FC 交 换 机 是 根据 Fabric ID 而 不 是 WWPN 〈 相 
当 于 以 太 网 的 MAC 地 址 ) 作 交换 的 。 


第 二 次 Login 过 程 ， 相 当 于 Windows 里 的 WINS 服 务 器 注册 和 资源 发 
现 过 程 ， 我 们 熟知 的 网 上 邻居 ， 有 两 种 访问 方式 ， 一 种 是 广播 方式 ， 男 
一 种 是 所 有 Windows PC 都 回 WINS 服 务 器 (其 IP 地 址 预先 在 每 台 PC 上 被 
配置 好 ) 注册 ， 双 击 网 上 邻居 时 候 每 台 PC 都 会 从 WINS 服 务 器 拉 取 目前 
网 络 上 的 PC 信息 。FC 也 有 这 个 过 程 ，FC 节 点 在 FC Fabric 里 的 第 二 次 
Login 过 程 ， 就 是 同 Name Server 注 册 自 己 ， 并 拉 取 目前 FC 网 络 里 的 所 有 
Target 市 点 信息 (只 有 FC Initiator 闻 点 才 会 主动 拉 取 资源 ，Target 节 点 只 
注册 不 拉 取 ) ， 在 第 二 次 Login 的 过 程 中 ， 其 实 包 含 了 两 次 “ 子 Login” 过 
程 ， 每 个 FC 节点 要 注册 到 Name Server， 必 须 先 向 Name Server 发 起 Port 
Login 过 程 ，Port Login 其 实 是 指 FC 网 络 底 层 端 口 级 别 的 Login， 一 个 
Fabric ID 所 在 的 端口 要 与 另 一 个 Fabric ID 所 在 的 端口 发 起 通信 ， 必 须 先 
Port Login， 成 功 之 后 ， 再 发 起 Process Login， 有 所谓 “Process Login” 就 是 
进程 级 别 的 Login， 残 是 发 起 端的 程序 要 问 对 方 表 明 我 将 与 你 处 运行 的 
哪个 程序 通信 ， 这 天 相 当 于 TCPIP 的 端口 号 ， 到 底 要 连接 对 方 的 哪个 端 
口 ， 每 个 端口 都 有 一 个 上 层 应 用 程序 在 监听 ， 同 Name ”Server 注 册 ， 那 
么 Name ， Server 上 一 定 要 运行 一 个 管理 注册 过 程 和 资源 列表 的 程序 ， 发 
起 病 束 是 在 声明 要 与 这 个 程序 连通 ， 从 而 注册 自己 ， 所 以 要 问 对 方 的 
FC 底层 协议 栈 声 明 “ 请 将 数据 包 发 送 给 注册 和 资源 管理 这 个 Process”， 所 














以 才 叫 做 “Process ”Login”， 与 TCPIP 向 某 端口 的 三 次 握手 机 制 类 似 。 经 
过 这 两 次 子 Login， 发 起 问 才 真正 地 与 Name Server 上 的 程序 进行 数据 交 
互 ， 从 而 完成 注册 和 资源 拉 取 过 程 。 








第 三 次 Login 过 程 ， 就 是 FC Initiator 节 点 向 所 有 自己 看 到 的 Target 节 
点 发 起 Port Login。 


成 功 之 后 ， 就 开始 第 四 次 Login， 也 就 是 向 Target 节 点 发 起 Process 
Login， 这 里 的 “Process” 一 定 就 是 对 方 的 FCP Target 程 序 了 ， 这 个 程序 被 
集成 在 了 FC 卡 的 Port Driver 的 下 层 。 


第 9 蔓 ” 天 翻 地 乾 - FEFC 协 议 的 已 


大 力量 





Fibre Channel 


mSCSI 


田 扩 展柜 
加 FC 侯 符 


话说 FC 协议 横 空 出 世 ， 在 江湖 上 引起 了 轩然大波 ， 各 门派 纷纷 邀 
请 FC 协 议 来 参与 存储 磁盘 阵列 的 制造 ， 用 FC 协 议 实现 盘 阵 与 主机 的 连 
接 。 


以 前 并 行 SCSI 的 时 代 已 经 结束 ， 终 于 可 以 将 那 义 宽 义 短 的 电 统 彻 抵 
抛弃 ， 取 而 代 之 的 是 细 长 的 光纤 。 


然而 ，FC 的 出 现 并 没有 终结 这 场 草 命 ，SAS 的 二 次 革命 义 要 到 来 ! 


9.1 FC 交换 网 络 蔡 代 并 行 SCSI 总 线 的 必然 性 


历史 是 不 断 前 进 的 ， 事 物 也 是 不 断 发 展 的 ， 新 技术 必定 取代 旧 技 
术 。FC 取 代 并 行 SCSI 总 线 有 两 个 根本 原因 。 


9.1.1 和 耐 问 连接 与 向 向 无 连接 





在 并 行 SCSI 总 线 时 代 并 没有 复杂 的 链 路 层 协议 , “ 连 ? 就 体现 在 线 线 
上 ， 就 像 连接 CPU 和 北桥 之 间 的 铜 线 一 样 ， 只 不 过 SCSI 线 绕 被 做 成 了 和 柔 
软 的 外 置 线 缆 而 已 。 基 本 在 这 种 短线 线 上 可 以 不 必 考 虑 通信 层面 的 内 
容 ， 因 为 距离 很 得， 线路 是 稳定 的 ， 不 需要 加 入 诸如 传输 保障 机 制 之 类 
的 东西 。 同 时 ， 这 种 情况 也 相当 于 面向 连接 的 电路 交换 ， 通 信 的 双方 要 
预先 建立 一 条 物理 上 的 通路 《〈 虚 电路 ) ， 不 管 有 没有 数据 流 ， 这 条 通路 
总 是 存在 ， 且 带宽 固定 ， 别 人 也 抢 不 走 这 条 电路 的 使 用 权 ， 这 就 给 通信 
双方 提供 了 最 大 的 质量 和 稳定 性 保证 。 在 这 样 的 链 路 上 ， 不 需要 过 多 的 
底层 传输 协议 开销 。 





相反 ， 在 面 问 无 连接 的 包 区 换 网 络 中 ， 数 据 流 被 封装 成 数据 包 ， 传 
输 保障 和 流量 控制 等 因素 就 显得 十 分 重要 了 。 因 为 此 时 网 络 是 共 至 的 ， 
网 络 按 照 Best Effort 尽 力 而 为 地 转发 数据 包 。 以 太 网 和 FC 交换 网 络 都 属 
于 这 种 面向 无 连接 的 技术 〈FC 中 Class1 类 型 服务 除外 ) 。 





而 电话 交换 网 、 并 行 SCSI 忌 线 网 就 属于 面 回 连接 的 网 络 。 当 你 提 机 
拨号 的 时 候 ， 电 话 局 的 电话 交换 机 便 会 在 你 和 你 通信 的 对 方 之 间 建 立 起 
一 条 物理 电路 ， 从 而 使 双方 通信 。 








提示 : 大 家 可 以 观察 一 下 电话 交换 机 ， 每 当 有 外 线 拨 入 的 时 
候 ， 束 可 以 昕 到 交换 机 里 有 吧 喻 吧 噶 的 声 首 ， 这 就 是 交换 机 在 


做 继电器 开 合 动作 。 





对 于 并 行 SCSI 总 线 ， 当 通信 发 起 者 需要 和 茶 个 节点 通信 的 时 候 ， 它 
会 申请 总 线 仲裁 ， 在 获得 总 线 资 源 之 后 ， 便 直接 和 对 方 发 起 通信 ， 此 时 
并 没有 一 个 显 式 的 连接 建立 的 过 程 。 物 理 通 路 总 是 存在 的 ， 在 任意 两 点 
之 间 都 存在 ， 只 不 过 此 通路 是 个 总 线 ， 是 大 家 共 孕 的， 需要 通过 仲裁 来 
获得 总 线 使 用 权 ， 也 惑 等 价 于 建立 独 齐 连接 。SCSI 指 令 和 数据 可 以 直接 
在 这 个 总 线 上 传递 ， 并 不 需要 过 多 的 额外 的 协议 开销 。 





1. 面 癌 连接 的 致命 弱点 


但 是 面 问 连 接 的 通信 有 三 个 致命 弱点 。 


面 回 连接 网 络 的 第 一 个 弱点 ， 束 是 资源 浪费 。 特 别 是 在 交换 环境 
中 ， 由 于 不 管 路 径 上 有 没有 数据 传输 ， 这 条 预先 建立 的 连接 必须 保持 并 
且 只 给 特定 的 通信 双方 使 用 ， 其 他 市 点 的 通信 不 管 数据 多 么 拥 野 者 不 能 
使 用 这 条 路 径 。 面 向 连接 的 网 络 好 比 一 个 城市 的 公交 系统 ， 每 条 公交 线 
路 都 是 固定 的 ， 不 管 这 条 线路 上 的 客流 量 多 少 ， 就 算 没 有 人 坐 这 条 线路 
了 ， 公 交 车 也 要 来 回 跑 。 而 面向 无 连接 的 网 络 就 好 比 出 租车 。 在 没有 人 
的 时 候 ， 出 租车 可 以 等 待 客人 到 来 。 一 旦 有 客人 到 来 ， 出 租车 便 会 上 
路 ， 而 且 路 线 不 是 固定 的 ， 司 机 可 以 按照 目前 道路 流量 情况 ， 选 择 空间 
的 道路 前 往 目 的 地 。 








面向 连接 网 络 的 第 二 个 弱点 是 维持 和 维护 这 条 连接 所 耗费 的 成 本 
高 。 通 信 双 方 距离 近 时 ， 没 什么 问题 ， 但 是 一 旦 距离 很 远 ， 要 维持 这 条 
物理 连接 ， 就 需要 很 高 的 成 本 。 要 解决 长 距离 传输 的 干扰 问题 、 需 要 中 
继 等 ， 这 也 是 长 途 电话 费 居 高 不 下 的 一 个 原因 。 








面 问 连接 网 络 的 第 三 个 弱点 ， 吏 是 缺乏 高 可 用 性 。 一 旦 建立 好 的 虚 
电路 因为 某 种 原因 断 开 了 ， 就 需要 通信 发 起 者 重新 建立 电路 才能 继续 双 
方 的 通信 。 这 种 现象 在 打 长 途 电话 的 时 候 经 常 遇 到 ， 此 时 不 得 不 重新 拨 
打 。 而 对 于 包 区 换 网 络 ， 通 信 双 方 没有 一 条 固定 的 数据 流 路 径 ， 交 换 或 
路 由 设备 会 自行 判断 数据 流 应 当 通 过 哪 条 路 径 到 达 对 方 。 一 旦 东 条 动态 
的 路 径 不 再 可 用 ， 交 换 设备 会 立即 选用 其 他 可 以 到 达 对 方 的 路 径 ， 而 这 
个 短 时 的 中 断 所 造成 的 影响 会 交 给 通信 双方 运行 的 传输 保障 协议 来 处 
理 ， 丢 失 的 数据 包 会 被 重 传 。 而 用 户 对 此 不 必 关 心 ， 最 多 会 感觉 有 短暂 
延迟 ， 而 不 必 重 新 和 对 方 建立 连接 。 














2. 面 癌 无 连接 的 优势 


面向 无 连接 的 包 交 换 网 络 比 面 同 连接 的 网 络 有 很 多 优势 。 面 向 无 连 
接 的 包 交 换 网 络 是 网 络 通信 的 一 种 趋势 ， 目 前 的 VOIP、IPTV 等 应 用 都 
征 想 利用 包 区 换 网 络 来 代 答 普通 的 电话 交换 网 络 和 有 线 电视 网 络 。 








不 要 把 “面向 无 连接 ”和 “TCP 是 有 连接 的 ” 泥 清 在 一 起 。TCP 是 一 个 
端 到 端的 协议 ， 它 运行 于 通信 双方 ， 而 不 是 通信 所 经 过 的 网 络 设备 上 。 
TCP 的 连接 不 是 物理 连接 而 是 逻辑 连接 。TCP 其 实 就 是 一 个 状态 ， 本 刁 
保持 一 个 状态 机 用 来 侦 调 双方 的 数据 流 是 否 成 功 发 送 或 者 接收 。 实 际 通 
信 两 点 间 的 连接 可 以 经 过 包 交 换 网 络 ， 同 样 也 可 以 经 过 面 问 连接 的 网 
络 。 也 惑 是 说 ,“ 面 癌 连 接 ” 和 * 面 癌 无 连接 ”是 指 链 路 层 的 概念 ， 而 TCP 
征 传输 层 的 概念 。 





9.1.2 上 串 行 和 并 行 


串 行 传输 在 长 距离 高 速 传输 方面 ， 也 必 将 取代 并 行 传输 。 


并 行 SCSI 总 线 就 是 一 种 面 癌 连接 的 并 行 的 共 孚 总 线 技 术 。 其 趋势 就 
征 必 将 被 高 速 串 行 的 、 面 癌 无 连接 的 网 络 通信 技术 所 取代 。 取 代 之 后 的 
结 末 ， 必 将 使 这 个 网 络 的 扩展 性 大 大 增强 ， 使 存储 系统 和 主机 系统 可 以 
远 隔 干 里 进行 通信 。 


得 益 于 FC 带 来 的 诸多 好 处 ， 现 在 人 们 终于 可 以 摆脱 存储 系统 和 主 
机 必须 放 在 一 起 的 限制 了 。 如 主机 在 北京 ， 而 盘 阵 可 以 在 青岛 ， 它 们 之 
间 通 过 租用 ISP 的 光缆 线路 进行 连接 ， 在 这 条 线路 上 承载 FC 协 议 ， 从 而 
达到 主机 和 盘 阵 之 间 的 通信 。 这 样 ， 在 北京 的 主机 上 就 可 以 直接 认 到 远 
车 青岛 的 盘 阵 上 的 LUN 逻 辑 盘 。 











由 于 FC 接口 速度 可 以 是 1Gb/s、2Gb/s、4Gb/s 甚 至 8Gb/s， 并 且 盘 阵 
前 端 可 以 同时 提供 多 个 主机 接口 ， 所 以 它们 的 带宽 之 和 远 远 高 于 后 端 连 
接 磁 盘 的 并 行 SCSI 总 线 提供 的 速度 。 这 样 ， 就 可 以 在 盘 阵 的 后 端 增加 更 
多 的 SCSI 通 道 ， 以 便 接 入 更 多 的 磁盘 来 饱和 前 端 FC 接口 的 速率 。 





9.2 不 甘 示 轮 一 一 后 问 也 升级 换代 为 FC 


在 将 主机 与 盘 阵 之 间 的 接口 、 链 路 都 替换 成 FC 协 议 之 后 ， 人 们 不 
断 增 加 磁盘 阵列 后 端 磁盘 的 数量 ， 以 达到 前 端 众 多 FC 接 口 的 饱和 速 
率 。 但 是 此 时 瓶颈 出 现 了 ， 后 端 每 增加 一 个 SCSI 通 道 ， 最 多 能 接 入 15 块 
磁盘 ， 数 量 太 少 了 。 增 加 SCSI 通 道 也 不 是 一 个 最 终 解 决 办 法 ， 能 和 否 找到 
一 种 彻底 的 解决 办 法 呢 ? 








抛弃 老爷 车 一 让 SCSI 搭 乘 高 速 专列 


要 解决 这 个 问题 ， 残 要 彻底 抛弃 盘 阵 后 端的 SCSI 并 行 传输 总 线 网 
络 ， 就 像 当 初 抛弃 前 端 SCSI 总 线 一 样 。 而 且 不 仅仅 要 使 接 入 便 盘 的 数量 
增加 ， 还 要 高 速 、 和 稳定。 既然 已 经 将 前 并 传输 网 络 丛 换 成 了 FC 交换 网 
络 ， 那 么 是 否 可 以 将 后 端 网 络 也 从 并 行 SCSI 答 换 成 FC 呢 ? 理论 上 是 完 
全 可 行 的 。 





由 于 FC 协议 系统 提供 了 两 种 网 络 拓 扑 架 构 ， 所 以 要 考 凤 后 端 存 储 
网 络 到 底 使 用 哪 种 架构 比较 合适 。 首 先 交 换 式 染 构 Fabric 是 一 种 包 交 换 
网 络 ， 寻 址 容量 大 ， 交 换 速 度 快 ， 各 个 节操 间 可 以 同时 进行 线 速 交换 ， 
无 阻塞 通信 ， 但 是 成 本 较 高 。 其 次 是 FC-AL 仲 裁 环 架构 ， 带 宽 共 享 ， 每 
个 环 寻 址 容量 128， 最 关键 的 一 点 是 ， 它 实现 起 来 比 交 换 架 构 简 单 ， 而 
且 成 本 也 低 很 多 。 











提示 : ”第 7 草 讲 的 FC 的 一 些 登 录 、 注 册 等 过 程 ， 都 是 在 Fabric 
架构 中 才 发 生 的 ， 而 在 FC-AL 则 是 另外 一 套 环 初始 化 过 程 。 


如 果 把 每 个 磁盘 都 作为 一 个 市 点 连 接 到 Fabric 交 换 网 络 中 ， 性 能 绝 
对 是 无 可 挑剔 的 ， 由 共享 总 线 变 成 了 点 对 点 交换 式 通信 ， 性 能 也 会 提升 


很 大 。 但 是 这 样 做 ， 不 但 要 在 盘 阵 的 后 端 实现 一 个 FC 交换 算 阵 ， 而 且 
要 在 每 块 磁盘 上 实现 FC 拓扑 中 的 N 端 口 ， 这 两 部 分 成 本 是 非常 巨大 的 。 
为 了 降低 成 本 ， 只 能 选择 性 能 稍 关 ， 但 是 成 本 低 的 FC-AL 仲 裁 环 架构 来 
连接 磁盘 阵列 的 控制 右 和 磁盘 ， 而 且 在 每 块 磁盘 上 都 实现 FC 拓 扑 中 的 工 
端口 。 








虽然 这 样 做 性 能 会 比 Fabric 架 构 差 ， 但 是 至 少 比 并 行 SCSI 总 线 强 多 
了 。 对 于 并 行 SCSI 总 线 来 说 ， 目 前 最 高 的 标准 是 Ultra 320， 裸 速率 
320MB/s， 实 际 最 大 传输 率 大 概 能 有 85%% 的 效率 ， 也 就 是 280MB/s 左 
右 。 有 人 做 过 实验 ， 在 Ultra 160〔 裸 速率 160MB/s) 的 总 线 上 ， 按 4KB 
数据 块 随机 访问 6 块 SCSI 硬 盘 时 ，SCSI 总 线 的 实际 访问 速度 为 
2.74MB/$，IOPS 大 约 700 次 /$s。 这 种 情况 下 ，SCSI 总 线 的 工作 效率 仅 为 
总 线 带宽 的 1.7% 。 在 完全 不 变 的 条 件 下 ， 按 256KB 的 数据 块 对 硬盘 进行 
顺序 读 写 ，SCSI 总 线 的 实际 访问 速度 为 141.2MB/s，IOPS 大 约 564 次 /s， 
SCSI 总 线 的 工作 效率 高 达 总 线 带 宽 的 88%%。 








由 于 FC-AL 目 前 刚刚 普及 到 4Gb 的 带宽 ， 裸 速率 400MB/s， 这 样 就 
比 Ultra 320 的 市 宽 要 高 。 不 仅 在 速率 上 ，FC 在 效率 上 也 比 Ultra 320 并 行 
总 线 要 高 。 但 是 2G 速 率 的 FC-AL， 其 裸 速 率 仅 200MB/s， 比 Ultra 320 低 
很 多 。 而 在 4G 的 FC-AL 出 来 之 前 ， 很 多 磁盘 阵列 驶 已 经 用 2G 的 FC-AL 
蔡 代 后 端的 Ultra 320 总 线 了 。 为 何 这 些 产 品 宁 愿 忍 受 2G 速 率 FC 相 对 
Ultra 320 一 半 的 速度 ， 也 要 将 其 后 端 蔡 换 为 FC 架构 呢 ? 





其 因素 主要 有 三 个 。 





(1) 可 扩展 性 。 受 并 行 SCSI 总 线 仲 裁 机 制 本 身 的 限制 ， 决 定 了 一 
条 总 线 上 不 会 有 太 多 的 节点 ，16 个 节点 的 数量 已 经 达到 它 的 可 管理 极限 
了 。 而 FC-AL 仲 裁 环 则 不 然 ， 它 的 极限 是 128 节 点 ， 这 就 比 SCSI 总 线 强 








多 了 。 这 个 限制 的 突破 ， 使 后 端 可 以 连接 更 多 的 磁盘 ， 很 容易 就 可 以 在 
单 台 磁 盘 阵 列 上 实现 上 TB 或 者 儿 十 TB 的 容量 (通过 连接 扩展 柜 〉。 


虽然 一 个 FC-AL 环 的 速度 比 一 条 Ultra 320 总 线 低 ， 但 是 多 条 总 线 和 
多 个 后 端 通道 可 以 集成 在 一 个 控制 器 上 。 而 并 行 SCSI 接 口 和 线 缆 都 很 宽 
大 ， 想 集成 在 一 个 小 的 空间 上 很 难 。FC 由 于 是 串 行 传输 ， 两 条 线 一 收 
一 发 足够 了 。 接 口 也 很 小 ， 如 SFP 光 纤 接 口 ， 只 有 指头 肚 一 样 大 小 ， 可 
以 很 方便 地 在 后 端 上 实现 多 个 通道 。 


(2) IOPS 值 比 并 行 SCSI 总 线 的 架构 显著 增加 。 为 什么 这 么 说 呢 ? 

我 们 分 析 一 下 。 高 IJOPS 通 常 意 味 着 IO _ SIZE 值 比 较 小 的 情况 下 ， 如 果 使 
用 并 行 SCSI 总 线 ， 由 于 可 接 入 节点 数量 较 少 ， 磁 盘 数量 少 ， 每 秒 可 接受 
的 IO 请 求 承 少 ， 而 FC-AL 的 后 端 ， 一 个 通道 可 以 连接 120 多 个 磁盘 ， 可 
以 做 成 很 多 Raid Group， 每 秒 可 接受 的 IO 请 求 承 比 并 行 SCSI 多 得 多 。 所 
以 ， 虽 然 2Gb 和 带宽 的 FC 网 络 传输 在 持续 传输 速率 上 比 不 过 Ultra ”320 的 
320MB/s 的 速度 ， 但 是 IOPS 却 比 Ultra 320 总线 高 很 多 。 在 特定 条 件 下 ， 
2Gb 的 FCAL 链 路 在 IOPS 和 吞吐 融 宽 指标 上 都 会 超越 Ultra 320 的 SCSI 总 
线 。 








现在 的 大 部 分 应 用 都 是 要 求 高 IOPS 的 ， 它 们 产生 的 一 个 IO SIZE 一 
般 都 比较 小 ， 而 且 随 机 IO 居多 。 但 是 对 于 视频 编辑 等 领域 ， 无 疑 是 要 求 
高 传输 带宽 的 。 面 对 这 种 应 用 ， 可 以 通过 在 盘 阵 后 端 加 入 多 个 FC-AL 环 
来 解决 ， 后 端 带 宽 总 和 等 于 环 数 乘 以 环 带宽 。 








(3) 双 逻 辑 端口 宛 余 。 由 于 FC 的 串 行 方式 使 得 数据 针脚 数量 降 
低 ， 相 同 的 空间 内 很 容易 做 成 双 罗 加 端 口 宛 余 。 双 逻辑 端口 磁盘 可 以 有 
效 保证 当 其 中 一 个 端口 发 生 故 障 之 后 ， 磁 盘 可 以 继续 使 用 另外 一 个 备用 
端口 接受 IO 请 求 。 





9.3 EC 是 命 一 一 完整 的 盘 阵 解决 方案 

FC 在 盘 阵 的 前 端 接口 技术 的 革命 成 功 之 后 ， 又 在 后 端的 接口 技术 
上 取得 了 成 功 。FC 技 术 的 两 种 拓扑 ， 一 个 称霸 前 端 ， 一 个 称霸 后 端 ， 
在 磁盘 阵列 领域 发 挥 得 淋漓 尽 致 








与 此 同时 ， 磁 盘 生 产 厂 家 也 在 第 一 时 间 将 FC 协 议 中 的 工 端口 和 FC 硬 
件 蕊 片 做 到 了 人 磁盘 驱动 器 上 ， 取 代 了 传统 的 SCSI 端 口 。 同 时 ， 根 据 FC 
协议 的 规定 编写 了 新 的 Firmware， 用 于 从 FC 数 据 帧 中 提取 SCSI 指 令 和 
数据 ， 完 成 FC 协 议 通 信 逻 辑 。 





提示 : 并 行 SCSI 磁 盘 以 及 其 他 设备 目前 仍 有 比较 广泛 的 应 
用 ， 尤 其 是 服务 器 本 地 磁盘 。 服 务 器 本 地 磁盘 一 般 只 安装 操作 
系统 ， 一 般 情况 下 应 用 数据 都 会 放 到 SAN 的 磁盘 阵列 上 ， 所 以 
对 本 地 磁盘 的 性 能 要 求 不 高 ， 使 用 Ultra 320 磁 盘 足 全。 另外 ， 
普通 独立 磁带 机 一 般 也 用 Ultra SCSI 320 作 为 其 外 部 接口 。 只 有 
在 大 型 磁带 库 设备 上 ， 为 了 将 其 接 入 FC ”SAN 才 会 使 用 FC 接 
口 。 


因为 要 把 每 块 磁盘 都 连接 到 FC-AL 网 络 中 ， 所 以 磁盘 上 要 做 上 一 个 
FC 接 口 。 由 于 磁盘 阵列 背 板 需要 连接 众多 的 磁盘 ， 所 以 惑 注定 不 可 能 
用 柔软 纤细 的 光纤 来 连接 磁盘 到 背 板 ， 必 须 使 用 硬 质 钢 线 ， 让 人 夏 盘 的 
FC 接口 用 铜 线 来 接触 盘 阵 背 板 上 的 电路 ， 这 样 才 能 做 到 方便 地 插 拔 。 





9.3.1 FEFC 磁 盘 接口 结构 


FC 破 盘 的 接口 为 SCA2 形 式 的 40 针 插口 ， 如 图 9-1 所 示 。 








图 9-1 SCA2 接 口 规格 


从 网 9-1 中 可 以 看 出 ，FC 磁 盘 的 接口 与 Ultra 320 SCSI 磁 盘 的 接口 形 
状 完全 相同 。 但 是 在 接口 上 的 物理 信号 定义 和 承载 的 上 层 协议 是 完全 不 
同 的 : FC 磁 盘 接 口 是 承 载 的 FC-AL 协 议 ， 而 SCSI 磁 盘 接 口 承载 的 是 并 
行 SCSI 总 线 协议 。 图 9-2 是 FC SCA2 型 接口 的 信号 定义 表 。 








图 9-2 FC 接口 SCA2 针 脚 信 号 定义 表 
9.3.2 一 个 磁盘 同时 连 入 两 个 控制 器 的 Loop 中 


图 9-3 和 图 9-4 分 别 给 出 了 一 串 磁 盘 以 单 Loop 和 双 Loop 接 入 的 情形 。 




















图 9-3” 单 Loop 连 接 示 意图 图 9-4” 双 Loop 连 接 示 意图 








从 图 中 可 以 看 出 来 ， 原 来 这 个 物理 接口 中 共 包 含 了 两 套 逻 辑 接 口 ， 
可 以 分 别 接 入 一 个 FC-AL 的 环 路 中 。 





9.3.3 ”共享 环 路 还 是 交换 一 一 SBOD 心 片 级 详解 


革命 之 后 ， 被 并 行 SCSI 总 线 技术 禁 铀 多 年 的 存储 系统 终于 解放 了 ， 
迎 来 了 全 FC 架构 的 春天 。 


各 个 厂家 分 别 推出 了 自己 的 产品 。 由 于 虽然 一 条 FC-AL 坏 最 多 能 接 
120 多 块 磁盘 ， 但 是 有 人 测试 过 ， 环 上 节点 的 数量 在 最 大 值 的 二 分 之 一 
时 ， 人 性 能 达到 最 大 化 。 再 增加 市 点 数量 ， 性 能 不 升 反 降 。 完 其 原因 ， 可 
能 是 因为 60 个 左右 的 节点 ， 己 经 达到 FC-AL 环 的 仲裁 性 能 以 及 带宽 共享 
限制 的 极限 了 ， 如 图 9-5 所 示 。 如 果 再 增加 节点 ， 那 么 用 于 仲裁 所 耗费 
的 资源 ， 就 会 影响 性 能 的 发 挥 了 。 这 也 是 仲裁 环 或 者 总 线 的 通病 。 对 于 


Fabric 架 构 ， 融 没有 这 种 限制 。 








图 9-5 ”FC-AL 环 的 性 能 曲线 











思考 : ”节点 数量 和 仲裁 / 帧 转发 效率 是 一 对 下 盾 系 统 ， 只 能 在 
二 者 之 间 进 行 折 中 选择 。 在 60 节 点 数量 左右 ， 能 达到 最 大 
IOPS。 如 宋 还 想 增 加 节点 数量 ， 增 加 盘 阵 所 提供 的 总 容量 ， 那 
就 只 能 牺牲 IOPS 性 能 。 同 样 ， 每 个 环 上 的 磁盘 数量 也 不 能 大 
少 ， 太 少 的 话 将 达 不 到 最 高 IOPS， 虽 然 此 时 仲裁 和 帧 转发 速度 
快 。 





有 没有 可 能 将 后 端的 共有 吾 FC-AL 环 路 架构 ， 改 变 为 交换 式 架 构 呢 ? 
改 为 交换 式 架构 是 可 以 ， 但 是 不 能 改 为 Fabric， 因 为 其 成 本 相对 偶 高 ， 
而 且 Fabric 的 一 些 特性 对 于 后 端 来 说 是 用 不 到 的 。 





Emulex 公 司 发 布 的 InSpeed SOC422 心 片 、PMC-Sierra 公 司 的 
PM8378 心 片 等 束 是 运行 FC-AL 协 议 但 物理 架构 是 交换 架构 的 必 片 。 然 
而 这 个 交换 架构 绝 非 Fabric， 因 为 其 遵循 的 上 层 风 辑 依 然 是 FC-AL 远 
辑 ， 只 是 在 物理 连接 上 用 点 对 点 交换 架构 ， 蔡 代 了 “节点 大 串联 ”的 Loop 
结构 ， 使 节点 与 节点 之 间 传 输 的 数据 可 以 通过 交换 矩阵 直达 ， 而 不 是 在 
环 路 上 一 跳 一 跳 的 中 继 。 然 而 ， 这 些 心 上 户 依 然 可 以 用 在 Fabric 交 换 机 
上 ， 只 要 经 过 一 定 改造 并 且 在 上 层 运行 对 应 的 Firmware 即 可 。 








其 实 就 是 用 星 型 连接 取代 串联 ， 而 电路 运行 的 逻辑 依然 是 FC-AL 仲 
裁 过 程 ， 因 为 位 于 控制 右上 的 FC 适 配 融 依然 会 执行 FC-AL 仲 裁 等 逻辑 ， 
只 不 过 这 个 仲裁 过 程 变 得 非 种 简单， 不 再 需要 所 有 做 盘 参 与 ， 而 由 这 块 
心 片 来 进行 仲裁 。 此 外 ， 某 市 点 同 一 时 刻 依 然 只 能 与 一 个 节点 通信 ， 节 
点 感觉 不 到 底层 电路 架构 的 变化 。 由 于 同一 时 刻 还 是 只 能 存在 一 对 节点 
进行 通信 ， 所 以 链 路 带宽 依然 是 共 胖 的 。 因 此 ， 这 种 交换 钦 构 做 的 并 不 














彻底 ， 它 没有 过 渡 到 包 交 换 或 者 所 有 端口 无 阻塞 全 交换 架构 ， 虽 然 物理 
上 已 经 可 以 实现 点 对 点 的 通路 。 

图 9-6 所 示 的 为 传统 FC-AL 架 构 和 半 交 换 式 FC-AL 架 构 示意 图 。 我 们 
可 以 看 到 左边 的 拓扑 完全 就 是 磁盘 串 ， 而 右边 则 变 成 了 星 型 的 架构 ， 中 
间 由 一 个 ESH 交 换 模 块 辐射 出 来 。 


图 9-6 ”传统 FC-AL 坏 和 半 交 换 式 FC-AL 环 





目前 高 端 盘 阵 后 端 控制 芯片 几乎 全 部 采用 半 交 换 式 架 构 了 。 半 交换 
式 架 构 有 以 下 好 处 。 











a 控制 节点 与 所 有 其 他 节点 间 都 是 点 对 点 窍 阵 直 连 架构 ， 相 对 于 环 
路 架构 减 小 了 数据 传输 时 的 延迟 。 数 据 帧 不 需要 一 跳 一 跳 的 转 
发 ， 可 以 直接 从 发 起 者 到 达 目 标 。 

a 可 以 快速 侦 测 和 隔离 某 个 节点 的 故障 而 不 影响 其 他 市 点 。 

a 由 于 降低 了 链 路 延迟 ， 增 加 了 效率 ， 所 以 在 性 能 可 接受 的 前 提 
下 ,一 条 链 路 可 接 入 的 市 反 数 大 大 增多 。 

a 相对 于 纯 环 路 染 构 ， 半 交换 架构 提高 了 传输 速度 和 IOPS。 








纯 环 路 架构 的 扩展 柜 中 ， 连 接 硬盘 的 背 板 只 是 一 个 FC-AL 环 路 连接 
装置 ， 而 升级 到 半 交 换 架 构 的 硬盘 扩展 柜 的 ， 其 连接 硬盘 的 背 板 上 就 有 
了 Switch 心 请 〈 其 实 这 个 心 族 一 般 存 在 于 从 背 板 单独 接 出 的 扩展 模块 
上 ) ， 可 以 级 联 多 个 扩展 柜 。 在 多 辑 上 ， 这 些 级 联 扩展 柜 中 的 所 有 磁盘 
属于 一 个 逻辑 上 的 Loop， 前 者 被 称 为 JBOD (Just Bunch Of Disks) ， 后 
者 被 称 为 SBOD (Switched Bunch Of Disks) 。 


提示 : 关于 这 些 模块 的 实物 图 ， 请 参照 本 书 第 6 章 的 相关 章 
i 


1.，PMC-Sierra 公 司 PM 系 列 芯 片 简 介 


下 面 以 PMC-Sierra 公 司 的 PM8368 和 PM8378 两 款 芯 片 为 例 来 详细 解 
释 一 下 这 种 芯片 的 作用 方式 。 


1) PBC 芯 片 


在 传统 模式 的 FC-AL 架 构 下 ， 所 有 环 路 上 的 节点 (adapter 和 磁极) 

都 通过 串联 架构 串 接 到 了 一 起 。 针 对 这 个 架构 的 PM8368 心 片 是 一 款 具 
有 18 个 2Gb/s 的 FC 接口 的 带 有 PBC (Port Bypass Control) 功能 的 芯片 ， 
相当 于 一 个 Loop 串 联 器 ， 并 且 带 有 端口 Bypass 功 能 ， 可 防止 某 个 端口 故 
障 引 发 的 全 Loop 断 开 。 图 9-7 所 示 为 PM8368 艺 片 的 方 框图 。 其 18 个 端口 
中 ， 通 常用 16 个 连接 磁盘， 其 他 两 个 连接 上 位 蕊 片 和 (或 ) 下 位 已 厂 。 
这 种 不 带 有 交换 逻辑 的 普通 Loop 芯 片 ， 业 界 一 般 称 为 PBC 芯 片 ， 即 旁 路 
控制 已 厂 。 








图 9-7 PM8368 芯 片 方 框图 


图 9-8 所 示 的 是 将 PM8368 芯 片 与 PM8372 芯 片 〈 一 款 只 有 4 个 FC 口 的 
PBC 环 路 集 线 蕊 片 ) 搭配 在 一 起 而 实现 的 扩展 柜 级 联 ， 每 扩展 柜 有 16 块 
盘 。 引 入 PM8372 心 片 的 原因 是 将 其 作为 一 个 二 级 级 联 桥 来 减缓 一 级 心 
片 (PM8368) 的 端口 耗 尽 问题 。 一 级 芯片 需要 连接 最 终 便 和 可 等 设备 。 





图 9-8 利用 PM8368 世 片 与 PM8372 忆 片 级 联 扩展 柜 
2) CTS 世 片 


图 9-9 所 示 为 PM8378 疙 片 的 方 框图 。 此 蕊 片 为 新 一 代 的 CTS 心 万， 
CTS 为 Cut Through Switch 的 简称 。 这 款 芯 片 具有 交换 逻辑 ，IO 性 能 相对 


于 PBC 心 片 大 大 增加 ， 而 延迟 大 大 降低 。 这 块 芯 片 可 以 接 入 18 个 4Gb/s 
的 FC 接口 设备 。 在 上 部 的 模块 中 ， 可 以 看 到 三 个 模块 : Arb Mgmt ( 仲 
裁 管 理 模 块 ) 、AL_PA Table (AL-PA 地 址 端口 映射 表 模 块 )、Cut 
Thru Mgmt《〈 捷 径 交 换 模块 ) 。 








图 9-9 PM8378 芯 片 方 框图 


a Arb Mgmt《〈 仲 裁 管理 模块 ) : 前 面 曾经 说 过 ， 一 个 交换 已 片 必 


须 感知 FCAL 的 仲裁 逻辑 ， 才 能 作为 一 个 中 心 仲裁 器 总 揽 仲 裁 
权 ， 而 不 用 Loop 上 所 有 的 节点 都 参与 进来 。 这 个 仲裁 管理 模块 实 
现 的 就 是 这 个 功能 。FC 适 配器 只 要 发 出 仲裁 请 求 ， 蕊 片 就 会 马 
上 通过 ， 适 配器 并 即 束 获得 了 使 用 权 ， 加 快 了 仲 妒 的 速度 。 如 果 
某 时 刻 多 个 设备 都 发 起 仲裁 ， 则 心 片 会 根据 自己 的 逻辑 来 处 理 这 
些 请 求 ， 比 如 根据 优先 级 等 。 

AL_PA Table (AL-PA 地 址 端口 映射 表 模 块 ) : 传统 的 FCAL 环 路 
上 ， 数 据 从 通信 源 被 发 送 到 对 应 AL-PA 地 址 的 目的 设备 ， 数 据 帧 
需要 一 站 一 站 地 向 下 接力 传送 。 交 换 芯 片 的 另 一 个 作用 就 是 抛弃 
这 种 低 效 的 传输 方式 ， 使 数据 可 以 一 站 直达 目的 。 芯 片 使 用 一 张 
映射 表 来 维护 交换 逻辑 ， 这 就 和 以 太 网 交换 机 维护 一 张 MAC- 端 
口 表 一 样 。 FCAL 交 换 蕊 片 每 收 到 一 帧 数据 ， 就 会 根据 这 个 
AL_PA Table 来 查找 帧 中 的 AL-PA 地 址 所 对 应 的 芯片 针脚 是 哪 一 
个 ， 然 后 直接 将 此 帧 转发 到 对 应 的 针脚 上 ， 也 就 传送 到 了 针脚 所 
连接 的 磁盘 FC 接 口上 。 

Cut Thru Mgmt (捷径 交换 模块 ) : 这 个 模块 其 实 就 是 执行 交换 
过 程 的 。 每 当 有 帧 需要 交换 ， 这 个 模块 就 会 发 送 一 个 信号 到 图 9- 
9 中 部 的 那个 矩阵 上 ， 改 变 和 矩阵 当前 的 通路 布局 ， 从 而 将 数据 从 
源 传 向 目的 设备 。 








图 9-10 是 利用 PM8378 芯 片 实现 的 磁盘 扩展 柜 级 联 和 示意 图 。18 个 端 
口中 有 16 个 连接 了 磁盘 ， 男 外 两 个 分 别 连 接 了 上 位 和 下 位 蕊 


图 9-10 ”扩展 柜 级 联 示意 图 





还 可 以 将 PBC 心 片 和 和 CTS 心 片 组 合 在 一 起 来 级 联 扩 展柜 。 如 图 9-11 
所 示 ， 为 了 降低 成 本 ， 使 用 了 18 口 的 PBC 芯 片 来 连接 磁盘 ， 然 后 用 一 个 
4 端口 的 CTS 心 片 来 作为 二 级 级 联 桥 。 在 这 种 情况 下 ， 每 个 扩展 柜 中 的 
磁盘 之 间 为 普通 Loop 串 联 ， 但 是 扩展 柜 与 扩展 柜 之 间 却 是 交换 拓扑 ， 这 
样 惑 相当 于 把 整个 Loop 上 的 节点 划分 成 域 ， 每 个 扩展 柜 就 是 一 个 共享 域 
(冲突 域 )。 现 在 流行 的 做 法 是 : 磁盘 连接 到 CTS 必 片 中 ， 而 柜子 与 柜 
子 之 间 是 PBC 心 片 ， 所 以 图 9-11 所 示 的 恰好 相反 ， 这 一 点 请 读者 注意 。 




















图 9-11 PBC 与 CTS 的 组 合 


如 图 9-12 所 示 ， 这 种 方式 使 用 了 高 成 本 的 CTS 心 片 组 成 了 全 交换 架 
构 的 Loop。 整 个 Loop 上 的 节点 之 间 都 形成 了 交换 架构 ， 但 这 个 交换 架 
构 并 不 是 无 阻 罕 多 路 同时 交换 的 架构 ， 依 然 是 同时 只 允许 两 点 间 通 信 的 
上 层 FC-AL 罗 辑 的 架构 。 


图 9-12 ”全 CTS 架 构 





SBOD 控 制 模块 上 的 芯片 不 只 有 PBC 或 CTS， 还 包括 其 他 各 种 功能 
的 芯片 ， 在 图 中 并 没有 给 出 ， 下 面 会 一 一 介绍 。 


AAA 


2. SCSI Enclosure Service 简 介 


SCSI Enclosure Service 简 称 为 SES， 从 字面 上 理解 就 是 SCSI 协 议 中 
用 于 查询 磁盘 扩展 柜 (Enclosure) 各 种 状态 的 一 种 服务 (协议 ) 。 扩 展 





柜上 有 很 多 组 件 需 要 被 监控 ， 比 如 电源 模块 、 风 局 散 热 模块 、 各 种 指示 
灯 、 温 度 传感器 等 。 这 些 组 件 都 通过 某 种 总 线 〈 比 如 I2C、GPIO) 方式 
连接 到 某 个 必 片 ， 然 后 这 块 必 片 再 通过 I2C 等 连接 到 单片机 或 CPU。 或 

者 通过 外 部 传 感 句 直接 连接 到 高 集成 度 的 单一 心 片上 。SCSI 客 户 问 程 序 
(也 就 是 SCSI Initiator 端 程序 ) 通过 发 送 SES 协 议 规 定 的 各 种 指令 来 得 
询 Enclosure 上 各 个 组 件 的 状态 信息 。 








SES 服 务 模块 就 是 指 扩展 柜上 的 CPU， 其 中 运行 着 处 理 SES 的 代 
码 。 这 个 CPU 可 以 是 主 控 CPU， 也 可 以 是 独立 的 芯片 。 存 储 设备 机 头 主 
控制 器 有 两 种 方式 将 SES 指 令 传输 给 这 个 CPU， 如 下 所 述 。 


1) 独立 SES 服 务 模块 


如 图 9-13 所 示 ， 独 立 的 SES 服 务 模块 独占 一 个 LUN ID 十 六 进 制 的 
0D) ， 可 以 直接 寻 址 。 也 就 是 说 ，SES 服 务 模块 就 相当 于 一 个 FCAL 
Loop 上 的 ID， 机 头 直 接 将 SES 指 令 传输 给 这 个 ID。 对 应 电路 层面 ， 主 交 
换 芯 片 收 到 目标 为 此 ID 的 帧 ， 便 会 直接 转发 给 这 个 ID 所 连接 的 设备 ， 这 
里 就 是 SES 处 理 心 片 。 





图 9-13 ”独立 SES 服 务 模 块 示意 图 
2) 附属 的 SES 服 务 模 块 


如 图 9-14 所 示 ， 附 属 的 SES 服 务 模块 往往 会 利用 一 个 已 经 存在 的 设 
备 的 地 址 来 与 自己 共用 。 而 物理 接口 上 ， 这 个 设备 一 般 会 有 一 条 旁 路 来 
连接 到 SES 服 务 模块 ， 比 如 目前 FC 磁 盘 普 遍 使 用 的 SCA2 接 口中 就 有 对 
应 的 ESI (Enclosure ”Service ”Interface) 接口 来 连接 到 SES 服 务 模 块 上 
CCPU) 。 存 储 设 备 的 主 控 机 头 首先 将 一 条 SES 可 用 性 探 询 指令 发 送 到 
这 个 已 经 被 磁盘 占用 的 ID， 如 宁 这 个 ID 对 应 的 槽 位 上 有 连接 设备 ， 且 该 











设备 文 持 转发 SES 帧 ， 则 该 设备 会 返回 一 个 确认 帧 ， 帧 中 携带 有 特定 
Page 的 值 ， 主 控 机 头 收 到 之 后 便 会 分 析出 这 个 设备 是 否 文 持 SES 转 友 。 
机 头 随 后 发 出 纯 SES 指 令 ， 磁 盘 收 到 之 后 ， 会 通过 ESI 接 口 将 SES 帧 发 送 
给 ESI 接 口 的 对 端 ， 当 然 孙 是 SES 处 理 必 上 请 了 ， 芯 斤 收 到 SES 指 令 之 后 ， 
便 通 过 I2C (或 者 其 他 类 型 总 线 ) 总 线 去 查询 外 部 传感器 的 信息 ， 然 后 
封 厂 成 SES 返 回 帧 ， 通 过 ESI 接 口 发 送 至 人 磁盘， 磁盘 再 转发 给 主 控 机 
头 。 磁 往 的 Firmware 必 须 文 持 转发 SES 帧 。 





图 9-14 ”附属 的 SES 服 务 模块 示意 图 








3. SBOD 上 的 CPU 
1) PMC-Sierra 公 司 的 PM8393 心 厂 


这 是 一 球 基 于 MIPS32 架 构 的 单片机 ， 内 建 有 128KB 的 RAM， 外 部 
时 钟 为 106.25 MHz， 可 以 将 其 连接 到 上 文 所 属 的 PM8378 Switch 心 
中 。 这 款 必 片 又 名 Sotrage Management Controller， 简 称 SMC。 图 9-15 为 
其 方 框图 。 





图 9-15 ”PM8393 芯 片 方 框图 








图 9-16 是 PM8393 蕊 片 充当 扩展 柜 总 控 CPU， 用 PM8378/PM8379 充 
当 交 换 蕊 片 来 连接 人 磁盘， 再 加 上 其 他 一 些 蕊 片 共 同 组 成 的 一 个 完整 的 扩 
展柜 控制 模块 架构 。 





图 9-16 ”用 PM8393 做 为 扩展 柜 总 控 CPU 





2) Qlogic 公 司 的 GEM359 心 片 


图 9-17 一 图 9-19 所 示 为 这 至 必 片 的 方 框图 。 


图 9-17 GEM359 蕊 片 方 框图 (1) 


图 9-18 GEM359 芯 片 方 框图 (2) 图 9-19 GEM359 芯 片 方 框图 (3 ) 











4. SBOD 上 的 ROM 和 RAM 


SBOD 扩 展柜 上 的 CPU 需要 执行 Firmware 中 的 代码 来 完成 一 系列 的 
动作 ， 如 SES 服 务 等 。 所 以 ，Firmware 编 写 的 质量 直接 决定 了 扩展 柜 是 
否 能 向 机 头 上 的 控制 器 稳定 和 迅速 地 报告 扩展 柜上 所 发 生 的 一 切 事件 。 











Firmware 一 般 存 在 于 扩展 柜 控 制 模块 上 的 ROM 芯 片 〈 如 Flash 心 
片 ) 中 ， 并 且 可 以 随时 将 升级 之 后 的 Firmware 通 过 FC 接 口 直 接 写 入 心 
片 。 这 种 直接 通过 实际 数据 链 路 来 升级 系统 控制 数据 的 方式 叫做 in-band 
升级 ， 即 “ 带 内 升级 *?。 如 果 用 一 种 单独 的 通道 来 访问 Flash 蕊 片 并 做 升级 
动作 就 叫做 out-band 升 级 ， 也 就 是 市 外 升级 。 


SBOD 控 制 模 块 上 一 般 都 有 外 置 的 RAM 忌 片 ， 有 些 内 置 了 RAM 的 
单片机 除外 。 


5. PATA、SATA 和 和 SAS 磁盘 怎么 办 


PATA (IDE) 盘 和 SATA 盘 相对 于 FC 盘 和 SAS 盘 来 说 ， 成 本 降低 了 
很 多 ， 且 可 以 实现 高 容量 ， 现 在 已 经 有 了 1TB 的 SATA 磁 盘 。 对 于 一 些 
对 IO 性 能 要 求 不 高 的 环境 来 说 ， 使 用 SATA 盘 无 疑 是 很 合适 的 。 但 是 面 
对 不 同 的 接口 ， 不 同 的 指令 ， 单 独 对 这 些 磁 盘 实 现 一 套 盘 柜 和 控制 器 体 
系 实在 是 不 方便 。 且 现在 企业 都 要 求 高 度 整 合 ， 统 一 分 配 ， 方 便 管 理 。 





根据 这 个 需求 ， 各 种 适配器 和 转换 逻辑 出 现 了 。 图 9-20 所 示 为 一 个 
SATA-SCA2 接 口 转换 器 。SATA 和 磁盘 只 要 接 上 这 块 PCB， 了 吏 可 以 从 物理 
上 融入 FC 盘 柜 中 ， 也 就 变 成 了 所 谓 的 FATA 盘 。 除 此 之 外 ， 还 有 很 多 其 
他 类 型 的 转 接 电路 ， 比 如 PATA-SCA2、SAS-SCA2 等 。 


图 9-20 SATA-SCA2 转 接 电 路 板 


物理 上 融入 了 ， 在 逻辑 上 也 需要 进行 转换 。SATA 人 磁盘 使 用 ATA 指 
令 系 统 ，FC 和 SAS 人 磁盘 使 用 SCSI 指 令 系 统 ， 二 者 不 兼容 。 所 以 需要 有 一 
个 中 央 蕊 片 负 责 在 两 种 逻辑 之 间 互 相 转 换 。 


Sierra Logic 的 SR1216 心 片 是 一 款 高 集成 度 的 必 片 。 这 款 必 片 将 
ATA-SCSI 转 换 逻 辑 以 及 两 个 MicroProcessor 做 到 了 一 块 单一 的 芯片 中 。 
MicroProcessor 束 是 微型 CPU， 用 来 运行 外 部 Flash 心 片 中 的 Firmware， 

从 而 实现 SES 等 扩展 柜 管 理 程序 。 


图 9-21 所 示 为 SR1216 芯 片 实物 图 。 


图 9-21 ”SR1216 芯 片 实物 图 





图 9-22 和 图 9-23 所 示 为 用 SR1216 来 充当 SATA 桥 和 总 控 CPU 所 形成 
的 扩展 柜 控 制 模块 架构 图 ，PBC 表 示 FC Loop 劳 路 控制 芯片 ，SES 
Processor 表 示 用 来 收集 外 部 传 感 右 的 专用 心 








图 9-22 ”SR1216 架 构 的 扩展 柜 控 制 模 块 图 9-23 ”SR1216 架 构 的 扩展 柜 控 制 模块 
(1) (2) 








另外 ，PMC-Sierra 公 司 也 有 多 天 多 端口 SATA 复 用 必 片 ， 不 过 有 一 
些 需要 搭配 额外 的 ATA-SCSI 转 换 桥 心 片 。 图 9-24 为 其 示意 图 。 








图 9-24 PMC-Sierra 的 SATA 盘 柜 控 制 模 块 架构 图 


9.4 SAS 大 革命 


SAS 技 术 是 近 一 两 年 来 才 被 普遍 使 用 的 技术 ， 其 相对 FC 技术 有 多 种 
优点 ， 也 有 其 缺点 。 本 市 问 大 家 介绍 一 下 SAS 技 术 的 确 层 以 构 。 





9.4.1 SAS 物 理 层 


适用 于 存储 系统 的 网 络 不 止 FC 一 个 ， 同 档次 的 网 络 传输 系统 还 有 
一 个 叫做 SAS 的 ， 全 称 为 Serial Attached SCSI， 即 串 行 SCSI。FCP 也 属 
于 串 行 SCSI，SAS 只 是 一 个 名 称 ， 不 要 太 较 真 。SAS 是 于 2001 年 被 
Compaq、IBM、LSI Logic、Maxtor 和 Seagate 联 合 提 上 日 程 的 。 大 家 都 
知道 ， 现 在 普遍 用 于 PC 的 SATA 硬 盘 ， 也 是 从 2001 年 之 后 才 逐 渐 轩 露头 
角 的 。 的 确 ， 当 时 几 大 广 家 在 开发 串 行 ATA 时 就 考虑 到 : 为 何不 将 SCSI 
一 同 纳入 开发 范围 呢 ?” 于 是 SAS 便 悄悄 的 被 开发 了 。 正 是 由 于 这 种 因缘 
关系 ， 今 天 普 衣 用 于 PC 服务 器 和 小 型 机 的 本 地 硬盘 的 SAS 人 磁盘 的 接口 形 
状 与 SATA 盘 是 相同 的 ， 只 是 比 SATA 盘 多 了 一 个 数据 接口 ， 像 FC 磁 稻 
一 样 用 来 连接 两 路 控制 器 。 第 二 数据 接口 位 于 第 一 数据 接口 靠背 的 位 
置 ， 需 要 翻 过 来 才能 看 到 ， 如 图 9-25 所 示 。 





图 9-25 SAS 和 SATA 接 口 的 区 别 





SAS 网 络 与 FC 有 一 个 本 质 区 别 ， 即 SAS 为 全 交换 式 架构 ， 不 像 FC 一 
样 有 Fabric 和 ECAL 了 两 种 架构 。 如 果 让 一 个 控制 器 〈Initiator) 和 多 块 磁 
盘 作 为 网 络 节点 直接 连接 到 SAS 网 络 中 的 话 ， 那 么 控制 器 和 所 有 磁盘 之 
间 都 是 全 双 工 线 速 无 阻塞 交换 的 ， 控 制 器 可 以 直接 癌 任 何 一 块 磁盘 收发 
数据 ; 同样， 磁盘 也 可 以 在 任何 时 刻 直 接 回 控制 右 发 送 数据 。 这 一 切 过 
程 都 是 没有 冲突 的 ， 也 不 需要 像 FCAL 那 样 的 仲裁 机 制 ， 而 且 每 个 节点 
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在 SAS 网 络 中 ， 每 一 个 物理 接口 都 需要 有 一 套 底 层 编 解码 器 负责 对 
数据 进行 8/10b 编 解码 。 每 个 物理 接口 又 称 为 PHY， 即 Physical 的 简写 。 
SAS 1.0 时 代 ， 每 个 物理 接口 的 编 解码 速度 为 3Gb/s，SAS 2.0 时 代 “(2010 
年 初 才 有 产品 正式 宣布 ) ， 这 个 速率 被 提升 至 6Gb/s。 换 算 一 下 就 可 得 
知 ，SAS 1.0 的 每 个 接口 数据 带宽 为 300MB/s，SAS 2.0 则 翻 倍 。 相 比 之 
下 ， 同 时 代 的 FC 接 口 物理 速率 已 经 普 遇 为 4Gb/s， 而 且 8Gb/s 的 产品 已 经 
上 市 ，SAS 慢 了 一 小 步 ， 而 且 还 相差 2Gb/s。 但 是 SAS 的 一 项 设计 却 比 
FC 走 到 了 前 面 ， 即 可 以 将 多 个 PHY 捆 绑 成 一 个 逻辑 接口 ， 数 据 并 行 地 
在 多 个 PHY 中 传输 ， 就 像 PCI-E 一 样 ， 每 个 PHY 速 率 2.5Gb/s，4XPCIE 便 
是 4 个 PHY 捆 绑 。4X 的 SAS 接 口 ， 其 速率 就 变 成 了 12Gb/s (SAS 1.0) 或 
者 24Gb/s (SAS 2.0) 。 而 目前 FC 是 做 不 到 这 一 点 的 。 多 个 PHY 经 过 捆 
绑 之 后 形成 的 逻辑 端口 称 为 “ 宽 端 口 ”， 不 捆绑 的 独立 单一 PHY 称 为 “ 罕 
端口 ”。 宽 端口 一 般 用 于 主机 SAS 适 配器 连接 SAS 接 口外 置 磁盘 阵列 时 使 
用 ， 因 为 宽 端 口 可 以 提供 更 高 的 市 完 ， 消 除 瓶 贷 ， 同 时 ， 连 接 使 用 的 线 
缆 也 借用 了 Infiniband 网 络 的 设计 。 如 图 9-26 所 示 为 一 个 4X 宽 端口 所 用 
的 线 缆 接头 实物 图 。 








图 9-26 SAS 的 4X 宽 端口 





图 9-27 所 示 的 是 一 块 主机 SAS 适 配 卡 的 连接 示意 图 。 此 适 配 卡 有 两 
个 SAS 通 道 ， 每 个 通道 又 有 4 个 PHY， 其 中 一 个 通道 用 于 连接 主机 箱 内 
部 的 SAS 或 者 SATA 位 盘 ， 通 过 线 绕 连 接 到 转 接 背 板 上 ， 然 后 4 块 磁 盘 可 
以 以 热 插 拔 方式 插 到 背 板 上 对 应 的 接口 。 另 一 个 通道 使 用 上 文 所 述 的 
4X SAS 线 缆 连 接 外 置 SAS 接 口 的 磁盘 阵列 。 如 果 在 这 块 SAS 卡 上 设计 有 
独立 的 Raid 芯 片 或 者 直接 集成 到 SAS IO Processor 中 ， 那 么 这 块 卡 就 变 为 
了 一 块 可 接 SAS 或 者 SATA 人 硬盘 的 Raid 卡 了 。 








图 9-27 ”SAS 适 配器 内 部 连 线 示 意图 














由 于 SAS 和 SATA 硬 盘 的 接口 是 相同 的 ， 所 以 自然 想到 是 否 SATA 硬 
盘 也 可 以 接 入 SAS 网 络 呢 ? 管 案 是 肯定 的 。SAS 协 议 利 用 STP (SATA 
Tunneling Protocol) 来 兼容 SATA 协 议 ， 对 SATA 市 点 的 数据 收发 ，SAS 
是 将 数据 封装 在 SAS 协 议 帧 中 传递 的 ， 数 据 到 达 SATA 节 点 后 ， 解 封 
装 ， 然 后 再 由 SATA 节 点 处 理 。 这 一 点 FC 自 身 是 无 法 做 到 的 ， 而 需要 一 
个 SCSI-ATA 协 议 转换 器 (前 文 所 述 的 SR1216 心 片 ) 以 及 一 个 SATA-FC 
接口 转换 器 (前 文 所 述 的 SATA-SCA2 转 换 板 ) 来 实现 。 


提示 :对 于 物理 接口 转换 器 ， 有 一 点 需要 了 解 ， 即 SATA 盘 只 
有 一 个 数据 接口 ， 而 FC 人 磁盘 有 两 个 逻辑 数据 接口 (包含 在 一 
个 物理 SCA2 接 口中 ) ， 所 以 接口 转换 器 又 被 称 为 Port 
Moultiplexer， 即 前 端 实现 两 个 逻辑 接口 (对 于 FC 来 讲 ) 或 者 两 
个 物理 PHY (对 于 SAS 来 讲 ) ， 而 后 端 连接 同一 个 SATA 物 理 
接口 ， 转 换 器 将 前 端的 所 有 接口 都 映射 到 后 端的 一 个 接口 ， 并 
且 在 前 端 虚 拟 出 两 个 物理 接口 地 址 以 用 于 前 端 网 络 的 寻 址 操 
作 。 这 种 接口 转换 板 又 被 某 些 三 家 称 为 "Dongle”。 











SAS 作 为 一 个 交换 网 络 ， 那 么 理所当然 的 就 应 该 有 对 应 的 交换 媒 
介 ， 即 交换 机 ， 或 者 交换 芯片 。 让 我 们 来 看 一 张 PMC-Sierra 公 司 所 设计 
的 一 款 36 端 口 SAS 交 换 芯 片 (PM8387) 的 架构 ， 如 图 9-28 所 示 。 


图 9-28 SAS 交 换 芯 片 架 构 


图 中 XBAR 代 表 Crossbar， 即 这 款 必 片 内 包含 一 个 基于 Crossbar 架 构 
的 交换 矩阵 用 来 在 各 个 PHY 之 间 进 行 高 速 交 换 。XBAR 左 侧 连 接 了 36 个 
PHY， 每 个 PHY 前 端 是 8/10b Serdes〈 串 化 解 串 化 器 ) ， 由 于 数据 在 芯片 








内 部 都 是 并 行 传递 的 ， 到 忌 搬 外 部 之 前 都 需要 经 过 串 化 过 程 和 8/10b 编 
码 过 程 ， 而 从 心 片 外 部 到 内 部 的 数据 则 执行 相反 过 程 。SXL 表 示 SAS 
Expander Link， 其 中 Expander 束 表示 SAS 交 换 忌 片 ， 因 为 交换 心 片 可 以 
让 众多 节点 所 连接 并 且 通 信 ， 所 以 又 叫做 Expander， 即 扩展 器 。 必 上 中 
包含 的 另 一 个 部 件 为 一 个 32b 的 MIPS 核 心 处 理 器 ， 这 个 处 理 器 执行 
Firmware 以 实现 SES、SMP《〈 下 文 描述 ) 和 其 他 一 些 外 部 信号 《比如 指 
示 灯 、Debug 接 口 、 监 控 ) 处 理工 作 。XBAR 右 侧 为 各 种 信号 总 线 和 接 
口 。XBAR 中 的 Arbiter， 即 仲裁 器 ， 负 和 贡 协 调 各 个 PHY 之 间 发 起 的 通信 
并 控制 Crossbar 将 数据 交换 到 正确 的 目的 。 这 里 不 要 被 其 名 称 所 误导 ， 
SAS 不 使 用 仲裁 共享 方式 ， 有 具体 数据 收发 方式 后 文 描述 。 





9.4.2 ”SAS 链 路 层 


对 于 SAS 的 链 路 层 协议 内 容 ， 比 如 帧 的 组 成 结构 、 帧 同步 、 链 路 错 
误 恢 复 等 由 于 太 过 底层 ， 请 想 了 解 的 读者 自行 参考 SAS 协 议 文本 《大 部 
分 帧 结构 都 与 FC 类 似 ) 。 这 里 只 简要 介绍 一 下 SAS 链 路 层 与 FC 的 一 个 
最 大 的 不 同 之 处 以 及 速率 适 配 方面 。 


SAS 在 链 路 层 使 用 面 癌 连接 的 交换 技术 。Initiator 回 Target 发 起 通信 
之 前 必须 建立 好 连接 ， 但 是 要 与 传输 层 的 端 到 端 连接 相 区 别 开 (SAS 的 
传输 层 也 有 连接 ， 下 文 描述 ) 。SAS 链 路 层 的 连接 指 的 是 在 一 个 SAS 网 
络 内 的 两 个 PHY 的 通信 路 径 中 的 所 有 Expander 内 部 ， 都 将 为 这 条 通信 保 
持 相 应 的 资源 ， 比 如 Crossbar 算 阵 内 的 交换 路 人 符 。 某 个 Initiator 和 Target 
对 初次 收发 数据 时 ，Crossbar 上 的 Arbiter， 或 者 叫 Connection Manager 会 
检测 并 且 在 Crossbar 内 新 建 一 条 路 径 ， 以 便 将 它们 之 间 的 数据 通过 恒定 
的 路 径 发 送 到 下 一 条 Expander 的 端口 ， 下 一 条 Expander 再 做 相同 的 动作 
直到 数据 达到 最 终 Target。 连 接 是 在 每 个 PHY 之 间 建 立 的 ， 如 采 使 用 宽 














端口 ， 则 每 个 PHY 之 间 都 会 为 对 应 的 OPEN 请 求 建立 连接 ， 因 为 每 个 
PHY 之 间 都 有 链 路 ， 所 以 需要 保留 对 应 的 资源 和 路 径 。 


具体 连接 发 起 和 结束 的 过 程 如 下 。 


(1)〉Initiator 端 的 链 路 层 首先 通过 PHY 接 口 向 其 连接 的 Expander 发 
起 一 个 OPEN 帧 ， 帧 中 携带 的 是 Target 端 PHY 的 SAS 地 址 。 


(2) 本 地 Expander 收 到 之 后 ， 首 先 返 回 AIP 帧 〈Arbitration In 
Progress) ， 这 期 间 ，Expander 会 为 这 个 请 求 分 配 资源 。 由 于 Expander 需 
要 维持 很 多 Initiator 和 Target 的 连接 ， 有 时 资源 不 够 的 话 ， 分 配 的 资源 会 
相 冲 突 ， 需 要 根据 SAS 地 址 来 判断 连接 的 优先 级 以 便 有 限 分 配 高 优先 级 
连接 的 资源 ， 这 个 过 程 束 是 仲裁 ， 但 是 它 与 FCAL 的 仲裁 有 着 本 质 的 不 
同 。 


(3) Arbitration 成 功 之 后 ， 在 Expander 内 为 其 保留 恒定 资源 和 
Crossbar 路 径 ， 然 后 将 这 个 帧 路 由 到 Target 所 在 的 Expander， 途 中 经 过 的 
所 有 Expander 都 会 为 这 个 初始 连接 分 配 恒定 资源 和 路 径 。 


(4) Target 端 的 链 路 层 接 收 到 OPEN 请 求 之 后 ， 同 Initiator 疹 返回 一 
个 OPEN_ACCEPT 帧 。 连 接 建 立 。 


需要 关闭 连接 的 时 候 ，Initiator 端 发 送 CLOSE 帧 。 
图 9-29 所 示 为 连接 发 起 和 接收 期 间 的 步骤 。 


图 9-29 SAS 连 接 发 起 和 接收 过 程 





对 于 适 配 不 同 速率 的 设备 ，SAS 的 链 路 层 通 过 在 快速 链 路 上 插入 对 
应 长 度 的 ALIGN 克 余数 据 来 保持 速率 适 配 ， 如 图 9-30 所 示 。 


图 9-30 SAS 的 速率 适 配 
9.4.3 SAS 网 络 层 


作为 一 个 网 络 ，SAS 当 然 也 需要 编 址 和 寻 址 。SAS 网 络 中 的 每 个 节 
点 使 用 的 地 址 与 FC 网 络 类 似 ， 也 是 一 个 64b 长 度 的 定 长 地 址 ， 也 叫做 
WWN; 但 是 与 FC Fabric 不 同 的 是 ，SAS 直 接 使 用 这 个 64b 地 址 来 路 由 数 
据 包 ， 而 FC Fabric 则 使 用 另外 分 配 的 24b 的 Fabric ID 来 路 由 数据 包 。 编 
址 是 为 了 寻 址 ， 寻 址 就 需要 有 地 址 表 ， 或 者 叫做 路 由 表 。 每 个 Expander 
上 运行 着 一 种 协议 ， 用 来 执行 整个 系统 中 的 Expander 发 现 以 及 路 由 条 目 
学 习 ， 这 种 协议 叫做 SMP， 全 称 为 Serial Management Protocol。 





我 们 首先 来 看 只 有 一 个 SAS 交 换 机 或 者 交换 心 片 (或 者 SAS 
Expander〉 的 情况 下 ，SAS Expander 是 如 何 寻 址 的 。 熟 悉 IP 路 由 的 人 很 
容易 地 束 可 以 理解 ， 对 于 直接 连接 在 Expander 上 的 终端 节点 ， 就 属于 直 
连 模 式 ，Expander 在 获取 到 它们 的 地 址 之 后 ， 会 将 这 些 地 址 加 入 路 由 
表 ， 并 标明 路 由 条 目的 模式 属于 “D” 类 型 ， 即 Direct。 如 图 9-31 所 示 ， 一 
个 12 端 口 的 SAS Expander 上 接 入 了 4 块 SAS 磁 盘 ，SAS 磁 盘 为 终端 设备 ， 
Expander ”会 将 这 4 条 记录 收录 到 路 由 表 中 ， 并 标明 为 D 类 型 。 网 中 的 
SMP 表 示 Serial Management Protocol，SMP 在 这 里 是 一 个 抽象 的 对 象 ， 
它 作 为 一 个 实体 路 由 协议 和 管理 程序 运行 在 每 个 Expander 上 ， 所 以 这 里 
用 它 来 代表 每 个 Expander。 由 于 目前 的 Expander 是 系统 中 唯一 的 一 个 ， 

所 以 编写 为 SMP0， 并 且 对 应 了 一 个 虚拟 的 PHY12〈 第 13 个 PHY 并 不 存 
人 











图 9-31 SAS 的 寻 址 


此 时 ， 我 们 再 增加 一 个 Expander， 将 这 两 个 Expander 级 联 起 来 ， 并 


且 在 第 二 个 Expander 上 也 连接 4 块 SAS 磁 盘 。 此 时 的 路 由 表 如 图 9-32 所 
示 。 


图 9-32 SAS 级 联 时 的 路 由 表 





上 图 中 出 现 了 一 种 新 的 路 由 类 型 ，T 类 型 ， 意 思 是 Table Routes， 蜡 
指 这 种 类 型 的 路 由 条 目 是 通过 路 由 协议 学 习 而 得 来 的 ， 并 非 自己 本 地 直 
连 的 路 由 条 目 。SMP1 表 示 新 加 入 的 Expander 本 有 号。 然而， 是 售 沉 得 缺 
了 点 什么 呢 ? 是 的 ， 磁 盘 和 磁盘 之 间 是 不 会 通信 的 ， 磁 盘 只 是 作为 
Target 端 来 等 待 Initiator 端 来 发 起 指令 。 很 显然 Expander 不 是 这 个 
Initiator。 我 们 需要 问 这 个 由 两 交换 机 《芯片 ) 组 成 的 网 络 中 添加 一 个 
SAS Initiator， 如 图 9-33 所 示 。 








图 9-33 SAS Initiator 的 引入 


上 图 中 ，Expander0 的 路 由 表 中 增加 了 一 个 条 目 ， 即 它 所 连接 的 有 
一 个 直 连 终端 ，HOST0 上 的 SAS 适 配 卡 ， 路 由 类 型 为 *D，S”，D 为 直 连 
类 型 。S 即 Subtractive， 意 义 为 默认 路 由 ， 即 ， 如 果 某 个 数据 帧 无 法 从 D 
或 者 T 类 型 的 路 由 条 目 中 找到 目的 地 址 ， 那 么 统统 向 S 类 型 路 由 条 目 对 应 
的 PHY 接 口 转发 出 去 。SAS 卡 和 Expander0 之 间 同 样 运行 着 SMP 协 议 ， 
Expander0 会 学 习 到 SAS 卡 为 Initiator 端 ， 所 以 ，Expanderl 也 会 学 习 到 这 
条 路 由 ， 但 是 Expanderl 的 路 由 表 中 的 默认 路 由 显然 应 该 设置 为 SMP0， 
即将 具体 路 由 未 知 的 数据 帧 从 连接 SMP0 的 PHY 转 发 出 去 。 另 外 ， 
Expander1l 也 会 同时 学 习 到 HOST0 路 由 和 条目， 但 是 不 将 其 作为 $ 类 型 ， 
为 $ 类 型 路 由 存在 的 意义 是 可 以 在 路 由 表 中 不 保存 HOST 端的 条 目 ， 在 主 
机 数量 很 大 的 时 候 ， 有 利于 保证 路 由 效率 。 

















SAS 协 议 规定 ， 可 以 由 多 个 Expander 任 意 连 接 而 组 成 一 个 SAS 网 


络 ， 但 是 这 个 网 络 可 以 接 入 的 最 大 的 终端 市 点 不 能 超过 128 个 ， 这 个 一 
级 SAS 网 络 中 所 有 的 Expander 组 成 一 个 Expander set。 如 果 要 达到 更 大 的 
接 入 容量 ， 需 要 一 个 核心 Expander， 这 个 Expander 可 以 最 多 具有 128 个 
PHY， 可 以 接 入 最 多 128 个 上 述 的 Expander Set。 此 核心 Expander 称 
为 “Fanout Expander”，Expander Set 中 的 Expander 称 为 "Edge Expander”。 
这 样 ， 最 大 的 SAS 网 络 中 可 接 入 的 总 容量 为 128x128 再 减 返 Expander 互 
联 所 耗费 的 端口 数 。 图 9-34 所 示 为 Fanout Expander 与 Edge Expander 的 互 
联 示 意图 。Fanout Expander 作 为 整个 SAS 网 络 的 核心 ， 其 上 不 允许 再 有 
S 类 型 的 路 由 ， 只 能 有 D 和 T 类 型 的 路 由 。Edge Expander 连 接 Fanonut 
Expander 的 PHY， 对 应 这 个 PHY 的 路 由 皆 为 $ 类 型 路 由 ， 因 为 Edge 
Expander 只 能 将 未 知 条 目 转 发 给 核心 。 








图 9-34 ”Fanout 与 Edge 的 互联 
每 个 独立 的 SAS 网 络 被 称 为 一 个 Domain 。 
9.4.4 SAS 传输 层 和 应 用 层 


SAS 网 络 目前 有 3 种 应 用 协议 : 一 是 SSP (Serial SCSI Protocol) ， 
二 是 STP (SATA Tunneling Protocol) ， 三 是 SMP (Serial Management 
Protocol) 。 说 它们 为 应 用 层 协议 既 恰 当 又 不 恰当 ， 因 为 相对 于 SAS 本 
寻 来 讲 ， 它 们 确实 是 处 于 应 用 层 ， 但 是 相对 于 整体 系统 来 讲 ， 它 们 又 都 
处 于 传输 层 〈SSP 和 STP) 或 网 络 层 (SMP〉。 这 三 种 协议 在 传输 数据 
之 前 都 需要 首先 由 Initiator| 可 Target 端 有 起 连接 请 求 ， 这 种 上 层 的 连接 请 
求 也 同时 被 映射 到 了 链 路 层 ， 链 路 层 也 会 建立 相应 的 连接 ， 如 前 文 所 





1. SSP 


SSP 是 一 套用 于 在 Initiator 和 Target 之 则 传输 SCSI 指 令 的 传输 保障 协 
议 ， 与 FC 中 的 FCP 层 充当 相同 的 角色 。 我 们 知道 SCSI3 规 范 已 经 将 SCSI 
上 层 指 令 与 底层 传输 系统 相 分 离 ，SSP 在 此 就 作为 SCSI 指 令 的 传输 系 
统 ，SSP 会 保障 SCSI 指 令 和 数据 以 及 对 指令 的 响应 成 功 地 被 传送 和 接 
收 。 图 9-35 所 示 为 SSP 的 帧 结构 。 图 9-36 所 示 为 SSP 的 帧 类 型 ， 包 含 
COMMAND、TASK、XFER_RDY、DATA、RESPONSE 五 种 类 型 。 





图 9-35 ”SSP 的 帧 结构 ”图 9-36 SSP 的 帧 类 型 





图 9-37 所 示 为 SSP 执 行 TSAK 管 理 任务 时 所 发 送 的 指令 和 返回 流程 步 
又 。 图 9-38 所 示 为 SSP 发 起 SCSI 指 令 时 的 步骤。 








图 9-37 SSP 设 备 控制 指令 步骤 图 9-38 SSP 发 起 SCSI 指 令 时 的 步骤 


图 9-39 所 示 为 SSP 执 行 SCSI Read 指令 时 的 步骤 。 图 9-40 所 示 为 SSP 
执行 SCSI Write 指令 时 的 步骤 。 





图 9-39 SSP 执 行 SCSI Read 指 令 时 的 步骤 图 9-40 ”SSP 执 行 SCSI Write 指令 时 的 步骤 


2. STP 


STP 是 一 套用 于 在 Initiator 和 Target 之 间 传 送 SATA 指 令 的 传输 保障 协 
议 。 由 于 SATA 协 议 与 SCSI 协 议 完全 是 两 套 上 层 协议 ， 不 仅 指令 描述 方 
式 和 结构 不 同 ， 而 且 在 底层 传输 的 控制 上 也 不 同 ， 所 以 STP 就 是 将 
SATA 协 议 的 底层 传输 逻辑 拿 『 了 过来， 并 将 其 承载 于 SAS 底 层 〈 物 理 层 
十 链 路 层 十 网 络 层 ) 进行 传输 。 其 实 这 里 说 SATA Tunneling 也 具有 一 定 
的 误导 性 ， 可 能 会 误 认 为 SCSI 就 不 需要 Tunneling。 其 实 不 管 是 SCSI 还 








是 SATA， 它 们 都 是 以 不 同 程度 的 Tunnel 十 Map 的 方式 被 承载 于 SAS 网 络 
上 传递 。 可 以 参考 本 书后 面 章节 来 了 解 协议 之 间 的 相互 作用 问题 。 图 9- 
41 所 示 为 STP 执 行 SATA 指 令 时 的 步骤 。 





图 9-41 ”STP 执行 SATA 指 令 时 的 步骤 
3. SMP 


SMP 是 一 种 对 SAS 网 络 内 所 有 Expander 进 行 管理 的 协议 ， 包 括 
Expander 拓 扑 发 现 和 路 由 协议 。 由 Initiator 并 建 立 连 接 后 同 Target 端 发 起 
查询 请 求 ，Target 只 能 啊 应 Initiator 的 查询 而 不 能 主动 上 向 Initiator 发 送 消 
恩 。 这 里 大 家 可 能 有 个 疑问 ， 即 不 管 是 SSP 中 的 Target 还 是 STP 中 的 
Target， 它 们 都 是 有 实在 的 物理 存在 的 东西 来 对 应 的 ， 比 如 SSP 的 Target 
就 是 某 PHY 后 面 的 SAS 磁 盘 ，STP 的 Target 就 是 某 PHY 后 面 的 SATAC 
盘 。 那 么 SMP 中 的 Target 到 底 是 什么 呢 ? 上 文 讲 SAS 路 由 表 时 曾经 提 到 
过 一 个 Expander 上 的 虚拟 PHY， 对 应 了 一 个 SMP 设 备 ， 其 实 SMP 的 
Target 就 是 整个 Expander 本 身 ，Expander 接 收 到 针对 这 个 Target 的 消息 ， 
就 会 目 己 做 处 理 而 不 是 转发 到 其 他 茶 个 PHY。 图 9-42 所 示 为 SMP 的 请 求 
和 查询 步 又 。 








图 9-42 SMP 的 请 求 和 查询 步骤 





9.4.5 SAS 的 应 用 设计 和 实际 应 用 示例 


SAS Expander 芯 片 有 多 种 Phy 接 口 数 量 可 供 选 择 ， 比 如 16/24/32/36 
等 。 提 供 不 同 的 Phy 数 量 是 为 了 满足 磁盘 阵列 厂商 所 设计 的 不 同 盘 位 的 
扩展 柜 。 每 个 SAS 人 磁盘 扩展 柜 里 面 基 本 上 有 两 个 SAS Expander， 这 两 个 
Expander 各 自 连 接 到 这 个 柜子 中 的 所 有 SAS 人 磁盘 ， 每 个 SAS 盘 两 个 SAS 








Phy。 这 两 个 Expander 还 分 别 要 连接 到 上 行 和 下 行 的 其 他 扩展 柜 或 者 机 
头 ， 最 项 上 是 机 头 ， 机 头 里 也 要 有 Expander〈 做 Table Routing) ， 用 来 
连接 SAS 控 制 句 必 帮 以 及 扩展 柜 里 的 Expander。 机 头 中 的 Expander 相 当 
于 一 个 总 桥 ， 总 桥 再 分 别 出 4 个 Phy 连 接 到 上 行 外 部 主机 和 下 行 扩 展柜 中 
的 Expander，12 税 位 的 可 以 估算 它 的 扩展 柜 单 片 SAS Expander 心 片 接 口 
规格 : 12 十 4x2 王 20 口 芯片 ，24 盘 位 的 则 使 用 36Phy 的 SAS Expander 忆 片 
扩展 柜 与 扩展 柜 之 间 用 SAS 线 缆 连 起 来 ， 一 般 都 是 4 个 Phy 并 联 的 宽 端 

口 。 











如 图 9-43 所 示 ， 在 磁盘 扩展 柜 中 使 用 SAS Expander 而 不 是 FC Loop 
Switch 心 片 ， 其 他 设计 保持 相同 ， 那 么 一 球 SAS 扩 展柜 就 被 打造 出 来 
了 。 多 个 扩展 柜 通 过 Expander 间 的 级 联 就 可 以 扩大 到 比较 可 观 的 容量 。 
主机 接口 以 及 Expander 间 接口 都 使 用 4X 宽 端口 以 保持 级 联 带宽 ， 这 样 ， 
系统 吞吐 量 上 也 可 以 保持 高 水 准 。 总 体 来 讲 ，SAS 比 FC 实惠 、 量 足 。 


图 9-43” SAS 控制 器 





如 图 9-44 所 示 为 HDS 公 司 AMS2000 系 列 磁盘 阵列 的 后 端 架 构图 ， 很 
明显 它 使 用 了 PMC 公 司 的 Expander 心 厂 。 








图 9-44 AMS2000 的 控制 器 后 端 
9.4.6 SAS 目前 的 优势 和 面临 的 挑战 
1. SAS 目 前 相对 于 FC 的 优势 
SAS 能 够 使 用 宽 端 口 来 提供 较 融 的 带 沉 ， 这 一 点 已 经 可 以 与 8Gb FC 


接口 媲美 并 且 超 出 了 后 者 50% 的 速率 。 另 外 ，SAS 使 用 STP 协 议 来 承载 
SATA 协 议 ， 使 得 SAS 和 SATA 磁 盘 可 以 同时 存在 于 同一 个 存储 系统 中 ， 


甚至 可 以 混 插 在 同一 个 磁盘 柜 中 ， 这 一 切 都 不 需要 上 层 做 过 多 的 更 改 ， 
只 要 在 Initiator 端 的 上 层 协议 处 理 模块 中 加 入 ATA 文 持 即 可 ， 或 者 统一 
使 用 SCSI， 然 后 在 其 下 层 增 加 一 个 SCSI-ATA 翻 译 层 。FC 在 理论 上 当然 
也 可 以 被 开发 承载 SAATA 协 议 ， 但 是 目前 FC 尚未 提供 类 似 FCP 的 映射 层 
来 适 配 SATA 协 议 。 


SAS 相 对 于 FC 来 说 ， 其 成 本 较 低 ， 体 现在 SAS Expander 和 和 SAS 磁盘 
上 。 目 前 一 片 12 端 口 3Gb/s 的 Expander 心 片 的 价格 大 概 在 35 美 元 左右 。 
而 SAS 硬 盘 在 盘 片 、 转 速 、 机 械 臂 、 磁 头等 的 设计 参数 和 用 料 上 与 高 端 
FC 硬 盘 相 同 ， 唯 一 的 区 别 就 在 于 外 部 接口 使 用 的 协议 不 同 ， 所 以 设计 
也 不 相同 ， 但 是 SAS 磁 盘 却 比 FC 磁 盘 廉 价 。 由 于 磁盘 主要 的 瓶颈 在 于 平 
均 寻 道 时 间 和 平均 旋转 延迟 以 及 转速 ， 加 上 存储 控制 器 对 后 端 所 有 磁盘 
的 Raid 化 和 虚拟 化 之 后 ， 实 际 使 用 的 时 候 ， 在 外 部 接口 速率 相差 不 大 的 
情况 下 ， 磁 盘 接 口 速率 对 系统 整体 性 能 影响 不 大 。 








2. SAS 日 前 面临 的 挑战 


SAS 的 一 个 最 大 挑战 是 其 连接 线 绕 。 目 前 的 产品 都 是 使 用 铜 绕 ， 这 
束 导 致 其 传输 距离 非常 受 限 ， 通 常 最 大 距离 被 限制 在 10 米 。 而 且 线 绕 较 
粗 较 硬 ， 不 利于 布线 。 这 种 限制 直接 限制 了 SAS 的 发 展 。 比 如 实现 前 端 
网 络 化 的 时 候 ， 多 台 主 机 与 多 台 磁 盘 阵列 都 需要 连接 到 SAS 交 换 机 
(Expander) 上 ， 而 由 于 较 粗 较 短 较 便 的 线 费 的 限制 ，SAS 交 换 机 就 显 
得 很 石 类， 所 以 SAS 交 换 机 也 一 直 没 有 实际 产品 。 这 些 因素 导致 了 SAS 
目前 被 应 用 的 范围 非常 窄 ， 比 如 ， 普 遍 应 用 于 主机 本 地 内 置 磁盘 。 在 用 
于 人 磁盘 阵列 设计 的 时 候 ， 主 要 使 用 在 后 端 ， 而 前 端 依然 为 FC， 比 如 
HDS 公 司 AMS2000 产 品 。 但 是 也 有 一 些 前 并 后 并 都 使 用 SAS 的 产品 ， 但 
是 这 些 产 品 均 被 定位 于 低 端 ， 比 如 IBM DS3200， 由 于 前 端 只 能 连接 一 











台 或 者 两 台 主 机 《一 个 或 两 个 SAS 宽 端口 ) ， 其 扩展 性 被 限制 ， 所 以 只 
能 被 定位 到 低 端 





SAS 的 另外 一 个 挑战 是 其 单 PHY 的 速率 ， 当 前 普遍 使 用 的 SAS 接 口 
磁盘 速率 为 单口 3Gb/s， 相 对 于 FC 的 4Gb/s 来 讲 还 是 相差 了 25% 。 但 是 ， 
目前 6Gb/s 的 单 PHY 速 率 刚 刚 露 头 并 有 了 实际 产品 ， 令 人 欣慰 的 是 ， 在 
人 FC 接 口 的 磁盘 产品 出 现 之 前 ， 已 经 出 现 了 SAS 6Gb/s 接 口 
Rs 这 充分 说 明 SAS 的 发 展 是 飞快 的 ， 而 FC 又 处 于 了 一 种 是 走 是 留 

要 观望 的 状态 之 中 。 而 SAS 下 一 个 目标 是 单 PHY 速 率 12Gb/s。 照 
SAS | 前 的 发 展 速度 ，FC 的 卫冕 之 路 将 会 更 加 艰难 。 








不 过 ， 在 2010 年 新 发 布 的 存储 系统 比如 HDS VSP 及 IBM Storwize 
V7000， 以 及 包括 EMC 的 新 一 代 CX 存 储 系统 中 ，FC 磁 盘 已 经 悄悄 地 从 
这 些 存储 系统 的 文 持 列 表 中 消失 了 。 但 是 存储 前 端 供 主机 访问 的 网 络 类 
型 ，FC 依 然 处 于 主导 地 位 。 相 信 在 光 连 接 的 SAS 出 现 之 后 ， 前 端 也 很 有 
可 能 彻底 被 SAS 革 掉 。FC 革 掉 了 SCSI，SAS 又 把 FC 从 后 端 革 掉 了 。 





9.5 中 高 天 磁盘 阵列 整体 架构 简 术 


图 9-45 所 示 为 NetApp 的 FAS6000 系 列 实物 图 ， 其 中 间 部 分 为 两 个 机 
头 ， 其 余 均 为 扩展 柜 。 





图 9-45 ”NetApp 公 司 FAS6070 磁 盘 阵列 





中 高 端 盘 阵 一 般 都 会 配 有 两 个 控制 器 ， 不 但 可 以 作为 见 余 ， 而 且 可 
以 分 担 后 端 不 同 的 环 路 。 图 9-46 是 一 个 典型 的 双 控 制 器 ， 且 前 后 端 均 为 
FC 架构 的 磁盘 阵列 拓扑 示意 


图 9-46 所 示 的 机 头 《〈 控 制 器 所 在 的 机 柜 》 中 不 包含 磁盘 。 实 际 产 品 
中 ， 有 些 由 于 控制 器 主板 比较 小 ， 机 头 本 身 也 可 以 放 入 奋 干 磁盘 。 但 是 
有 些 蜗 并 产品 的 控制 费 主 板 做 得 比较 大 ，IO 适 配 费 比较 多 ， 再 加 上 电源 
模块 和 风 遍 模块， 造成 机 头 内 部 空间 不 足以 放下 多 余 的 磁 栓 。 








图 9-46 ”全 FC 架构 磁盘 阵列 





如 图 9-46 所 示 ， 每 个 控制 器 上 有 4 个 前 端 FC 接 口 和 4 个 后 端 FC 接 
口 。 每 个 后 端 FC 接 口 可 以 连接 到 一 个 FC-AL 环 路 。 为 了 元 余 ， 两 个 控制 
器 的 后 端 FC 端 口上 必须 连接 到 相同 的 扩展 柜上 ， 所 以 这 人 台 盘 阵 可 以 连接 
的 FC-AEL 的 Loop 总 容量 为 4 个 。 





其 实 ， 磁 盘 阵 列 控制 器 本 吴 台 是 一 个 现代 计算 机 系统 ， 它 由 IO 设 
备 、 运 算 器 、 存 储 匿 、 软 件 组 成 。 


a IO 设备 : 包括 后 端 FC 适 配器 、 前 端 FC 适 配器 、 管 理 用 COM 口 、 
以 太 网 口 、LCD 液 唱 显 示 板 、 指 示 灯 以 及 各 种 适 配 卡 。 控 制 器 从 
后 端的 磁盘 上 提取 数据 ， 经 过 虚拟 化 之 后 ， 发 送 给 前 端的 主机 。 


控制 器 从 前 端的 FC 端口 处 接收 主机 发 送 的 指令 和 数据 ， 经 过 去 

虚拟 化 运算 之 后 ， 通 过 后 端 FC 端 口 写 入 扩展 柜 中 的 磁盘 。 这 就 

是 控制 器 工作 的 基本 原理 。 

运算 器 : 完成 上 述 虚 拟 化 和 去 虚拟 化 过 程 所 需要 的 运算 单元 。 控 
制 器 可 以 选用 通用 CPU 来 作为 运算 器 ， 也 可 以 选用 或 辅 以 专用 

ASIC 必 上 来 完成 运算 。 随 着 现代 盘 阵 系统 虚拟 化 功能 的 日 益 强 

大 ， 软 件 逻辑 越发 复杂 起 来 ， 通 用 CPU 加 软件 就 成 了 普遍 使 用 的 
组 合 。 至 于 ASIC 等 硬件 只 是 作为 一 种 IO 设备 而 存在 ， 辅 助 CPU 
进行 专用 逻辑 的 运算 ， 并 把 结果 返回 给 CPU， 目 的 是 将 CPU 从 这 
种 专用 运算 中 解脱 出 来 。 

存储 器 : 包括 高 速 缓存 存储 器 和 外 部 低速 永久 存储 器 。 现 代 中 高 
端 盘 阵 几 乎 都 是 使 用 带 ECC 错 误 纠 正 的 DDR SDRAM 作 为 高 速 组 
存 。 这 个 高 速 缓存 既 充 当 虚 拟 化 软件 运行 时 的 空间 ， 又 充当 两 端 
数据 流 的 缓存 空间 。 

软件 :由 于 虚拟 化 引擎 越 来 越 强 大 ， 新 的 功能 和 概念 层出不穷 ， 
单纯 使 用 精简 的 内 核 和 精简 的 代码 已 经 远 远 不 能 满足 功能 需求 和 
开发 难 易 度 需求 。 所 以 目前 很 多 磁盘 阵列 控制 器 都 是 基于 某 种 操 
作 系 统 内 核 的 ， 比 如 Linux、VxWorks、Windows、UNIX 等 。 操 
作 系 统 不 但 提供 了 硬件 管理 层 ， 还 提供 了 方便 的 API。 这 些 层次 
的 划分 使 开发 人 员 只 需要 专心 设计 上 层 虚 拟 化 程序 而 不 是 全 盘 兼 
顾 。 盘 阵 的 操作 系统 和 应 用 程序 可 以 被 存放 在 后 端的 磁盘 上 ， 也 
可 以 用 专门 的 外 部 存储 设备 存放 。NetApp 的 FAS 系 列 产品 就 是 用 
一 块 Flash 卡 来 存放 其 操作 系统 和 应 用 程序 的 。 























图 9-46 的 下 方 是 一 个 扩展 柜 ， 其 中 插 了 16 块 FC 接 口 的 磁盘 。 左 边 控 
制 器 的 第 一 个 FC 接口 通过 光纤 连接 到 了 扩展 柜 左边 的 接口 (一 般 为 SFP 
接口 ) ， 线 路 将 扩展 柜 内 所 有 16 块 磁盘 串 接 起 来 形成 了 一 个 Loop。 然 





而 ，16 块 磁盘 是 远 远 不 够 的 ， 怎 么 在 这 个 Loop 中 接 入 更 多 磁盘 呢 ? 肯定 
是 要 增加 扩展 柜 的 数量 ， 还 必须 将 多 个 扩展 柜 中 的 磁盘 部 串 接 到 一 个 

Loop 上 。 所 以 在 每 个 扩展 柜 的 左边 接口 板 上 部 有 两 个 SFP 光 纤 接 口 ， 一 
个 进 ， 一 个 出 。 这 样 束 可 以 把 多 个 扩展 柜 中 的 磁盘 都 串 在 一 起 形成 一 个 
Loop， 接 入 控制 占 的 一 个 后 端 FC 接口 。 


扩展 柜 右边 的 接口 板 与 左边 构造 和 连接 方法 相同 ， 只 不 过 右边 的 接 
口 需要 连接 到 机 头 右边 的 控制 融 上 ， 形 成 见 余 。 这 样 一 旦 左边 的 控制 堪 
故障 ， 右 边 的 控制 器 可 以 立即 接管 所 有 工作 。 


提示 : ”扩展 柜 虽 然 说 通常 是 一 个 JBOD， 但 是 随 着 SBOD 技 术 
的 普及 ， 扩 展柜 也 变 得 复杂 起 来 。SBOD 技 术 需 要 一 系列 智能 
蕊 片 。 柜 子 中 的 磁盘 首先 要 插 到 一 个 背 板 上 ， 背 板 上 提供 了 一 
系列 的 SCA2 型 母 槽 。 在 背 板 上 一 定 有 某 种 接口 来 连接 这 一 系 
列 的 芯片 。 通 常 都 是 将 这 些 功能 芯片 单独 做 到 一 个 模块 上 ， 然 
后 将 这 个 模块 与 背 板 对 接 ， 进 而 与 磁盘 接口 对 接 通信 。 这 样 ， 

如 果 为 了 实现 更 多 的 功能 ， 可 以 只 通过 更 换 模块 来 升级 ， 而 不 
用 大 动 干戈 更 换 整 个 背 板 。 所 以 目前 几乎 所 有 三 家 的 盘 阵 扩展 
柜 都 采用 这 种 设计 ， 在 柜子 后 面 可 以 看 到 两 个 互 为 元 余 的 模 

块 ， 它 们 都 连接 到 了 同一 个 人 磁盘 背 板 上 。 














9.5.1 IBM DS4800 和 DS5000 控 制 器 架构 简 析 
1.DS4800 控 制 器 架构 简介 


在 图 9-47 中 可 以 看 到 两 个 供电 模块 、 两 个 控制 器 模 块 和 一 个 背 板 模 
块 ， 两 个 控制 器 都 连接 到 了 背 板 上 。 





图 9-47 DS4800 机 头 三 维 示 意图 


图 9-48 是 IBM “DS4800 磁 盘 阵 列 的 双 控 制 器 机 头 的 背面 接口 图 。 图 
中 的 Drive-side connections 代 表 这 些 FC 端 口 是 用 来 连接 磁盘 扩展 柜 的 ， 
Host-side connections 代 表 这 些 FC 端 口 是 用 作 前 端 主机 的 。 可 以 看 到 上 下 
两 个 控制 句 是 互 为 元 余 的 ， 它 们 同时 插 在 机 头 的 背 板 上 ， 之 间 有 专门 的 
链 路 进行 通信 以 交互 各 自 的 信息 。 








图 9-48 DS4800 机 头 后 视 氏 





图 9-49 是 用 这 人 台 机 头 挂 接 16 个 扩展 柜 ， 并 且 全 元 余 的 架构 图 。 我 们 
可 以 看 到 ， 每 个 控制 器 的 后 端 接 口 都 连接 了 4 个 扩展 柜 ， 这 4 个 扩展 柜 中 
的 磁盘 同时 位 于 主 控制 器 的 一 个 Loop 和 备用 控制 的 一 个 Loop 上 。 





图 9-49 ”DS4500 连 接 16 个 扩展 柜 





一 旦 机 尖 上 的 主 控 制 费 发 生 故 障 ， 备 份 控 制 占 可 以 立即 接管 所 有 工 
作 ， 继 续 执 行 IO 请 求 。 因 为 备份 控制 器 与 主 控制 器 一 样 与 所 有 扩展 柜 都 
有 连接 。 








同样 ， 一 旦 某 个 扩展 柜 发 生 故 障 ， 比 如 电源 故障 ， 整 个 环 路 从 一 方 
来 看 ， 是 航 断 开 的 。 但 是 ， 其 他 扩展 框 依然 可 以 被 访问 到 ， 办 法 就 是 通 
过 机 头 上 的 备用 控制 硕 从 尾部 访问 被 故障 扩展 柜 隅 断 的 后 下 的 扩展 柜 ， 
同时 主 控制 器 从 头 部 访问 上 面 的 控制 器 。 





图 9-50 所 示 为 每 个 扩展 柜 组 中 都 有 一 个 扩展 柜 故 障 ， 但 是 剩余 的 扩 
展柜 依然 可 以 继续 使 用 ， 方 法 就 是 让 主 控制 器 和 备用 控制 器 同时 工作 。 


图 9-50 ”扩展 柜 整 柜 故障 时 的 拓扑 








可 以 发 现 ， 如 果 某 个 Raid Group 的 磁盘 全 部 在 一 个 扩展 柜 中 ， 那 么 
一 旦 这 个 扩展 柜 故 障 ， 这 个 Raid Group 将 不 可 用 。 所 以 控制 器 为 了 获得 
高 度 可 靠 性 ， 一 般 会 尽量 跨 扩 展柜 做 Raid Group， 即 一 个 Raid Group 中 
的 所 有 磁盘 各 属于 不 同 的 扩展 柜 。 这 样 ， 即 使 一 个 扩展 柜 失 效 ， 那 么 对 
于 一 个 Raid Group 来 说 ， 只 是 失去 一 块 磁盘 而 不 是 全 部 失效 ，Raid 
Group 还 可 以 继续 工作 。 目 前 几乎 所 有 中 高 端 熏 阵 都 提供 这 种 文 持 。 


图 9-51 是 DS4800 盘 阵 控 制 器 内 部 简单 架构 图 。 














图 9-51 DS4800 机 头 控制 器 简单 架构 图 








从 图 中 可 以 看 到 如 下 部 件 : FC “Chip、Loop ”Switch、Channel 及 
Interconnect Module。 其 中 ，FC Chip 是 处 理 FC 协 议 逻 辑 的 主要 芯片 ， 全 
部 的 FC 逻辑 都 在 此 访 片 内 实现 。Loop ” ”Switch 在 这 里 可 以 使 用 上 文 所 述 
的 PBC 一 类 的 蕊 片 ， 当 然 也 可 以 使 用 交换 架构 的 心 厂 。 其 后 端 连接 两 个 
FC 接 口 ， 前 问 分 别 连接 位 于 两 个 控制 器 上 的 两 块 FC Chip， 这 样 做 的 目 
的 是 为 了 充分 见 余 。Channel 的 意思 就 是 指 连接 到 一 个 Loop Switch 上 的 
两 个 FC 端口 ， 两 个 端口 组 成 一 个 Channel， 没 有 实际 物理 意义 。 
Interconnect Module 其 实 是 一 个 缘 板 ， 用 于 控制 器 之 间 的 通信 。 





ASIC 心 请 负 责 数据 在 前 端 和 后 端的 流动 ， 还 负责 用 于 Raid ”5/6 的 
XOR 运 算 ， 由 于 其 XOR 运 算 引 擎 被 固化 于 ASIC 电 路 中 ， 所 以 运算 速度 
远 快 于 使 用 普通 X86 CPU。 控 制 器 中 还 有 一 个 Intel Xeon CPU (Control 
Processor) ， 这 个 CPU 主要 用 来 运行 VxWork 操 作 系统 ， 一 些 上 层 功能 
软件 比如 Remote Mirror、Snapshot (FlashCopy) 以 及 其 他 总 控 程 序 比如 
监控 、 用 户 接口 等 ， 缘 运行 于 VxWork 操 作 系 统 内 ， 由 Control Prosessor 
负责 执行 。 控 制 器 为 ASIC 与 Control Prosessor 各 单独 配备 了 RAM。 


推论 : 假设 某 一 时 刻 ， 左 边 控 制 器 下 方 那个 FC _ Chip 失效， 则 
控制 器 A 的 4 号 FC 接口 与 这 个 Chip 的 通路 便 会 断 掉 。 此 时 只 能 

通过 控制 器 B 的 1 号 FC 接 口 访问 最 左边 的 4 个 扩展 柜 。 碍 看 一 下 
连 线 ， 可 以 发 现 控 制 器 B 的 1 号 FC 接口 其 实 是 通过 Interconnect 

Module 连 接 到 了 控制 器 A 的 上 面 的 FC Chip。 

提示 : 所以， 最 终 数 据 通 过 控制 器 B 右 边 的 Loop Switch 流 问 
Interconnec Module， 然 后 流 到 控制 器 A 上 面 的 FC Chip。 也 就 
是 说 ， 最 终 达 到 了 同一 个 控制 器 内 部 两 个 FC ”Chip 之 间 的 见 余 
备份 。 而 此 时 对 前 端 主机 来 说 并 没有 影响 ， 主 机 还 是 连接 控制 
器 A 来 读 写 数据 。 同 样 ， 如 果 控 制 器 A 上 的 某 个 Loop Switch 失 
效 ， 则 数据 全 部 通过 控制 器 B 对 应 的 Loop Switch 流 问 
Interconnect Module， 最 后 还 是 流 回 到 控制 器 A， 对 主机 并 没有 
影 啊 。 

但 是 ， 如 果 同 一 个 控制 句 上 的 两 个 FC _ Chip 或 两 个 Loop Switch 
都 失效 了 ， 甚 至 整个 控制 右 故 障 了 ， 那 么 所 有 IO 访问 了 驶 都 要 转 
移 到 另外 的 一 个 控制 器 上 。 此 时 ， 对 主机 端 就 会 产生 影响 ， 需 
要 多 路 径 软 件 和 盘 阵 端 配合 参与 故障 切换 的 动作 。 














实际 上 ，DS4800 的 控制 希 不 一 定 是 上 述 的 切换 模式 。 但 是 在 理论 
上 ， 上 所 有 产品 的 设计 都 应 该 尽量 不 切换 控制 器 ， 因 为 切换 控制 器 会 对 主 
机 端 造成 影响 。 





图 9-52 为 DS4800 扩 展柜 连接 示意 





























图 9-52 DS4800 扩 展柜 连接 通路 示意 图 


图 9-53 是 DS4800 控 制 器 的 内 部 详细 架构 图 。 


图 9-53 ”DS4800 控 制 器 详细 架构 图 





说 明 如 下 : 


m 2.4 GHz Xeon processor 运 行 Vxworks 实 时 操作 系统 。 

每 个 控制 器 2、4、8GB 数 据 缓存 RAM 一 一 数据 专用 。 

每 个 控制 器 512MB RAM 系 统 缓 存 一 一 操作 系统 运行 内 存 。 
a XOR ASIC Engine 专 用 芯片 ， 硬 件 RAID 运 算 引 擎 。 
64b/133MHz 一 一 1GB/s 带 宽 的 PCIX 总 线 。 








2. DS5000 控 制 器 架构 简介 


2008 年 IBM 发 布 了 新 一 代 的 中 端 传统 磁盘 阵列 系统 DS5000 系 列 。 其 
基本 架构 设计 与 DS4000 系 列 大 致 相同 ， 但 是 在 总 线 速 度 和 数量 方面 成 
倍 提升 ， 直 接 就 导致 了 整体 吞吐 量 髓 升 。DS4000 时 代 使 用 PCI-X 作 为 数 
据 IO 总 线 ， 而 且 前 后 端 各 4 个 4Gb 〈1.6GB/s) 速率 的 FC 端口 各 共享 一 条 
PCI-X (1GB/s) 总 线 ， 直 接 导致 瓶 贷 ， 系 统 处 理 能 力 受到 很 大 限制 。 
DS5000 时 代 彻 底 解脱 了 FC ”Chip 的 窘境， 每 个 FC ”Chip 独 享 一 条 PCIE 
8X (2GB/s) 总 线 直 连 到 核心 ASIC， 每 个 FC ”Chip 管 控 4 个 4Gb 的 FC 接 
口 ， 加 之 每 控制 器 的 4 个 4 口 无 阻 堵 交换 的 Loop Switch， 这 样 ， 系 统 各 处 
都 不 存在 瓶颈 。 系 统 吞 吐 量 的 提升 ， 需 要 更 大 容量 的 缓存 助阵 ， 所 以 
DS5000 系 列 的 缓存 容量 也 比 DS4000 系 列 上 了 一 个 台阶 。 


如 图 9-54 所 示 为 DS5000 单 控制 器 架构 简 图 。 可 以 与 DS4000 系 列 架 
构 简 图 作 一 个 对 比 。 





图 9-54 DS5000 控 制 器 示意 图 


图 9-55 所 示 的 是 DS5000 双 控制 器 组 成 的 整体 控制 架构 图 和 各 模块 介 


| 
O 


图 9-55 “各 模块 介绍 








图 9-56 一 图 9-58 所 示 为 单 控制 器 内 部 各 个 模块 简介 。 


图 9-56 ”内 部 各 模块 介绍 (一 ) 























图 9-57 内 部 各 模块 介绍 (二) 








图 9-58 ”SAS 的 4X 宽 端 


ml 





图 9-59 所 示 为 DS5000 双 控制 器 连接 扩展 柜 拓扑 图 。 图 9-60 所 示 为 后 
端 接口 卡 与 前 端 接口 卡 之 间 的 数据 流程 。 








图 9-59 ”连接 扩展 柜 示 意 加 图 9-60 “前 后 端 IO 流程 











图 9-61 所 示 为 单个 控制 器 在 接收 到 一 个 LIMB 大 小 的 写 IO 时 的 处 理 动 
作 。 假 设 写 IO 对 应 的 Raid ”Group 中 的 磁盘 都 在 同一 个 扩展 柜 中 ， 而 且 
Raid Group 的 条 市 宽度 恰好 为 1MB 不 包含 Parity Segment〉， 则 控制 器 
上 的 ASIC 逻 辑 电 路 会 自动 将 这 1MB 的 数据 切 分 成 4 部 分 ， 并 且 计 算 好 
Parity 数 据 。 然 后 将 这 4 块 十 Parity 数 据 按照 奇偶 分 类 分 别传 送 给 后 端 两 
个 FC Chip， 其 中 一 个 Chip 将 数据 从 本 地 的 Loop Switch 友 出 并 传送 给 对 
应 扩展 柜 写 入 磁盘 ， 另 一 个 Chip 则 通过 背 板 上 的 导线 将 数据 传送 给 另 一 
个 控制 器 上 的 Loop Switch， 然 后 发 送 到 同一 个 扩展 柜 中 对 应 的 磁盘 。 这 
样 承 可 以 做 到 充分 的 负载 均衡 ， 这 里 的 负载 均衡 只 是 底层 硬件 必 瞩 处理 
能 力 的 负载 均衡 而 不 是 控制 器 自身 整体 处 理 能 力 的 负载 均衡 ， 试 想 ， 如 
果 将 所 有 Loop Switch 放 到 同一 个 控制 器 上 ， 对 整个 系统 性 能 没有 影响 。 
当然 ， 你 也 可 以 认为 是 供电 负载 均衡 了 。 











图 9-61 ”处理 1MB 的 写 IO 











如 图 9-62 所 示 ， 如 果 Raid ”Group 中 的 磁盘 不 在 同一 个 扩展 柜 中 ， 那 
么 FC Chip 传 输 数 据 的 路 径 就 会 有 所 变化 ， 会 使 用 多 个 后 端 Loop Switch 
来 传输 到 对 应 的 扩展 柜 。 

















图 9-62 ”处 理 写 IO 的 另 一 种 流程 











图 9-63 所 示 的 是 DS5000 单 个 控制 器 的 俯视 图 。 最 左 侧 为 专 供 Control 
Processor 的 一 条 内 存 。 石 侧 为 USB 闪 存 ， 用 于 在 系统 以 外 掉 电 时 将 Data 
Cache 中 的 内 容 写 入 Flash 中 保存 ， 以 答 下 次 局 动 之 后 完成 未 完成 的 工 
作 。 下 部 的 左右 两 个 卡 为 前 端 主机 接口 卡 ， 其 上 各 有 一 个 FC Chip， 
个 卡 上 各 有 4 个 4Gb/s 的 FC 接口 。 上 部 右 侧 分 布 在 黑色 散热 片 两 边 的 为 数 
据 Cache。 每 条 按照 2GB 算 ， 最 大 可 以 文 持 16GB 的 Data Cache。 上 所 有 内 
存 都 插 在 一 块 单 独 的 揪 板 上 ， 黑 色散 热 片 下 面 履 盖 的 是 内 存 插 板 控制 必 
片 。 








图 9-63 ”控制 器 内 部 俯视 图 











图 9-64 所 示 为 将 主机 接口 卡 和 内 存 插 板 拿 掉 之 后 露出 来 的 主 底板 上 
的 部 件 ， 两 个 白色 散热 片 履 盖 的 为 后 端 磁盘 FC Chip 必 片 。 下 部 为 4 个 整 
齐 排 列 的 Loop Switch 蕊 片 。 左 侧 大 的 白色 散热 片 履 盖 的 是 Control 
Processor， 即 Intel Xeon CPU。 小 一 些 的 白色 散热 片 履 盖 的 是 核心 ASIC 
尾 片 。 没 有 散热 片 的 大 黑色 心 片 为 系统 桥 必 片 。 





图 9-64 ”控制 器 底部 俯视 图 








如 图 9-65 所 示 为 DS5000 控 制 器 机柜 十 扩展 柜 组 成 的 存储 系统 整体 前 
视图 。 


图 9-65 “整体 前 视图 





9.5.2 ”NetApp FAS 系 列 磁 盘 阵 列 控制 器 简 析 
1. FAS2050 磁 盘 阵 列 


图 9-66 为 FAS2050 人 磁盘 阵列 控制 器 的 后 视图 。 


从 图 9-66 中 可 以 看 到 上 下 两 个 控制 器 ， 每 个 控制 句 各 有 两 个 FC 接 











图 9-66 ”FAS2050 控 制 器 实物 后 视图 


2. FAS3050 人 磁盘 阵列 


图 9-67 为 FAS3050 人 磁盘 阵列 控制 器 后 视图 。 




















图 9-67 FAS3050 单 个 控制 器 实物 后 视图 





图 9-67 为 单个 FAS3050 的 控制 器 机 头 后 视图 。 图 中 只 是 一 个 控制 
器 ， 如 果 要 达到 完全 见 余 ， 可 以 用 两 台 控 制 右 形成 Cluster 结 构 。 
FAS3050 有 4 个 板 载 FC 接 口 ， 可 以 通过 插 PCIX 接 口 的 扩展 卡 来 扩充 FC 接 
口 的 数目 。 每 个 控制 器 提供 4 个 扩展 卡 槽 位 ， 可 以 插 接 FC 卡 、 以 太 网 
卡 、TOE 卡 和 ISCSI 卡 等 扩展 卡 。 





NetApp 的 FAS 产 品 ， 从 FAS3000 系 列 开始 ， 由 于 处 理 功能 增强 ， 扩 
展 模 位 增多 ， 所 以 一 个 控制 器 就 占 满 一 个 机 头 的 空间 。 两 台 控 制 器 之 间 
需要 通过 NVRAM 卡 上 的 Pnfiniband 网 络 来 形成 Cluster。 


3. FAS6070 磁 盘 阵 列 


图 9-68 为 FAS6070 磁 盘 阵 列 控制 右 后 视图 。 




















图 9-68 FAS6070 单 个 控制 器 实物 后 视图 


FAS6070 是 NetApp 公 司 比较 高 端的 设备 ， 其 内 部 后 端 总 线 的 总 理论 
带宽 可 达 32GB/s。 有 9 个 扩展 槽 位， 可 以 插 接 扩展 FC 适 配器 以 便 连 接 更 
多 的 扩展 想 ， 或 TOE 卡 、 以 太 网 卡 等 其 他 适配器 。 





4. DS14MK2FC 人 磁盘 扩展 柜 


图 9-69 所 示 为 DS14MK2FC 磁 盘 扩 展柜 的 前 视图 。 
图 9-70 所 示 为 DS14MK2FC 磁 盘 扩 展柜 的 后 视图 。 


图 9-69 和 图 9-70 所 示 的 是 用 于 连接 FAS 系 列 控制 器 的 磁盘 扩展 柜 ， 
每 个 柜子 可 以 插 14 块 FC 接口 的 磁盘 。 从 后 视图 中 可 以 看 出 其 与 FAS2050 
控制 器 的 拓扑 比较 像 ， 不 要 搞 混 。 前 文 说 过 ， 现 代 磁 盘 扩 展柜 都 是 用 双 
模块 设计 ， 模 块 中 有 半 交 换 SBOD 蕊 片 。 盘 柜 中 所 有 的 磁盘 利用 其 SCA2 
接口 连接 到 缘 板 上 ， 这 个 物理 接口 中 所 包含 的 两 个 逻辑 接口 各 通过 电路 
连接 到 一 个 扩展 柜 控制 模块 上 ， 形 成 双 Loop 风 余 。 

















图 9-69 ”DS14MK2FC 人 磁盘 扩展 柜 前 视图 图 9-70 DS14MK2FC 磁 盘 扩 展柜 后 视图 








9.5.3 IBM DS8000 简 介 


DS8000 系 列 利用 两 台 P 系 列 主 机 充当 控制 器 。 上 文中 说 过 ， 盘 阵 控 
制 器 架构 本 质 上 与 主机 架构 无 异 ，DS8000 就 是 这 样 一 个 例证 。 图 9-71 和 
图 9-72 为 DS8000 实 物 图 。 








图 9-71 DS8000 主 机 架 图 9-72 DS8000 盘 阵 主机 架 和 扩展 机 架 








IBM _DS8000 磁 盘 阵 列 是 IBM 磁 盘 阵 列 产品 线 中 的 最 高 端 产 品 。 它 
利用 两 台 IBM 的 P 系 列 服务 器 作为 控制 器 运行 AIX 操 作 系 统 ， 操 作 系 统 
之 上 运行 了 DS8000 的 存储 虚拟 化 引擎 和 管理 软件 。 


9.5.4 ”富士 通 ETERNUS DX8000 人 磁盘 阵列 控制 器 结构 简 析 
图 9-73 为 富士 通 ETERNUS DX8000 机 柜 布 局 示意 图 。 
图 9-73 ”ETERNUS DX8000 机 柜 示 意图 


与 NetApp FAS6070 和 IBM DS8000 系 列 一 样 ， 高 端 磁盘 阵列 系统 由 
于 需要 提供 极 高 的 存储 容量 ， 只 连接 几 个 磁盘 扩展 柜 已 经 无 法 满足 要 
求 。 所 以 需要 将 更 多 的 磁盘 扩展 柜 装 入 扩展 机 架 中 ， 然 后 统一 联 入 控制 
器 或 者 串联 到 其 他 机 架 。 


图 9-74 为 ETERNUS DX8000 控 制 器 架构 示意 图 。 





图 9-74 ETERNUS DX8000 控 制 器 架构 示意 图 





CM (Control Module) 为 控制 器 模块 。CM 是 整个 磁盘 阵列 的 计算 
中 心 ， 每 个 CM 包 含 两 个 2.8GHz 的 四 核 CPU 和 最 大 64GB 的 RAM。RAM 
既 作为 盘 阵 本 吴 软 件 的 运行 内 存 ， 又 作为 盘 阵 数据 缓存 〈 图 中 所 示 的 
Cache) 。 整 个 盘 阵 系统 最 多 可 以 安装 8 个 CM， 由 于 每 个 控制 器 机 柜 只 
包含 一 个 CM， 所 以 整个 系统 最 多 可 以 连接 8 个 Controller Enclosure。 





RT (Router) 为 路 由 器 。RT 模 块 相当 于 普通 服务 器 架构 中 的 南 桥 
控制 器 (IO 控制 器 〉 以 及 FC 架构 中 常用 的 FC Loop Switch 交 换 心 片 。 不 
同 的 是 这 里 的 RT 是 一 个 全 局 桥 ， 它 可 以 桥接 整个 系统 中 的 所 有 CPU、 








RAM 和 外 设 〈EFC 接 口 卡 ) ， 使 所 有 部 件 之 间 实 现 高 速 通信 。 每 个 系统 
最 大 可 以 接 入 12 个 RT。 关 于 RTI 的 细节 将 在 下 文 描述 





DA (Driver Adapter) 为 后 端 磁盘 通道 适 配 板 。 每 个 适 配 板 上 接 有 4 
个 FC-AL 接 口 ， 用 于 接 入 FC-AL 的 Loop。DA 实 际 上 就 是 盘 阵 的 后 端 接 
入 点 。 每 个 后 端 RT 可 以 接 入 16 个 DA 上 的 各 一 个 口 ， 每 个 系统 最 多 接 入 
16 个 DA， 从 而 可 以 挂 接 64 条 Loop。 但 为 了 元 余 ， 每 个 Loop 需 要 同时 连 
接 两 个 DA， 所 以 实际 可 用 Loop 减 半 ， 为 32 Loops。 


CA (Channel Adapter) 为 前 端 通道 适 配 板 。CA 实 际 上 莽 是 前 端 FC 
接口 适 配 板 ， 每 个 板子 上 包含 4 个 FC N 类 型 端口 ， 用 于 接 入 FC 交 换 设 备 
或 者 直接 连接 主机 服务 器 的 FC 适 配 卡 。 每 个 RT 最 多 接 入 4 个 CA， 所 以 
整个 系统 最 多 可 以 接 入 32 个 CA， 最 多 提供 128 个 FC 协 议 N 类 型 前 端 接 
口 。 





1. SBOD 








扩展 柜 同样 采用 了 双 模 块 板 设计 ， 可 以 保证 两 条 路 径 到 达 同 一 块 磁 
盘 。 图 9-75 中 的 “骨干 交换 机 ”其 实 就 是 指 SBOD 所 采用 的 半 交 换 式 心 
片 。 


图 9-75 ”ETERNUS DX8000 扩 展柜 架构 


2. 循环 镜像 的 写 缓存 











图 9-76 ”为 ETERNUS DX8000 控 制 器 间 循 环 缓存 镜像 写 示 意图 。 











图 9-76 ETERNUS DX8000 循 环 缓存 镜像 写 示 意图 


数据 在 被 写 入 任何 一 个 控制 器 的 Cache 时 ， 系 统 会 将 写 入 的 数据 复 
制 到 其 他 控制 器 的 缓存 中 做 元 余 。 一 旦 在 数据 还 没有 写 入 硬盘 之 前 ， 某 
个 控制 器 及 生 了 故障 ， 写 缓存 镜像 技术 可 以 保证 数据 不 会 于 失 ， 可 以 将 
数据 从 镜像 缓存 中 写 入 和 硬盘。 该 缓存 不 需要 这 种 技术 ， 因 为 读 操 作 只 是 
将 数据 从 硬盘 上 读 入 RAM， 如 果 此 时 控制 器 故障 ， 磁 盘 中 的 数据 依然 
存在 。 最 重要 的 是 缓存 镜像 拉 术 会 浪费 宝贵 的 缓存 容量 ， 读 操作 没有 必 
要 实现 缓存 镜像 。 





























3. 路 扩 展柜 做 Raid Group 


图 9-77 ”所 示 为 ETERNUS DX8000 跨 扩展 柜 的 Raid Group 示意 图。 


图 9-77 跨 扩 展柜 的 Raid Group 





前 面 也 介绍 过 ， 为 了 获得 足够 的 见 余 性 ， 很 多 厂家 的 盘 阵 产品 一 般 
都 选择 将 不 同 扩 展柜 中 的 硬盘 容纳 到 一 个 Raid Group 中 ， 而 不 是 让 一 个 
Raid Group 包含 同一 个 扩展 柜 中 所 有 的 磁盘 。 





DX8000 系 统 整 体 架构 图 及 分 项 解析 如 下 。 


如 图 9-78 所 示 为 DX8000 存 储 系 统 配 备 4 个 CM 时 系统 的 整体 架构 
图 。 


图 9-78 ”DX8000 配 备 4 个 CM 时 系统 的 架构 





图 9-78 为 一 个 4 CM 配置 的 DX8000 存 储 系 统 。 每 个 CM 包含 两 个 4 核 
心 CPU、64GB 的 RAM、4 个 前 端 FC 接 口 卡 和 两 个 后 端 磁 盘 FC 通 道 接口 
卡 。 每 个 接口 卡 都 含 4 个 FC 接 口 。 在 IO 总 线 方面 ， 由 于 所 有 CM 上 的 DA 
和 CA 都 需要 被 系统 内 所 有 CPU 所 访问 到 ， 上 所 以 通过 两 个 16 口 8X。 PCI-E 








Bridge Switch 芯片 来 互 连 所 有 4 个 CM， 这 两 个 PCI-E_ Switch 作为 整个 系 
统 的 全 局 IO 桥 。 此 外 ，CM 之 间 的 其 他 数据 通信 和 控制 器 通信 也 都 经 过 
这 两 片 Switch。 由 于 每 个 8X PCLE 接 口 可 以 提供 双向 共 400MB/s 的 吞吐 
量 ， 所 以 每 个 Switch 心 记 可 以 提供 64GB/s 的 吞吐 量 。 











在 后 端 ，DA 与 磁盘 扩展 柜 之 间 存 在 4 个 16 口 的 FCAL Loop Switch， 
这 个 Switch 就 是 前 文中 所 述 的 Cut Through Switch， 物 理 全 交换 ， 但 是 上 
层 协议 依然 为 FCAL。 每 个 DA 上 的 一 个 接口 各 连接 4 个 Switch 中 的 一 个 
Switch 上 的 一 个 接口 ， 这 样 ， 恰 好 有 32 个 端口 被 DA 所 连接 。 人 磁盘 扩展 
柜 由 于 也 是 双 路 连接 ， 所 以 每 个 Loop 的 头 一 个 磁盘 扩展 柜 也 连接 到 两 个 
Loop Switch 上 的 各 一 个 接口 ， 这 样 共 连接 了 16 条 Loop。 这 种 连接 方式 
可 以 使 得 每 个 CM 都 有 知 干 条 元 余 的 路 径 来 访问 到 每 块 磁盘 ， 做 到 了 所 
有 逻辑 部 件 的 全 部 见 余 和 负载 均衡 。 


如 图 9-79 所 示 为 DX8000 存 储 系 统 实物 图 ， 可 以 看 到 CA 插 板 插 在 
CM 模 块 的 下 方 插 槽 中 ，CM 模 块 又 插 到 机 柜 背 板 中 。 





图 9-79 ”DX8000 实 物 图 
9.5.5 EMC 公司 Clariion CX/CX3 及 DMX 系 列 盘 阵 介绍 
1.， Clariion CX 系列 产品 


CX 系列 产品 性 能 如 下 。 


a 充分 风 余 体系 结构 。 

a 双 存 储 处 理 器 。 

a 电源、 冷却 系统 、 数 据 路 径 、 独 立 电 源 。 
a 无 间断 操作 。 


在 线 软件 升级 。 
在 线 硬 件 更 改 。 
高 级 数据 完整 性 。 
镜像 写 绥 存 。 
发 生 电 源 故 障 时 将 写 缓存 转 储 到 磁盘 。 
SNiiFFER: 局 区 检查 实用 程序 。 
点 对 点 DAE 设 计 。 
具有 无 中 断 故 障 切 换 的 双 IMO 通 道 


分 层 容 量 。 





15K: 36 GB、 73 GB、146 GB:; 
10K: 73 GB、146 GB、300 GB。 
500 GB SATAII。 

5 一 480 个 磁盘 。 

灵活 性 。 

混合 驱动 器 类 型 。 

混合 RAID 级 别 。 

RAID 级 别 0、1、1 十 0、3 和 5。 
高 达 16 GB 的 可 调式 绥 存 。 


图 9-80 为 CX 系列 产品 的 实物 图 和 透视 图 。 








图 9-80 ”CX 系列 产品 实物 图 和 透视 图 





图 9-81 为 CX700 的 控制 器 架构 示意 图 。 


图 9-81 ”CX700 的 控制 器 架构 示意 图 


图 9-82 为 CX700 控 制 器 实物 图 。 





图 9-82 ”CX700 控 制 器 实物 图 








CX3-80 皖 制 嚣 和 扩展 柜 架 构 人 简介 如 下 。 


CX3 系 列 为 EMC 公 司 的 中 低 端 存储 系统 (目前 已 被 CX4 系 列 取 
代 ) 。 其 内 部 总 体 架 构 与 前 文 介绍 的 CX700 类 似 ， 但 是 在 扩展 性 和 总 线 
速度 等 处 有 提升 。 控 制 器 内 没有 专用 XOR 芯 片 ， 所 有 数据 IO 控制 全 部 由 
主 CPU 承 担 ， 所 以 整个 系统 有 多 个 CPU 以 便 提 供 足 够 的 处 理 能 


如 图 9-83 所 示 为 CX3-80 单 个 控制 右 拆 掉 挡 板 后 的 前 视图 。 














图 9-83 ”CX3-80 单 控制 器 前 视图 








图 9-84 所 示 为 单 控制 器 后 视图 ， 左 右 两 边 为 两 个 电源 模块 。 中 部 上 
下 各 一 个 控制 器 ， 每 个 控制 器 各 包含 4 个 前 端 FC 接 口 和 4 个 后 端 FC 接 
站。 




















图 9-84 ”CX3-80 单 控制 器 后 视图 








图 9-85 所 示 为 单个 控制 左 的 平视 图 和 俯视 图 。 可 以 看 到 控制 器 前 面 
古 两 个 插 卡 位 置 ， 可 以 根据 需要 插入 对 应 端口 数量 的 扩展 卡 。 











图 9-85 ”控制 器 平视 图 和 俯视 图 





图 9-86 所 示 为 单个 IO 扩展 卡 的 平视 图 和 俯视 图 。 可 以 看 到 ， 后 端 FC 
接口 并 没有 使 用 光纤 接口 ， 而 是 使 用 一 种 特制 的 铜 绕 接口 。 其 上 承载 的 
依然 是 FCAL 协 议 。 





图 9-86 扩展 卡 平视 图 和 俯视 图 








图 9-87 所 示 为 适用 于 CX3 系 列 的 磁盘 扩展 柜 的 前 视图 。 


图 9-87 扩展 柜 前 视图 





图 9-88 所 示 为 扩展 柜 后 视图 。 可 以 看 到 中 部 上 下 两 个 可 插 拔 的 
LCC， 即 链 路 控制 器 ，LCC 其 实 就 是 扩展 柜 中 的 控制 模块 ， 与 IBM DS 
系列 使 用 的 扩展 柜 中 的 ESM 模 块 作用 完全 一 样 。 





图 9-88 ”扩展 柜 后 视图 


图 9-89 所 示 为 单个 LCC 平 视图 。 用 于 串联 扩展 柜 的 端口 有 两 个 ， 一 
J 





图 9-89 LCC 平视 图 





图 9-90 所 示 为 一 套 双 控制 器 加 5 个 扩展 柜 的 CX3-80 存 储 系 统 物理 连 
接 好 之 后 的 后 视 岁 。 可 以 看 到 ， 每 个 控制 器 有 一 个 后 端 FC 接 口 使 用 了 
一 条 铜 绕 ， 连 接 到 了 第 一 个 扩展 柜 的 一 个 LCC 控 制 模 块 的 入 方向 级 联 口 
上 ， 然 后 每 个 LCC 的 出 方向 级 联 口 再 使 用 同样 的 线 缆 连 接 到 下 一 个 扩展 
柜 相 同 LCC 上 的 入 方向 接口 ， 一 直 级 联 下 去 直到 最 后 一 个 扩展 柜 为 上 上。 








图 9-90 ”控制 器 + 扩展 柜 后 视图 
2. Symmetrix DMX-3 系 统 概 述 


直 连 矩阵 体系 结构 。 


CPU 以 及 通道 扩展 卡 与 内 存 之 间 采 用 点 对 点 直 连 访问 。 每 一 个 控制 
器 都 有 其 上 自己 到 达 每 一 目的 地 的 专用 通道 。 直 连 和 矩阵 底板 最 多 有 128 个 
全 部 是 直 连 、 专 用 而 且 不 共享 的 独立 通道 ， 如 图 9-91 所 示 。 








图 9-91 ” Symmetrix 甜 阵 示 意图 


每 个 控制 器 8 个 1.3 GHz PPC 处 理 器 。 

最 多 12 个 通道 控制 器 。 

8 端口 2 GB 光纤 通道 。 

8 端口 ESCON。 

4 端口 多 协议 一 一 2 GB FICON、iSCSI 和 用 于 RDF 的 千 兆 以 太 
网 。 

最 多 8 个 磁盘 控制 器 。 

每 个 磁盘 控制 器 最 多 480 个 驱动 器 。 

文 持 无 中 汤 添 加 控制 右 。 

高 达 512 GB 全 局 内 存 (256 GB 可 用 ) 。 
和 带 有 内 存 保险 存储 保护 的 镜像 DDR 技 术 。 


图 9-92 所 示 为 Symmetrix DMX-3 的 实物 图 ， 左 边 为 控制 器 机 柜 ， 厂 
边 为 磁盘 扩展 柜 机 柜 。 








图 9-92” Symmetrix DMX-3 实 物 图 
9.5.6 HDS 公 司 AMS2000 和 USP 系 列 盘 阵 介 绍 
1. AMS2000 系 列 存储 系统 控制 器 架构 简介 


AMS2000 系 列 是 HDS 公 司 于 2008 年 推出 的 后 端 基 于 SAS/SATA 磁 稻 
扩展 柜 的 中 端 存储 系统 。 其 控制 器 有 一 个 很 大 亮点 ， 即 Native Dual 
Activated。 传 统 双 控制 器 中 端 存储 其 创建 的 每 一 个 LUN， 都 只 能 将 其 指 
定 给 一 个 控制 器 ， 另 外 一 个 控制 作为 这 个 LUN 的 后 备 控 制 右 作为 故障 时 
的 元 余 切 换 ， 使 用 多 LUN 轮 流 指 定 给 不 同 控制 器 的 方式 做 到 负载 均衡 ， 
这 种 负载 均衡 完全 是 人 为 控制 的 ， 如 果 随 着 系统 的 负载 不 断 变化 ， 一 旦 
将 来 发 生 某 个 控制 器 所 掌管 的 LUN 总 体 负载 很 大 ， 而 另 一 个 控制 器 管理 





的 LUN 总 体 负载 却 很 小 ， 那 么 此 时 就 需要 人 为 控制 将 负载 大 的 LUN 切 换 
到 负载 小 的 控制 器 上 ， 不 但 属于 高 危 操 作 而 且 还 影响 主机 客户 端 对 LUN 
的 访问 。AMS 2000 的 两 个 控制 器 彻底 颠覆 了 这 种 低 效 率 的 设计 ， 两 个 
控制 器 共同 掌控 所 有 LUN， 不 管 数据 IO 从 哪个 控制 器 进入 ， 接 受 IO 的 控 
制 器 都 会 自行 处 理 对 这 个 LUN 的 IO， 如 果 一 旦 发 现 自 己 负载 高 到 一 定数 
值 而 对 方 控制 器 负载 低 到 一 定数 值 ， 那 么 接受 IO 的 控制 器 会 将 这 个 IO 从 
内 部 链 路 传送 给 对 方 控制 器 由 对 方 来 处 理 。 通 过 这 种 互相 协作 的 处 理 方 
式 ， 系 统 负 载 达 到 了 彻底 的 均衡 。 两 个 控制 器 之 间 使 用 两 条 2GB/s 的 链 
路 进行 协作 通信 和 与 数据 传输 。 两 个 控制 器 的 写 缓存 互 为 镜像 以 防止 一 旦 
某 个 控制 器 故障 之 后 另 一 个 控制 器 可 以 立即 接管 所 有 写 IO 操作 ， 镜 像 组 
存 的 第 二 个 目的 是 为 了 当 发 生 负 载 转移 时 提高 转移 速度 ， 因 为 写 IO 数据 
己 经 被 镜像 所 以 无 须 额外 的 实体 数据 传送 。 








与 IBM DS 5000 系 列 一 样 ，AMS2000 系 列 也 使 用 一 颗 专 用 ASIC 来 负 
责 大 部 分 数据 IO 与 XOR 校 验 操作 。Intel Xeon CPU 负责 其 他 上 层 功 能 软 
件 的 运行 。 


图 9-93 所 示 为 AMS 2500 存 储 系 统 控 制 器 架构 示意 图 。 


图 9-93 ”AMS2K 控 制 器 





2. USP1100 存 储 系 统 架 构 简 介 

USP 系 列 机 器 为 目前 HDS 存 储 产 品 中 最 高 端的 机 器 。 图 9-94 所 示 为 
USP 系 列 机柜 实 物 图 。 图 9-95 所 示 为 USP-V 系 列 的 虚拟 化 功能 示意 图 。 
图 9-96 所 示 为 USP 系 列 控制 器 架构 逻辑 示意 图 。 


图 9-94 ”机 柜 实 物 图 图 9-95 ”USP-V 系 列 虚拟 化 示意 图 


图 9-96 ”控制 器 架构 示意 图 








图 9-97 所 示 是 USP1100 存 储 系统 的 一 些 规 格 说 明 。 


图 9-97 USP1100 规 格 说 明 


图 9-98 所 示 是 USP1100 存 储 系 统 控 制 机 柜 的 物理 透视 图 。 


图 9-98 USP1100 实 物 图 


图 9-99 所 示 为 Cache Switch 模块 ， 对 应 图 9-98 所 示 的 逻辑 架构 图 中 的 
Crossbar Switch 与 Data Cache。Crossbar 作 为 一 个 无 阻塞 交换 心 片 提 供 所 
有 FC Chip 处 理 器 到 所 有 Data Cache 之 间 的 高 速 访问 。 图 9-100 所 示 为 各 
种 前 问 接 口 导 回 器 揪 板 ， 用 来 适 配 各 种 前 端 网 络 访问 方式 ， 包 括 FC、 
ESCON、RCON、FICON、NAS 等 。 








图 9-99 Cache Switch 图 9-100 ”各 种 导 问 器 插 板 








图 9-101 所 示 为 USP1100 存 储 系统 的 磁盘 扩展 机 柜 透 视图 。 





图 9-101 USP1100 磁 盘 扩 展柜 机 柜 
9.5.7 HP 公司 MSA2000 和 EVA8000 存 储 系统 架构 简介 
1. MSA2000 存 储 系 统 简 介 


MSA2000 存 储 系统 是 HP 公司 的 低 端 存 储 系统 ， 不 要 与 HDS 公 司 的 
AMS2000 搞 混 。 前 者 为 Modular Smart Array 的 简写， 后 者 为 Adaptable 
Modular Storage 的 简写 。MSA2000 存 储 系 统 后 端 也 是 使 用 SAS/SATA 扩 
展柜 ， 扩 展 容量 有 限 。 前 端 可 以 播 ISCSI 扩 展 卡 或 者 FC 扩 展 卡 。 内 部 架 











构 为 传统 简单 架构 。 图 9-102 和 图 9-103 所 示 分 别 为 MSA2000 控 制 器 架构 
逻辑 简 图 和 透视 图 。 


图 9-102 ”MSA2K 控 制 器 逻辑 图 








图 9-103 ”MSA2K 控 制 器 实物 图 
2. EVA8000 系 列 存储 系统 架构 人 简介 


EVA 系列 分 为 EVA4000、EVA6000 和 EVA8000。EVA 全 称 
为 “Enterprise Virtual Array”， 是 HP 公司 的 中 端 存储 系统 。 其 硬件 架构 有 
点 特别 ， 即 将 FC 控制 卡 上 常见 的 PBC 访 片 的 功能 放 到 了 外 部 ， 用 一 个 
Loop Switch 蔡 代 了 ， 控 制 器 与 所有 扩展 柜 都 接 到 这 个 Loop Switch 上 。 


图 9-104 所 示 分 别 为 EVA8000 控 制 器 逻辑 架构 人 简 图 和 控制 器 机 柜 物 
理 拓扑 人 简 图 。 





图 9-104 EVA8000 控 制 器 逻辑 图 和 实物 图 

















这 些 Loop Switch 蕊 片 ， 对 于 其 他 厂商 来 讲 都 是 被 设计 在 扩展 柜 内 部 
的 ， 但 是 EVA 这 个 产品 却 把 它 放 到 了 外 部 一 个 单独 供电 的 交换 机 中 ， 做 
成 星 型 拓扑 了 ， 所 有 扩展 柜 都 连接 到 中 心 的 Loop Switch 上 ， 其 他 厂商 产 
品 都 是 柜 与 柜 串 联 方式 的 。EVA 这 种 做 法 有 个 好 处 就 是 数据 可 以 只 经 过 
一 跳 就 可 以 从 控制 右 的 IO 接口 卡 上 被 转发 到 对 应 的 扩展 柜 ， 其 他 产品 则 
都 要 经 过 在 柜子 与 柜子 之 间 进 行 多 级 跳 〈 跳 数 视 IO 的 目标 柜子 离 控 制 器 
远近 而 不 同 ) ， 增 加 了 延迟 。 另 外 ， 这 种 做 法 还 能 够 节约 Loop Switch 心 
片 的 数量 ， 降 低 成 本 。 














9.5.8 ”传统 磁盘 阵列 潍 构 总 络 





虽然 目前 生产 磁盘 阵列 的 三 家 众多 ， 产 品 众多 ， 但 是 可 以 把 总 体 的 
目前 所 存在 的 产品 总 结 为 以 下 几 种 架构 。 





a 低 端 X86 PC Server 双 控制 器 架构 。 比 如 IBM DS3000、EMC 
Clariion CX/CX3/CX4 系 列 、HP MSA2000 系 列 、NetApp FAS 系 
列 。 

带 有 辅助 专用 芯片 的 低 端 X86 PC Server 双 控制 器 架构 。 比 如 IBM 
DS5000、HDS AMS2000。 

高 端 X86 PC Server 高 扩展 性 多 控制 器 架构 。 比 如 富士 通 
DX8000。 

高 端 小 型 机 架构 。 比 如 IBM DS8000。 

高 端 大 型 主机 架构 。 比 如 HDS USP、EMC Symmetrix DMX4。 
X86 Server 集 群 架构 。 比 如 EMC Symmetrix Vmax、IBM XIV、 
3PAR INSERV。 


对 于 最 后 一 种 ， 也 就 是 X86 集 群 娘 构 的 存储 系统 ， 将 会 在 本 书后 面 
的 革 市 详细 介绍 。 这 里 为 何 没有 将 是 士 通 DX8000 也 归于 集群 架构 的 原 
因 是 因为 其 看 似 多 控制 器 协作 ， 但 是 在 前 端 ， 多 控制 费 共 享 所 有 DA 和 
CA， 只 不 过 分 工 不 同 ; 在 后 器， 所 有 DA 都 可 以 访问 所 有 磁盘 扩展 柜 ， 
后 端 Loop 并 不 是 由 茶 个 控制 锅 独 吝 ， 所 以 ， 它 仍 为 一 种 全 局 控制 喜 的 
X86 多 控制 占 架 构 ， 与 双 控 制 器 架构 的 区 别 仅 为 一 个 “多 ”* 字 。 这 种 架构 
处 于 一 种 折 中 状态 ， 前 端 有 扣 集 群 化 的 意思 ， 而 后 端 却 依 然 非 集群 化 。 





9.6 ”磁盘 阵列 配置 实践 


9.6.1 基于 IBM 的 DS4500 盘 阵 的 配置 实例 





在 拿 到 一 台 轿 新 的 磁盘 阵列 之 后 ， 必 须 对 其 进行 相关 的 配置 ， 才 能 
让 其 发 挥 功能 。 这 些 配 置 包 括 配 置 LUN， 各 个 LUN 的 参数 ， 配 置 LUN 映 
射 。 这 三 项 配置 是 使 一 个 盘 阵 可 以 用 来 存 取 数 据 的 最 基本 配置 。 下 面 就 
以 一 台 带 有 两 个 扩展 柜 的 DS4500 磁 盘 阵列 的 配置 为 例 ， 向 大 家 演示 一 
下 这 些 配 置 的 基本 步骤 。 








Storage Manager 软 件 是 IBM 公 司 开发 的 专门 针对 其 DS4000 系 列 盘 阵 
的 配置 工具 ， 这 个 工具 可 以 运行 在 Windows 操 作 系统 上 ， 通 过 以 太 网 与 
磁 登 阵列 通信 ， 从 而 实现 配置 。 





在 配置 阵列 参数 之 前 ， 我 们 先 来 看 一 下 这 个 阵列 将 被 用 于 一 个 什么 
样 的 环境 。 这 人 台 阵 列 是 一 家 小 型 公司 购买 的 ， 准 备用 于 存放 公司 的 机 密 
文件 、SQL Server 数 据 库 文 件 、 静 态 Web 网 站 文件 和 内 部 邮件 数据 。 整 
体 拓扑 结构 如 图 9-105 所 示 。 


图 9-105” 某 公司 IT 系统 后 端 拓扑 图 








其 中 SQL ， Server 数 据 库 服务 器 需要 3 个 LUN 存 放 数 据 ， 总 容量 1TB 
十 。 邮 件 和 网 站 各 需要 一 个 LUN， 大 小 分 别 为 300GB 十 和 50GB 十 。FTP 
服务 器 需要 两 个 LUN，400GB 十 。 


所 有 服务 器 操作 系统 均 为 Windows 2003 Enterprise Server。 每 台 服 
务 器 上 均 要 安装 两 块 2Gb/s 速 率 的 FC HBA 卡 ， 而 且 必 须 安装 多 路 径 软 
件 。 





竺 一 侣 普通 PC 上 安装 盘 阵 随机 带 的 Storage Manager 软 件 ， 然 后 将 这 
台 PC 用 双 绞 线 连 接 到 盘 阵 的 以 太 网 口上 ， 将 PC 的 IP 地 址 配置 成 与 盘 阵 
初始 IP 地 址 相同 的 网 段 。 之 后 ， 通 过 软件 主 界面 添加 盘 阵 的 PP 地址， 这 
样 软件 就 可 以 通过 TCP/IP 协 议 与 盘 阵 进行 通信 了 。 


从 图 9-106 中 可 以 看 到 这 套 设备 共有 3 个 柜子 ， 控 制 器 所 在 的 柜子 是 
0 号 柜子 ， 也 就 是 图 中 右边 显示 的 Controller Enclosure， 这 个 柜子 中 包含 
两 个 互 为 备份 元 余 的 控制 器 A 和 B。Driver Enclosurel 和 Driver Enclosure 
2 是 两 个 磁盘 扩展 柜 ， 每 个 柜子 中 包含 14 块 物理 磁盘 。 所 有 磁盘 的 总 容 
量 为 2552GB， 这 在 主 界面 左边 栏 中 也 有 提示 。 








图 9-106 Storage Manager 的 主 界面 





单 击 按钮 可 以 查看 柜子 的 供电 、 散 热 、 温 度 、 控 制 器 电池 、 插 卡 、 
SFP 模 块 等 硬件 部 件 信 息 ， 如 图 9-107 所 示 。 








图 9-107 机 器 环境 监控 窗口 
1. 配置 LUN 


在 主 界 面 中 右 击 Unconfigured Capacity， 创 建 逻辑 磁盘 〈( 即 
LUN) ， 如 图 9-108 所 示 。 





图 9-108 ”创建 LUN 


出 现 选择 主机 类 型 的 对 话 框 ， 选 择 这 个 逻辑 磁盘 将 要 为 何 种 类 型 的 
操作 系统 使 用 ， 这 里 我 们 选择 Windows 2000/Server 2003 “Non-C， 
即 “Windows 2003 非 集群 "类 型 ， 如 图 9-109 所 示 。 


图 9-109 选择 LUN 的 类 型 


提示 : “有 些 磁盘 阵列 会 针对 不 同 的 操作 系统 提供 不 同类 型 的 
LUN。 虽 然 LUN 对 于 操作 系统 来 说 只 是 一 块 裸 磁盘 ， 但 是 每 种 
操作 系统 上 的 文件 系统 在 使 用 LUN 的 行为 上 是 有 差异 的 。LUN 
的 0 写 LBA 为 MBR， 占 用 了 一 个 而 区 。 而 文件 系统 一 般 使 用 比 
局 区 更 大 的 逻辑 块 来 做 为 分 配 单元 ， 所 以 有 些 文件 系统 对 于 
LBA 的 编号 就 要 从 LBA1 开 始 ， 即 MBR 的 下 一 个 LBA。 对 于 一 
些 盘 阵 控 制 器 来 说 ， 它 们 管理 LUN 可 能 也 是 用 块 来 作为 一 个 最 
小 单元 。 但 控制 器 却 不 理解 MBR， 只 认为 文件 系统 会 从 0 开始 
顺序 编号 。 这 样 ， 就 产生 了 块 不 对 齐 的 现象 ， 从 而 影响 了 性 
能 ， 如 图 9-100 所 示 。 上 所以， 有些 以 块 为 单元 对 LUN 做 管理 的 
盘 阵 控制 器 会 针对 不 同文 件 系统 制作 对 应 的 LUN。 

图 9-110 ”文件 系统 与 盘 阵 的 LUN 块 不 对 齐 示 意图 











在 图 9-111 所 示 的 对 话 框 中 ， 需 要 先 创建 RAID Group (或 
Arrays) ， 然 后 在 建 好 的 RG 中 再 划分 LUN。 数 据 库 对 于 IO 性 能 有 较 高 
要 求 ， 所 以 给 数据 库 的 3 个 LUN 各 分 配 一 个 RG， 充 分 保证 数据 库 的 IO 性 


全 已 
月 上。 





图 9-111 RAID 类 型 选择 ， 手 动 分 配 人 磁盘 





选择 相应 的 RAID 级 别 。 如 果 想 手动 选择 组 成 RAID Group 的 磁盘 ， 
选中 Manual 单 选 按钮 。 然 后 在 下 方 磁 盘 列 表 中 ， 按 住 Ctrl 键 选择 组 成 这 
个 RG 的 所 有 磁盘 成 员 ， 最 后 单 击 Apply 按 钮 ， 如 图 9-111 所 示 。 如 果 想 
让 程序 自动 生成 各 种 大 小 的 RG， 则 要 选中 Automatic 单 选 按钮 ， 如 图 9- 
112 上 所 示 。 


图 9-112 ”自动 分 配 磁 盘 





这 里 让 系统 自动 为 我 们 计算 。 在 RAID 5 级 别 下 ， 系 统计 算出 各 种 容 
、 伺 盘 数 量 的 RG 组 合 。Channel] Protection 指 的 是 让 RG 中 所 有 磁盘 成 
分 布 在 两 个 扩展 柜 中 ， 充 分 保证 见 余 性 。 我 们 选择 5 块 盘 的 292GB 容 


出 江 地 


在 这 个 RG 中 ， 我 们 可 以 手动 指定 大 小 ， 划 分 出 新 的 LUN( 即 
Logical Drive) 。 这 里 将 全 部 容量 分 配给 一 个 LUN， 命 名 为 SQLLUN1， 
LUN 的 参数 选择 自 定义 。 





选择 条 市 深度 为 32KB， 每 个 条 珊 的 数据 部 分 的 宽度 就 是 32KB 乘 以 
4 块 数据 Segment， 为 128KB。 这 样 ， 只 要 将 SQL ”Server 数 据 库 的 Extent 
参数 设置 为 128KB 大 小 ， 就 可 以 保证 每 次 读 写 RG 均 为 整 条 读 写 ， 充 分 
提高 IO 性 能 〈 但 这 样 做 会 丧失 并 发 IO 能 力 ) ， 如 图 9-113 所 示 。Preferred 
controller ownership 表 示 这 个 RAID Group 平时 由 哪个 控制 器 管理 。 我 们 
选择 Slot A， 即 控制 器 A。 一 旦 控制 器 A 发 生 故 障 ， 这 个 RG 会 立即 由 控 
制 器 BB 接管 。 





图 9-113 ”选择 条 带 深 度 





Logical Drive-to-LUN Mapping 即 LUN 了 映射 ， 配 置 这 个 LUN 将 给 哪个 
或 者 哪些 主机 使 用 。 我 们 稍 后 选择 用 专门 的 配置 模块 配置 ， 如 图 9-114 
所 示 。 


图 9-114 ”配置 LUN 映 射 











配置 完 后 ， 系 统 会 提示 是 人 否 还 要 配置 男 外 的 RG 或 者 LUN。 因 为 这 
个 RG 全 部 容量 已 经 分 配给 了 一 个 LUN， 所 以 窗口 中 的 same array 单 选 投 











钮 为 灰色 。 单 击 Yes 按 钮 进入 新 一 轮 的 RG 和 LUN 配 置 。 用 这 种 方法 ， 配 
置 所 有 6 个 LUN， 如 图 9-115 所 示 。 





图 9-115 ”创建 完毕 的 6 个 LUN 


由 于 这 个 环境 中 的 FIP 服务器 主要 存放 视频 等 大 文件 ， 所 以 使 用 
RAID 3 级 别 来 提高 传输 性 能 ， 如 图 9-115 所 示 。 另 外 ， 只 要 选中 某 个 创 
建 好 的 RG 或 者 LUN， 右 边 窗 口中 便 会 显示 出 这 个 RG 和 LUN 所 对 应 的 物 
理 磁盘 以 及 竺 管 它 的 控制 器 。 


2. 设置 全 局 热 备 磁盘 


最 好 设置 一 个 或 者 两 个 热 备 磁盘 。 这 样 ， 一 旦 某 块 磁盘 损坏 ， 热 备 
破 盘 立即 顶 营 ， 以 免 数 据 丢 失 ， 如 图 9-116 所 示 。 





图 9-116 ”选择 热 备 盘 





设置 完 热 备 磁盘 之 后 ， 可 以 进一步 更 改 每 个 RG 或 者 LUN 的 细节 参 
数 ， 如 图 9-117 和 图 9-118 所 示 。 


图 9-117 各 种 参数 (1) 图 9-118 ”各 种 参数 (2) 








3. 设置 LUN 了 映射 


切换 到 主 界面 的 Mappings ”View 选项 卡 ， 然 后 右 击 设备 名 ， 从 弹出 
的 快捷 菜单 中 选择 Define Host 命 令 来 添加 主机 信息 ， 即 使 用 这 人 台 盘 阵 的 
主机 信息 ， 如 图 9-119 所 示 。 


图 9-119 ”添加 主机 映射 








Host Name 可 以 随便 起 名 ， 并 不 一 定 要 与 对 应 主机 的 真正 Hostname 
相同 。 添 加 完 所 有 主机 后 ， 界 面 的 显示 如 图 9-120 所 示 。 








图 9-120 ”主机 列表 


添加 完 主 机 名 之 后 ， 还 必须 添加 Host Port， 即 必须 让 盘 阵 知道 主机 
使 用 哪些 FC 接 口 来 访问 盘 阵 。 右 击 某 个 主机 名 ， 从 弹出 的 快捷 荣 单 中 
选择 Define Host Port 命 令 ， 如 图 9-121 所 示 。 





图 9-121 添加 主机 的 FC 端口 信息 





在 Port Identifier 处 ， 我 们 选择 对 应 的 ID〔 即 每 个 主机 FC HBA 卡 上 
的 WWN 地 址 ， 盘 阵 会 通过 Fabric 网 络 自动 发 现 这 些 地 址 ) 。 主 机 类 型 当 
然 选 择 Windows 2000/Server 2003 Non-C，Host port name 随 便 起 一 个 名 
字 即 可 ， 如 图 9-122 所 示 。 每 台 服 务 器 上 有 两 块 FC 卡 ， 所 以 每 台 主 机 共 
有 两 个 接口 ， 在 此 为 每 个 接口 都 定义 一 下 。 定 义 好 每 台 主 机 的 接口 之 
后 ， 如 图 9-123 所 示 。 








图 9-122 ”主机 上 的 FC 端口 信息 图 9-123 ”所 有 主机 端口 定义 完毕 








在 未 映射 的 LUN 上 右 击 ， 从 弹出 的 快捷 这 单 中 选择 Define 
Additional Mapping 命 令 ， 打 开 如 图 9-124 所 示 的 对 话 框 。 





图 9-124 ”映射 LUN 到 主机 端口 


在 Host group or host 下 拉 列 表 框 中 选择 Host SQLserver 这 台 主 机 ， 
Logic unit number 表 示 此 次 映射 给 这 人 台 主 机 的 LUN， 在 主机 上 将 显示 
LUN 的 号 码 。 图 9-124 中 ， 将 SQLLUN1 这 个 LUN 映 射 给 主机 SQL 
Server， 主 机 上 显示 的 对 应 这 块 LUN 的 号 码 是 LUN0。 用 这 种 方法 ， 将 


所 有 属于 SQL Server 主 机 的 3 个 LUN 都 映射 好 后 ， 单 击 close 按 钮 。 结 果 
如 图 9-125 所 示 。 


图 9-125 LUN 映射 完毕 
注意 : 单 击 每 台 主 机 ， 右 边 就 会 出 现 这 人 台 主 机 可 以 访问 的 
LUN 及 其 相关 信息 。 每 个 LUN 只 能 映射 给 一 台 主 机 。 理 论 上 ， 
一 个 LUN 完 全 可 以 映射 给 多 台 主 机 共同 访问 使 用 ， 这 就 需要 用 
到 partition 功 能 了 。 此 处 不 做 过 多 介绍 。 





4. 初始 化 LUN 配 置 





所 有 设置 做 完 之 后 ， 需 要 进行 初始 化 。 初 始 化 完毕 之 后 ， 才 能 供 主 
机 使 用 。 


右 击 每 个 Array 或 者 LUN， 人 然后 从 弹出 的 快捷 表单 中 选择 Initialize 命 
令 ， 如 图 9-126 和 图 9-127 所 示 。 








图 9-126 ”初始 化 磁盘 阵列 图 9-127 初始 化 所 有 RAID 组 





右 击 每 个 Array， 从 弹出 的 快捷 菜单 中 选择 属性 命令 ， 可 以 查看 初 
始 化 的 进度 ， 如 图 9-128 所 示 。 








图 9-128 ”初始 化 进度 窗口 








初始 化 完成 之 后 ， 熏 阵 即 可 接受 主机 访问 了 。 











其 他 不 同 品牌 型 号 的 磁盘 阵列 产品 的 配置 过 程 大 同 小 异 ， 只 要 理解 
了 磁盘 阵列 的 组 成 架构 和 原理 ， 配 置 起 来 其 实 是 很 简单 的 。 


9.6.2 ”基于 EMC 的 CX700 磁 盘 阵 列 配置 实例 





在 此 我 们 简要 介绍 一 下 EMC 针 对 CX 系列 的 配置 工具 Navisphere。 
1. 登录 Navisphere， 查 看 全 局 情况 


全 局 视图 如 图 9-129 所 示 。 图 9-130 为 所 连接 的 两 个 扩展 柜 中 的 一 个 
柜子 里 的 磁盘 列表 。 图 9-131 所 示 为 控制 右 柜 里 包含 的 两 个 控制 器 的 信 
轧 。 岁 9-132 上 所 示 为 存放 盘 阵 操作 系统 及 重要 配置 信息 的 私有 LUN。 每 
个 控制 器 都 有 各 自 的 私有 LUN。 图 9-133 所 示 为 映射 LUN 与 主机 用 的 
Storage “Groups， 也 就 是 映射 组 。 在 这 个 组 中 的 主机 可 以 访问 这 个 组 中 
的 LUN。 






































图 9-129 ”全 局 视图 图 9-130 ”扩展 柜 中 的 磁盘 图 9-131 控制 器 柜 中 的 两 
列表 个 控制 器 
图 9-132 ”用 于 存放 盘 阵 的 操作 系统 以 及 其 图 9-133 ”用 来 映射 LUN 和 主机 的 Storage 
他 配置 信息 的 Private LUNs Groups 





2. 创建 RAID 组 


(1) 在 盘 阵 图 标 上 右 击 ， 从 弹出 的 快捷 菜单 中 选择 Create RAID 
Group 命令 ， 如 图 9-134 所 示 。 








图 9-134 ”创建 RAID 组 


(2) 在 如 图 9-135 所 示 的 对 话 框 中 选择 RAID 组 的 ID、RAID 组 所 包 
含 的 磁盘 数量 以 及 其 他 参数 。 











图 9-135 ”RAID 组 参数 








(3) 在 创建 好 的 新 RAID 组 上 右 击 ， 从 弹出 的 快捷 菜单 中 选择 Bind 
LUN 命 令 创 建 LUN， 如 图 9-136 所 示 。 在 打开 的 对 话 框 中 ， 我 们 选择 
RAID 类 型 为 RAID 5， 如 图 9-137 和 图 9-138 所 示 。 利 用 上 述 方法 创建 
LUN 6 和 LUN 7 两 个 LUN， 如 图 9-139 所 示 。 








图 9-136 ”在 RAID 组 上 创建 ( 绑 定 ) LUN 图 9-137 LUN 参 数 页 (1) 





图 9-138 ”LUN 参数 页 (2) 图 9-139 ”创建 好 的 两 个 LUN: LUN 6 和 
LUN7 


3. 创建 Storage Group 并 绑 定 主机 与 LUN 


(1) 在 盘 阵 图 标 上 右 击 ， 从 弹出 的 快捷 菜单 中 选择 Create Storage 
Group 命令 ， 如 图 9-140 所 示 。 





图 9-140 ”创建 Storage Group 


(2) 在 打开 的 对 话 框 中 输入 新 Storage Group 的 名 称 ， 如 图 9-141 所 





图 9-141 ”给 新 Storage Group 起 名 





(3) 在 创建 好 的 Storage ”Group 上 右 击 ， 从 弹出 的 快捷 菜单 中 选择 
Select LUN 命 令 绑 定 LUN， 如 图 9-142 所 示 。 





图 9-142 ”选择 要 映射 的 LUN (一 ) 


(4) 将 要 分 配给 这 个 组 的 LUN 移 动 到 右边 的 窗口 ， 如 图 9-143 所 


图 9-143 ”选择 要 映射 的 LUN (二 ) 





(5) 切换 到 Hosts 选 项 卡 ， 选 择 要 分 配 的 主机 ， 将 其 移动 到 右 侧 窗 
口 ， 如 图 9-144 所 示 。 





图 9-144 ”选择 要 绑 定 的 主机 





(6) 添加 完 LUN 和 主机 之 后 ， 对 应 的 主机 就 可 以 识别 到 对 应 的 
LUN， 并 可 以 使 用 了 ， 如 图 9-145 所 示 。 





图 9-145 ”创建 好 的 Storage Group 





各 种 磁盘 阵列 的 配置 大 同 小 异 ， 总 地 来 说 主要 有 以 下 三 步 。 
(1L) 配置 RAID 组 。 
(2) 在 RAID 组 上 划分 LUN。 


(3) 将 LUN 了 映射 给 相应 的 主机 使 用 。 


9.7 HBA 卡 逻辑 架构 详 析 与 SAN Boot 示 例 
9.7.1 HBA 卡 逻辑 架构 
关于 IOP 


IOP 全 称 IO Processor，20 多 年 前 由 IBM 首 先 提出 。 其 根本 目的 是 在 
计算 机 IO 设备 上 放置 一 个 智能 处 理 器 ， 来 处 理 一 些 通信 协议 的 逻辑 ， 从 
而 将 原本 需要 由 系统 主 CPU 执 行 的 功能 (设备 驱动 层面 ) Offload 到 IO 设 
备 自身 执行 以 便 节 约 主 CPU 资 源 。 时 至 今日 ，IOP 已 经 被 普遍 使 用 在 各 
种 IO 设备 上 ， 比 如 以 太 网 卡 、FC 卡 、Raid 卡 、SAS 卡 、SCSI 卡 等 。 当 然 
仍 有 一 部 分 卡 不 使 用 IOP， 因 为 目前 的 主 CPU 性 能 已 经 非常 强劲 ， 与 20 
多 年 前 的 CPU 效率 不 可 同日 而 语 ， 所 以 这 类 没有 IOP 的 IO 设备 ， 其 上 层 
逻辑 功能 主要 由 系统 CPU 完 成 。 当 然 ， 随 着 集成 度 的 提高 ， 各 种 最 新 的 
标准 IO 板 卡 基 本 都 是 单 芯 片 设 计 了 ，IOP 也 被 集成 在 了 芯片 内 部 ， 而 且 
往往 只 占 很 小 一 部 分 ， 其 他 都 是 各 种 接口 逻辑 、 加 速 逻 辑 。 











带 IOP 的 IO 板 卡 一 般 都 需要 一 个 OS《〈 即 Firmware) ， 这 个 OS 代 码 存 
放 于 IO 板 卡 的 Flash 或 者 ROM 介 质 中 ， 有 些 过 于 庞大 的 OS 甚 至 干脆 存放 
在 了 与 这 个 IO 卡 相 连接 的 磁盘 特定 区 域 中 。 有 些 板 卡 逻辑 较为 简单 ， 也 
可 以 不 使 用 OS， 而 直接 使 用 非常 简化 的 单 任 务 Firmware。 





不 管 是 IOP 或 者 非 IJOP 的 IO 板 卡 ， 如 果 需 要 从 这 张 卡 所 连接 的 外 部 
设备 启动 系统 ， 则 都 需要 一 个 Optional ROM。Optional ROM 的 作用 见 下 
J 


非 IOP 的 HBA 比 如 Adaptec 2940、LSI 896。 


关于 Firmware 


Firmware 指 运行 在 IO 设 备 自身 的 程序 代码 。 其 包含 Tiny BIOS 和 OS 
或 者 简化 的 单 任 务 代码 。Tiny BIOS 用 于 带 IOP 的 IO 卡 加 电 时 自身 的 启动 
的 初始 化 操作 ， 其 包括 了 各 种 级 别 的 Boot Loader。OS 则 用 于 IOP 载 入 执 
行 以 实现 这 个 IO 设 备 自身 的 功能 ， 比 如 Raid 功 能 。Boot Loader 将 OS 以 
及 用 于 其 他 硬件 逻辑 的 代码 加 载 到 对 应 的 内 存 空 间 ， 供 这 些 部 件 执行 。 





Tiny BIOS 不 等 于 Optional ROM， 不 要 将 二 者 混淆 。 前 者 是 IO 设 备 
上 的 IOP 自 己 执行 的 ， 用 于 初始 化 自己 ;后 者 则 是 主板 上 的 主 CPU 通 过 
系统 BIOS 载 入 执行 的 用 于 系统 从 设备 外 部 访问 这 个 IO 设备 。 





关于 Optional ROM 





作用 : 主要 用 于 Boot。Optional  ROM 代 码 可 以 存放 在 IO 卡 的 ROM 
里 ， 也 可 以 存放 在 主板 系统 BIOS 中 《如 果 你 的 板 卡 已 经 是 非常 普遍 的 
大 众 型 号 的 话 ) 。 从 这 个 设备 Boot 之 前 需要 加 载 这 个 设备 对 应 的 
Optional  ROM， 这 样 系统 BIOS 才 可 以 驱动 这 块 卡 从 而 向 这 块 卡 后 面 的 
磁盘 读 写 数据 。 也 就 是 说 ，Optional ”ROM 里 包含 了 这 块 板 卡 针对 主板 
BIOS 的 驱动 程序 。 





IO 设 备 自身 可 以 控制 是 否 在 系统 加 电 的 时 候 让 系统 BIOS 加 载 
Optional ROM。 系 统 BIOS 必 须 运 行 对 应 外 设 的 Optional ROM 才 可 以 输 
出 这 个 外 设 更 细节 的 信息 ， 而 且 也 只 有 运行 Optional ROM 才 能 让 用 户 进 
入 这 个 外 设 的 配置 界面 进行 底层 的 配置 ， 比 如 大 家 经 常会 看 到 服务 器 启 
动 的 时 候 提 示 按 Ctrl 十 A 进入 某 配置 界面 。Optional ROM 执 行 完 之 后 ， 
系统 BIOS 便 跳 转 到 下 一 个 存在 的 Optional ROM 继续 执行 ， 如 果 上 一 个 
执行 过 的 Optional ROM 未 进行 任何 配置 变更 ， 则 整个 系统 就 未 作 任何 更 




















改 。 如 果 想 让 系统 BIOS 访 问 IO 卡 后 面 的 磁盘 ， 对 于 某 些 卡 ， 仅 仅 执行 
Optional ROM 是 不 行 的 ， 还 需要 进入 配置 界面 来 打开 一 个 选项 ， 一 般 叫 
做 “Enable BIOS”。 其 实 这 个 选项 实际 控制 着 是 否 让 这 个 IO 卡 设备 注册 
到 系统 Int13 中 断 问 量 表 中 ， 如 果 不 打 开 这 个 选项 ， 则 IO 卡 不 同 Int13 注 
册 ， 则 系统 就 无 法 读 写 IO 卡 后 面 的 磁盘 。 下 文 的 配置 示例 中 会 给 出 相关 
的 过 程 。 








HBA 架 构 方 框图 


如 图 9-146 所 示 ，IOP 即 为 这 个 10 设备 的 CPU; RAM 为 执行 代码 必 
需 的 内 存 ; ASIC 则 是 辅助 运算 的 专用 已 片 ， 比 如 XOR 运 算 心 片 ， 可 以 
大 大 降低 IOP 的 负担 ， 提 高 运算 速度 ，Flash 用 于 存放 Firmware 和 Optional 
ROM; Bus Controller Chip 用 于 总 线 数据 传输 的 控制 ， 比 如 PCIE 总 线 控 
制 |。 








图 9-146 HBA 结 构 方 框图 
非 Boot 的 HBA 卡 访问 流程 


不 文 持 Boot 功 能 的 HBA 卡 可 以 没有 Optional ROM。 这 种 HBA 卡 在 操 
作 系 统 未 加 载 之 前 不 能 对 其 所 连接 的 物理 设备 进行 访问 。 只 有 在 操作 系 
统 加 载 之 后 ， 在 操作 系统 中 安装 这 个 设备 的 驱动 程序 ， 方 可 对 其 所 连接 
的 设备 进行 访问 。 


关于 操作 系统 安 六 与 局 动 


支持 Boot 的 HBA， 虽 然 其 Optional ROM 可 以 在 OS 未 加 载 前 提供 对 
其 目 身 的 访问 ， 但 是 由 于 Optional Rom 所 提供 的 访问 方式 也 只 是 非常 低 
效率 的 Int13 方 式 ， 加 之 传统 BIOS 只 运行 在 16b 模 式 下 ， 非 常 古 老 ， 根 本 








不 能 满足 需求 EFI BIOS 运 行 在 64b 模 式 下 并 且 对 驱动 支持 方面 有 了 很 
大 改进 ， 另 当 别 论 ) 。 所 以 现代 操作 系统 都 要 求 操 作 系统 内 必须 包含 这 
个 IO 卡 的 高 级 驱动 ， 除 了 实现 少数 一 些 功 能 之 外 ， 几 乎 不 再 调用 系统 
BIOS 来 访问 IO 设备 。 所 以 ， 在 安装 操作 系统 到 某 个 HBA 所 挂 的 磁盘 
时 ， 要 么 操作 系统 安装 介质 已 经 包含 对 应 设备 的 驱动 程序 ， 要 么 就 需要 
手动 用 软盘 等 外 部 介质 加 载 对 应 的 驱动 程序 。 如 果 HBA 所 挂 的 磁盘 或 者 
LUN 上 已 经 安装 有 操作 系统 并 且 携带 了 对 应 的 驱动 程序 ， 则 可 以 直接 从 
这 个 LUN 启 动 操作 系统 。 

















9.7.2 ”支持 Boot 的 HBA 卡 访问 流程 
具体 过 程 见 下 文 描 述 。 


提示 : 一 台 计 算 机 包含 有 多 个 BIOS。 主 板 BIOS， 也 叫 系 统 
BIOS， 包 含 用 于 访问 所 有 常见 IO 设备 的 基本 的 驱动 程序 ， 比 
如 键盘 、 软 驱 、 光 驱 、IDE 人 硬盘 控制 器 、USB 控 制 器 (一 些 早 
期 的 主板 BIOS 不 包含 ) 等 。 对 于 一 些 不 常见 也 不 常用 的 IO 板 
卡 ， 或 者 功能 比较 复杂 的 IO 板 卡 ， 比 如 SCSI 卡 、Raid 卡 、 网 
卡 、 显 卡 等 ， 这 些 IO 设 备 一 般 都 具有 自己 的 BIOS， 也 束 古 将 
驱动 自己 的 代码 放 到 自己 的 BIOS 中 ， 这 些 BIOS 会 在 系统 BIOS 
执行 之 后 逐个 加 载 以 便 让 系统 BIOS 可 以 访问 这 些 设备 。 

这 些 IO 设 备 可 以 是 插 卡 形式 的 ， 也 可 以 是 集成 在 主板 上 的 。 它 
们 自己 的 BIOS 可 以 存放 在 IO 板 卡 的 蕊 片 中 ， 也 可 以 作为 附加 
的 代码 部 分 存放 在 系统 BIOS 所 在 的 芯片 中 的 附加 部 分 ， 所 以 
这 些 BIOS 可 以 被 单独 升级 。 这 些 IO 板 卡 独立 提供 的 BIOS 又 称 
为 Optional ROM。 

Optional ROM 对 于 一 个 IO 板 卡 来 说 并 不 是 必需 的 ， 只 有 以 下 两 








种 情形 才 是 必需 的 。 一 是 : 在 操作 系统 加 载 之 前 需要 被 访问 
(比如 显卡 ) ， 则 一 定 需要 Optional ROM。 二 是 : 功能 过 于 复 
杂 ， 系 统 BIOS 不 包含 它 的 基本 驱动 代码 。DOS 操 作 系统 以 及 
基于 DOS 的 早期 的 操作 系统 必须 依附 系统 BIOS 来 对 外 设 进行 
IO 操 作 ， 原 因 就 是 因为 DOS 操 作 系 统 上 自身 并 不 包含 任何 设备 驱 
动 程序 ， 所 以 只 能 调用 系统 BIOS 执 行 期 间 在 内 存 驻 留 的 所 有 
IO 设 备 驱动 程序 。 但 是 近代 操作 系统 都 会 使 用 自身 的 驱动 程序 
直接 操作 IO 设备 ， 并 不 需要 系统 BIOS 的 参与 了 ， 除 非 操 作 系 
统 需要 对 这 些 IO 设 备 进行 一 些 非 常 底层 的 操作 ， 比 如 设备 重新 
初始 化 等 。 所 以 ， 近 代 操 作 系 统 在 启动 之 后 ， 会 用 自己 的 驱动 
程序 替代 系统 BIOS 加 载 的 基本 驱动 程序 。 

系统 BIOS 在 执行 的 过 程 中 ， 会 逐个 加 载 所 有 IO 设备 的 Optional 
ROM。 首 先 系统 BIOS 会 对 实 内 存 地 址 0xC0000 到 0xF0000 进 行 
扫描 ， 扫 摘 单 位 是 以 2KB 为 边界 。 所 有 有 具有 Optional ROM 的 IO 
设备 均 会 在 内 存 对 应 地 址 中 映射 这 些 ROM。 系 统 BIOS 一 旦 发 
现 0xAA55 这 样 的 字 串 ， 便 知道 这 是 某 个 IO 设备 的 ROM 入 口 ， 
0xAA55 便 是 Optional ROM 的 签名 。 在 这 个 签名 之 后 是 一 个 字 
节 的 指针 ， 这 个 指针 给 出 了 这 个 Optional ROM 在 内 存 中 占据 了 
多 少 512B 的 Block。 这 个 指针 之 后 紧 接着 的 内 存 部 分 就 是 ROM 
实际 代码 的 入 口 ， 系 统 BIOS 直 接 跳 转 到 这 个 入 口 开 始 读 取 
Optional ROM 代 码 执行 ，Optional ROM 会 首先 向 系统 BIOS 注 
册 其 中 断 问 量 以 便 被 其 他 程序 所 访问 ， 其 次 Optional ROM 还 会 
提供 一 个 用 户 接口 用 于 配置 这 个 IO 设备 ， 比 如 很 多 HBA 在 加 电 
启动 之 后 会 在 屏幕 上 显示 “Press Ctrl 十 Q_ to enter configuration 
utility”。 其 次 还 可 以 提供 对 这 个 IO 设备 的 一 些 底层 诊断 。 

如 果 某 个 IO 设备 文 持 从 其 所 连接 的 外 部 存储 介质 来 启动 操作 系 
统 ， 则 如 果 这 个 设备 是 非常 普遍 的 比如 IDE 控 制 器 ， 那 么 系统 



































BIOS 中 会 包含 它 的 基本 驱动 ， 则 不 需要 任何 其 他 过 程 ， 就 可 
以 在 系统 BIOS 的 配置 界面 中 选择 从 这 个 IO 设备 启动 。 但 是 如 
果 这 个 IO 设备 需要 Optional ROM， 则 在 未 执行 Optional ROM 之 
前 ， 系 统 BIOS 中 不 会 识别 到 这 个 IO 设 备 ， 从 而 也 就 不 会 提供 
从 这 个 设备 启动 的 选项 。Optional ROM 执 行 的 过 程 中 ， 会 利用 
一 种 由 系统 BIOS 提 供 的 通用 的 API， 即 BIOS Boot Specification 
(BBS) ”API 来 向 系统 BIOS 注 册 自 身 ， 这 样 ， 在 系统 BIOS 配 
置 界面 的 Boot sequence 设 置 中 就 可 以 出 现 对 应 的 设备 和 这 个 设 
备 已 经 识别 到 的 外 部 介质 了 。 


仔细 的 读者 可 以 发 现 ， 一 般 在 进入 系统 BIOS 配 置 界 面 之 前 ， 系 统 
BIOS 都 会 首先 完成 所 有 Optional ROM 的 执行 加 载 过 程 之 后 才 会 进入 配 
置 界面 ， 其 目的 就 是 为 了 收集 所 有 可 供 启动 的 外 设 列表 。 如 果 在 没有 加 
载 全 部 可 能 的 Optional ROM 之 前 就 进入 配置 界面 ， 则 用 户 也 不 会 看 到 对 
应 的 设备 ， 就 会 造成 不 便 。 





(1) 我 们 以 Qlogic 公 司 QLA2340 FC 卡 来 举例 。 开 机 后 按照 相关 提 
示 进 入 FC 卡 的 BIOS 配 置 界面 。 如 图 9-147 和 图 9-148 所 示 ， 选 择 需 要 配置 
的 卡 ， 进 入 之 后 ， 选 择 Configuration Settings 选 项 。 











图 9-147 ”选择 待 配置 的 卡 图 9-148 ”进入 Configuration Settings 








(2) 如 图 9-149 所 示 ， 进 入 之 后 ， 选 择 Adapter Settings 选 项 ， 出 现 
如 图 9-150 所 示 的 窗口 。 





图 9-149 ”选择 Adapter Settings 图 9-150 “Enable BIOS 


(3) 图 中 显示 的 Host Adapter BIOS 就 是 指 Optional ROM， 将 其 


Enable， 表 示人 允许 系统 BIOS 在 执行 的 过 程 中 加 载 。 退 出 ， 然 后 单 击 图 9- 
149 所 示 窗 口中 的 Selectable Boot Settings 来 选择 可 供 启动 的 LUN， 出 现 
如 图 9-151 所 示 的 窗口 ， 此 人 处， 选择 4 个 列表 中 的 第 一 个 ， 系 统 将 列 出 所 
识别 到 的 FC Target， 如 图 9-152 所 示 。 选 择 对 应 的 Target， 退 出 。 





图 9-151 进入 Selectable Boot 图 9-152 ”选择 识别 到 的 FC Target 


(4) 出 现 如 图 9-153 所 示 的 窗口 ， 这 个 窗口 列 出 了 这 个 FC Target 中 
所 包含 的 所 有 LUN 和 其 对 应 的 ID。 此 处 ， 选 择 LUN0， 退 出 ， 发 现 所 选 
择 的 LUN 已 经 出 现在 Boot List 中 ， 如 图 9-154 所 示 。 





图 9-153 ”进入 Selectable Boot 图 9-154 ”选择 识别 到 的 FC Target 


(5) 在 配置 完成 后 ， 退 出 FC 卡 BIOS 配 置 界面 并 重启 系统 ， 让 
Optional ROM 重 新 问 系统 BIOS 注 册 局 动 LUN 并 且 加 载 Optional ROM。 
这 样 便 可 以 从 LUN 局 动 操 作 系统 了 ， 如 果 操 作 系统 尚未 安装 ， 则 需要 通 
过 安装 盘 启动 后 ， 加 载 对 应 的 驱动 程序 ， 将 系统 安装 在 这 个 LUN 中 ， 如 
图 9-155 和 图 9-156 所 示 。 











图 9-155 ”进入 Selectable Boot 图 9-156 ”选择 识别 到 的 FC Target 


9.8 国产 中 高 端 FC 人 磁盘 阵列 


提 到 Infortrend 这 个 名 字 ， 圈 内 人 可 谓 无 人 不 知 无 人 不 晓 ， 但 是 圈 外 
人 可 能 知道 的 不 多 ， 因 为 他 们 的 产品 几乎 被 所 有 二 三 线 广 丙 OEM 过 ， 
在 国内 是 可 以 与 经 典 的 LSI 贴 牌 产品 平起平坐 的 。 这 类 产品 都 有 个 特 
点 ， 了 驶 是 中 规 中 矩 、 不 高 不 低 ， 该 有 的 都 有 ， 没 有 的 可 二 次 开 有 发， 硬件 
品质 和 做 工 优 民 ， 稳 定 可 靠 ， 特 别 适合 于 OEM 给 那些 把 持 着 市 场 和 渠 
道 能 力 但 是 却 苦 于 没有 产品 又 不 想 投 入 太 多 研发 成 本 的 厂商 。Infortrend 
也 算是 在 存储 界 打拼 了 20 年 的 老 厂商 了 ， 其 产品 也 不 知 被 多 少 其 他 后 入 
存储 界 的 厂商 研究 、 学 习 和 借鉴 过 ， 其 在 中 国 国 家 专利 局 有 40 多 项 专 
利 。 

















如 图 9-157 所 示 为 Infortrend 的 产品 Portfolio， 其 中 嘻 括 了 同时 支持 块 
和 文件 访问 方式 的 统一 存储 产品 和 ESDS 系 列 块 存储 产品 。 








图 9-157 ”Infortrend 产 品系 列 一 览 


提示 : ”ESDS4000 和 ESDS5000 系 列 在 落笔 时 即将 上 市 。ESVA 
系列 属于 高 端 存储 系统 。 我 们 将 会 在 本 书 NAS 一 章 里 介绍 
Infortrend 的 本 书 存储 产品 ， 在 集群 一 章 中 介绍 ESVA 特 殊 的 集 
群 方式 ， 在 容 灾 一 章 介 绍 Infortrend 的 容 灾 复制 技术 。 





Infortrend 的 FC 阵 列 产 品 分 为 两 个 系列 ， 一 个 是 中 低 端 EonStor 
DS (ESDS) 系列 ， 另 一 个 是 中 高 端 ESVA (Enterprise Scalable 
Virtualized Architecture ) 系列 。 


9.8.1 ”Infortrend 中 低 端 ESDS 系 列 存储 系统 


如 图 9-158 所 示 为 ESDS 系 列 的 几 种 规格 ， 其 中 包括 2U 2.5 寸 盘 24 往 
位 双 控 、2U 3.5 寸 各 12 檀 位 双 控 、3U 3.5 寸 盘 16 盘 位 双 控 、4U 3.5 寸 盘 24 
盘 位 双 控 ， 以 及 高 密度 的 4U 3.5 寸 盘 48/60 盘 位 双 控 。 








图 9-158 ESDS3000 各 种 规格 的 控制 器 








市 场 上 能 做 高 密度 盘 柜 的 厂商 不 太 多 ， 其 中 不 太 好 掌握 的 几 个 技术 
是 散热 和 在 线 热 插 拔 。 在 有 些 解 决 方案 中 热 插 拔 必须 把 上 机 箱 盖 全 部 打 
开 ， 并 且 要 么 抽出 整个 机 箱 〈 基 本 不 可 行 ， 太 沉 ) ， 要 么 机 箱 上 方 留 有 
足够 空间 ， 这 种 方案 在 维护 的 时 候 很 不 方便 。 而 另外 一 些 方案 将 磁盘 分 
为 多 个 组 ， 每 个 组 放 在 一 个 抽 层 里 ， 可 以 以 抽 层 为 单元 整个 拉 出 ， 然 后 
更 换 其 中 的 磁盘 。 整 个 抽 层 拉 出 的 时 候 ， 并 不 会 影响 该 抽 居 内 的 磁盘 IO 
访问 ， 这 就 需要 抽 居 与 控制 器 上 的 SAS 通 道 蕊 片 / 卡 之 间 仍 有 物理 连接 。 
一 般 是 通过 一 种 叫做 “坦克 链 ” 的 形态 实现 的 ， 或 者 也 可 以 称 之 为 脐带 。 
如 图 9-159 所 示 为 坦克 链 实 物 图 ， 这 种 设计 能 保护 和 稳定 SAS 和 电源 连 
线 ， 并 且 随 着 抽 居 的 推 入 可 以 收缩 到 原 有 空间 内 ， 非 常 方便 。 只 需要 注 
意 抽 出 和 插入 时 的 振动 控制 即 可 。 























图 9-159 ”坦克 链 实 物 图 














让 人 比较 惊讶 的 一 点 是 ，Infortrend 能 够 在 4U 空 间 内 容纳 60 块 3.5 寸 
磁盘 十 2 个 存储 控制 器 ， 这 在 业界 是 领先 的 。 如 图 9-160 所 示 为 各 种 规格 
控制 器 机 头 的 后 视图 。 扩 展 性 方面 ， 每 个 控制 器 均 提 供 一 个 可 更 换 的 通 
道 模 块 位 。 最 大 可 连接 5 个 磁盘 扩展 柜 ， 如 果 用 60 盘 位 的 高 密度 盘 柜 ， 
再 加 上 控制 器 自 带 的 60 盘 位 ， 总 共 可 以 接 入 360 盘 。 














图 9-160 ESDS3000 系 列 控制 器 后 视图 





早期 的 外 置 存 储 系统 都 是 使 用 电池 直接 保护 所 有 数据 缓存 ， 电 池 电 


量 有 限 ， 如 果 长 时 间 无 法 恢复 供电 ， 数 据 就 会 丢失 。 最 新 的 设计 一 般 都 
是 使 用 Flash 介 质 在 掉 电 之 后 永久 存储 数据 缓存 内 的 脏 数据 。 好 处 是 电池 
可 以 不 用 很 大 。 图 9-161 左 图 为 ESDS3000 的 备 电 模块 ， 包 含 电 池 和 一 块 
Flash 卡 ， 右 图 则 为 传统 备 电 方式 。 














图 9-161 ESDS3000 备 电 模 块 





ESDS3000 支 持 主流 的 存储 协议 ， 包 括 8G/16G FC、1/10GbE Eth、 
6Gb SAS， 并 且 提 供 了 各 种 通道 扩展 模块 ， 如 图 9-162 所 示 。 





图 9-162 ”ESDS3000 控 制 器 扩展 通道 模块 





9.8.2 ”Infortrend 中 高 端 ESVA 系 列 存 储 系 统 


ESVA 全 称 是 Enterprise Scalable Virtualized Architecture， 主 打 Scale- 
Out 和 虚拟 化 。 最 大 单 系统 可 以 Scale-Out 到 12 个 节点 ， 每 节点 400 块 盘 ， 
共 4800 租 ， 如 图 9-163 所 示 。 





图 9-163 ESVA 存 储 系统 


提示 :我 们 会 在 第 15 章 讲 集群 的 时 候 介 绍 ESVA 的 Scale-Out 和 
虚拟 化 方式 。 


如 图 9-164 所 示 为 ESVA 系 统 内 单个 节点 配置 ， 机 头 双 控 挂 了 一 批 扩 
展柜 ， 每 个 控制 器 提供 一 个 MiniSAS 后 端 接口 ， 可 以 串联 多 个 扩展 柜 ， 
前 端 则 提供 最 大 8 个 FC 接 口 和 4 个 Eth 接 口 。 

















图 9-164 ESVA 单 节点 示意 图 








9.8.3 ”Infortrend 存 储 软 件 特性 及 配置 界面 


在 软件 特性 方面 ，ESDS 和 ESVA 系 列 支 持 主流 技术 ， 比 如 快照 区 
隆 、 自 动 精简 配置 Thin Provision、 远 程 复 制 、 自 动 存 储 分 级 。 对 于 重 删 
这 种 非 主流 特性 ， 一 般 离线 或 者 近 线 存储 用 得 较 多 ， 不 支持 。 对 于 快 
照 ，ESDS 支 持 4096 个 ，ESVA 支 持 16000 个 ;对 于 自动 存储 分 级 ，ESDS 
支持 2 个 层级 ， 而 ESVA 支 持 4 个 层级 。 男 外 ，ESVA 还 支持 针对 Thin 卷 进 
行 NTFS/EXT2/EXT3 文 件 系 统 的 空间 回收 ， 这 一 点 难能可贵 。 





提示 : “我们 会 在 容 灾 的 章节 中 介绍 Infortrend 远 程 复制 技术 的 
一 些 特 o 








串口 是 比较 常见 的 配置 接口 ， 多 数 产 品 在 串口 配置 方面 做 得 是 比较 
粗 枝 大 叶 的 ， 有 些 只 提供 命令 行 接口 ， 人 机 交换 很 不 友好 。 令 人 欣慰 的 
是 Infortrend 提 供 了 采 单 模式 的 配置 方式 ， 极 大 增强 了 便捷 性 ， 这 一 点 挺 
难得 的 ， 如 图 9-165 所 示 。 


图 9-165 ”串口 菜单 配置 方式 








同时 ，Infortrend 的 SANWatch GUI 图 形 界 面 ， 其 实 是 Infortrend 的 一 
个 软件 套件 ， 其 包含 了 Storage Manager、Replication Manager、 
Virtualization Manager、Disk Performance Monitor、EonPath 多 路 径 软件 
以 及 应 用 快照 一 致 性 代理 组 件 。 








图 9-166 ”SANWatch 套 件 





SANWatch 可 以 让 用 户 用 HTTP 方 式 通过 Web 页 面 来 配置 存储 系统 ， 
如 图 9-167 一 图 9-169 所 示 。 可 以 看 到 其 显示 的 元 素 还 是 很 多 样 化 的 ， 更 
加 注重 用 户 体验 ， 在 如 今 互 联网 大 潮 下 ， 还 是 能 够 跟 得 上 时 代 的 。 














图 9-167 ”GUI 图 形 界面 (1) 





图 9-168 GUI 图 形 界面 (2) 











图 9-169 GUI 图 形 界面 (3) 


9.9 小结 


磁盘 阵列 的 前 器 和 后 端 用 FC 网 络 作为 通路 取代 原来 的 并 行 SCSI 通 
路 技术 ， 获 得 了 极 大 的 成 功 ! 如 果 说 将 主机 通道 符 换 成 FC 通 路 只 能 称 
为 半 网 络 的 话 ， 那 么 将 一 个 个 磁盘 作为 FC 网 络 上 的 节点 对 符 ， 可 就 是 
彻 彻 底 底 的 网 络 化 存储 系统 了 。 这 也 目 然 前 释 了 了 “网络 存 储 ” 和 "“ 存 储 网 
络 ” 的 概念 。 


提示 : ”此 时 ， 我们 再 来 看 本 书 第 2 章 中 所 描述 的 那个 “网 中 有 
网 ”的 模型 ， 可 以 看 到 ， 整 个 系统 ， 所 有 通路 ， 都 可 以 说 是 网 
络 化 的 了 ， 只 不 过 CPU 内存 总 线 和 主机 IO 总 线 应 该 算是 半 网 
络 化 ， 只 是 一 个 总 线 ， 上 面 没 有 网 络 化 所 特有 的 “协议 ”和 “ 开 
销 ”、 包 交换 等 词汇 。 


目前 ，NGIO (Next Generation IO) 已 经 提 上 上 日程。 这 种 架构 就 是 
将 主机 IO 总 线 甚至 内 存 总 线 都 用 交换 式 网 络 来 连接 。 可 想 而 知 ， 这 个 交 
换 网 络 速 率 肯 定 很 高 ， 稳 定性 和 可 扩展 性 也 很 强 。 











到 了 Next Generation 时 代 ， 内 存 、CPU 和 各 种 IO 设备 可 以 在 地 理 上 
相隔 很 远 ， 甚 至 可 以 通过 网 络 共 享 。 内 存 可 以 不 仅仅 被 一 个 CPU 使 用 ， 
多 个 CPU、 多 个 内 存 、 多 个 10 控制 器 之 间 都 是 点 对 点 交换 式 互 联通 信 。 
这 是 一 个 很 有 吸引 力 的 课题 ， 就 像 存 储 网 络 化 一 样 。 对 于 存储 网 络 化 ， 
位 于 A 地 的 主机 可 以 识别 并 使 用 远 在 相 隅 千里 的 B 地 一 台 盘 阵 上 的 
LUN。 那 么 对 于 网 络 化 的 系统 总 线 ，A 地 的 CPU 可 以 访问 位 于 B 地 的 内 
存 阵列 或 者 位 于 B 地 的 某 个 IO 控制 器 ， 它 们 之 间 都 通过 网 络 相 连 











说 明 : 有 人 将 上 面 描述 的 架构 ， 称 为 System Area Network， 即 


SAN (系统 区 域 网 络 ) 。 有 意思 的 是 ， 它 和 Storage Area 
Network 的 简称 同名 。 


目前 基于 PCI-E 网 络 的 MR-IOV 已 经 逐步 形成 标准 ， 包 括 
Infiniband、NGIO、FutureIO 在 内 的 多 种 太 过 超前 的 “将 计算 机 总 线 长 出 
主机 外 面 ” 的 想法 ， 现 在 看 来 都 没有 成 为 主流 。 那 么 这 次 依赖 开放 式 低 
成 本 高 速 的 PCI-E 通 道 技 术 而 生 的 MR-IOV， 同 样 也 是 这 个 目的 ， 它 是 否 
能 够 发 展 为 主流 并 促成 革命 ， 让 我 们 拭目以待 ! 





第 10 章 ”三 足 易 立 一 DAS、SAN 
和 NAS 
四 DAS 
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FC 已 经 成 功 地 将 传统 的 磁盘 阵列 改造 成 了 彻底 网 络 化 传输 的 磁盘 
阵列 ， 不 仅 从 盘 阵 到 主机 的 通路 成 了 网 络 化 ， 就 连 盘 阵 后 端 控制 右 到 磁 
盘 的 连接 也 被 彻 确 网络 化 了 。 尤 其 对 盘 阵 后 端的 改革 更 是 一 个 惊人 的 创 
举 ! 








盘 阵 后 端的 网 络 化 使 可 接 入 磁盘 节点 数 大 大 增加 ， 可 扩展 性 大 大 增 
强 。 一 时 间 各 个 广 家 纷纷 制造 出 自己 的 盘 阵 ， 由 于 后 端 接 入 容量 增加 ， 
这 些 盘 阵 不 是 几 个 磁盘 箱 就 能 放下 的 了 ， 扬 们 动 辑 就 要 占用 几 个 大 机 
柜 。 机 房 中 占 地 最 大 的 往往 就 是 存储 设备 ， 而 不 是 主机 设备 。 





存储 区 域 网 络 (Storage Area Network，SAN) 这 个 概念 ， 直 到 FC 
革命 成 功 之 后 ， 其 意义 才 真正 体现 出 来 ， 存 储 才 真正 走向 了 网 络 化 。 在 
广义 中 ， 各 种 存储 架构 都 可 以 称 为 9AN， 因 为 耽 算 直接 连 到 主板 上 的 
IDE 通 道 也 可 以 连接 两 块 磁盘 。 从 这 种 意义 上 说 ， 它 就 是 一 个 2 节点 网 
络 。 


10.1 NAS 也 疯狂 





武当 万 张 真人 所 创 。 想 当年 ， 张 真人 就 是 在 武当 创立 了 卷 管理 和 文 
件 系统 的 伟大 理论 ! 如 今 ， 张 真人 已 经 逝去 多 年 。 然 而 ， 他 的 理论 却 被 
广泛 地 应 用 着 ， 而 且 深 入 人 心 。 不 过 ， 没 人 会 退 完 起 到 底 是 谁 创立 了 这 
些 理论 ， 因 为 它 太 广泛 了 ,广泛 地 以 至 于 没有 人 去 理会 它 了 。 


10.1.1 “另辟蹊径 一 ” 乱 谈 NAS 的 起 家 


武当 也 跟 上 了 时 代 的 变化 ， 不 但 本 和 喘 的 体制 从 公有 制 改 成 了 股份 
制 ， 而 且 重 事 会 还 决定 将 武当 仓库 全 面 对 外 开放 ， 利 用 一 切 可 以 利用 的 
手段 盘 利 。 除 去 货币 贬值 的 因素 ， 收 费 比 张 真人 时 代 趴 出 了 好 几 倍 。 利 
润 大 部 分 属于 武当 重 事 长 瓜 重 ， 剩 下 的 除了 给 员工 开 点 工资 外 ， 全 部 用 
来 扩容 仓库 和 加 强 仓 库 建设 ， 以 获取 更 大 的 利润 。 














下 


1. 武当 仓库 简要 介绍 

武当 仓库 是 一 个 历史 您 入 、 源 远 流 长 的 大 型 仓库 ， 其 创始 人 是 张 真 
人 。 起 初 只 是 为 了 满足 武当 本 派 存 放贷 物 使 用 ， 后 来 对 外 开放 。 仓 库 分 
为 8 个 库 区 ， 每 个 库 区 中 又 有 不 计 其 数 的 房间 。 整 个 仓库 配备 了 两 名 仓 
库 管理 员 ， 各 自 管理 4 个 库 区 。 一 旦 某 个 管理 员 请 假 不 能 到 岗 ， 另 外 一 
位 管理 员 就 要 暂时 管理 全 部 库 区 。 仓 库 共 有 东西 两 道 大 门 ， 各 由 一 位 库 
管 员 把 守 。 仓 库 地 理 位 置 优越 ， 其 前 方丈 是 一 个 立交 桥 大 枢纽 系统 ， 当 
地 路 政 部 门 给予 武 当 极其 优越 的 条 件 ， 专 门 为 武当 仓库 的 两 道 大 门 修了 
能 直通 大 枢纽 的 高 速 路 。 








武当 仓库 当前 的 运作 模式 如 图 10-1 和 图 10-2 所 示 。 








图 10-1 武当 仓库 当前 运作 模式 图 10-2 ”当前 后 端 存储 网 络 染 构 














自从 武当 仓库 宣布 对 外 全 面 开放 后 ， 短 短 的 一 天 内 ，8 个 库 区 全 部 
被 预 售 一 空 。 买 家 当然 部 是 赫赫 有 名 的 大 门派 ， 因 为 也 只 有 他 们 才 出 得 
起 高 价 。 


由 于 体 改 的 时 候 ， 当 年 被 张 真人 看 好 的 微软 道 长 被 瓜 芋 打发 回 家 
了 ， 所 以 现在 武当 仓库 只 有 两 位 根据 提货 单 和 入 库 单 进行 取 货 、 存 货 的 


库 管 员 。 





当前 武当 提货 单 /存货 单 格式 如 图 10-3 所 示 。 




















图 10-3 ”当前 武当 仓库 货 六 

















每 个 门派 都 通过 交通 枢纽 来 加 武当 仓库 存 取 货物 。 武 当 存 取 货 物 的 
单据 上 没有 对 货物 属性 的 描述 ， 仓 库 管 理 员 只 需 根据 货物 存 取 单 据 上 描 
述 的 房间 号 段 来 将 对 应 的 货物 取出 或 者 存 入 ， 而 不 管 这 些 货 物 是 什么 ， 
有 多 少 。 


所 以 ， 每 个 门派 要 有 一 个 理 货 员 ， 这 个 理 货 员 知道 什么 货 应 该 去 哪 
些 房 间 提 取 ， 以 及 有 多 少 个 空闲 房间 。 他 目 己 保留 了 一 个 房间 使 用 情况 
图 ， 每 当 本 门派 需要 提取 什么 货物 ， 理 货 员 就 根据 这 个 对 应 图 计算 出 货 
物 对 应 的 存储 房间 ， 然 后 填写 武当 仓库 货物 存 取 单 交 给 仓库 管理 员 ， 管 
理 员 将 对 应 房间 中 的 所 有 货物 交 给 理 货 员 ， 理 货 员 在 将 货物 整理 好 后 交 
给 本 门派 使 用 。 存 货 的 过 程 也 类 似 ， 理 货 员 记录 好 货物 要 存 入 的 房间 ， 
然后 填写 货物 存 取 单 ， 将 存 取 单 和 货物 区 给 仓库 管理 员 。 管 理 员 根 据 房 
间 的 号 码 将 货物 依次 放 入 对 应 房间 。 值 得 说 明 的 是 ， 货 物 存 取 单 上 的 房 
间 必 须 是 连续 的 ， 不 允许 断 开 存放 。 连 续 的 房间 数量 最 大 是 128 个 ， 超 





























过 128 个 房间 的 货物 ， 就 需要 填写 多 张 货物 存 取 单 了 ， 如 图 10-4 所 示 。 











图 10-4 填 好 的 货 单 











武当 瓜 董 天 天 研究 着 怎么 从 现 有 的 资源 中 ， 榨 取 最 后 一 润 利润。 经 
过 调查 ， 他 发 现 各 门派 都 养 着 一 名 理 货 员 。 瓜 董 心 想 其 他 门派 一 定 也 很 
头疼 ， 能 少 养 人 就 少 养 人 。 这 天 晚上 ， 反 复 琢 磨 ， 他 终于 想到 一 个 绝 
招 。 由 于 各 门派 目前 部 养 着 一 名 理 贷 员 ， 他 们 要 付 劳 务 费 。 如 果 用 武当 
的 人 来 充当 理 贷 员 ， 卖 服务 给 各 门派 。 而 每 个 门派 都 会 付 一 份 劳 务 费 给 
我 ， 而 我 只 需要 付 一 份 工 资 给 理 货 员 就 可 以 了 。 真 是 一 本 万 利 啊 ! 











男 外 ， 由 于 江湖 政府 换届 时 ， 瓜 董 没有 搞 好 关系 ， 使 武当 每 月 需要 
器 江 湖 政府 缴纳 高 额 的 高 速 公 路 使 用 费 ， 这 证 一 癌 以 节省 成 本 著称 的 瓜 
重 舌 不 堪 言 。 瓜 和 芋 决 定 抛 痉 高 速 公路 ， 使 用 普通 公路 。 


值得 称赞 的 是 ， 瓜 董 不 是 个 爱面子 的 人 ， 他 为 了 节省 成 本 ， 可 以 不 
惜 一 切 代 价 。 他 杀 自 把 微软 道 长 请 回 了 武当 ， 让 他 担任 仓库 理 货 大 总 管 
职务 。 随 后 ， 瓜 董 联系 了 各 门 各 派 掌 门 人 ， 让 他 们 把 理 货 的 工作 外 包 给 
武当 做 ， 友 务 费 比 原来 有 所 优惠。 各 门派 都 同意 了 。 








微软 道 长 手下 可 以 有 多 个 分 管 。 各 个 门派 使 用 的 货物 记录 方式 并 不 
相同 ， 大 部 分 门派 使 用 的 是 微软 道 长 所 创立 的 NTFS 记 录 方 式 ， 而 有 些 
则 使 用 的 是 少林 雷 牛 大 师 所 创 的 EXT 格 式 。 既 然 要 将 货物 记录 服务 全 部 
外 包 给 武当 ， 那 么 微软 道 长 无 疑 要 将 所 有 这 些 门派 使 用 的 记录 方式 都 实 
现 ， 从 而 为 每 个 门派 服务 。 微 软 道 长 逆 发 布告 示 ， 广 招 天 下 贤士 来 任职 
分 管 职务 ， 每 个 分 管 管理 其 各 自 的 货物 记录 方式 。 图 10-5 和 图 10-6 为 改 
制 之 后 的 仓库 管理 模式 。 











五 








图 10-5 ”改制 之 后 的 仓库 架构 图 10-6 ”改制 之 后 的 后 端 存 储 网 络 架 构 








2. 改制 之 后 的 仓库 架构 


武当 仓库 经 过 这 样 的 改造 之 后 ， 功 能 更 加 强大 了 。 唯 一 不 足 的 是 为 
了 节省 成 本 将 原本 局 成 本 的 高 速 公 路 奉 换 成 了 普通 公路 。 





原来 的 单据 显然 不 适合 仓库 当前 的 运作 模式 了 ， 仓 库 的 货物 存 取 单 
也 改版 了 ， 如 图 10-7 所 示 。 





图 10-7 ”改制 之 后 的 货 单 


从 武当 仓库 整改 之 后 的 新 单据 中 可 以 发 现 ， 现 在 各 个 门派 只 要 告诉 
武当 仓库 的 理 货 员 需 要 什么 货物 及 多 少数 量 束 可 以 了 ， 完 全 不 用 记录 这 
些 货物 实际 放 到 了 哪个 房间 ， 在 哪里 及 怎么 去 这 些 内 容 。 计 算 这 些 复杂 
的 对 应 关系 的 工作 完全 移交 给 了 武当 仓库 理 货 员 来 做 。 理 货 员 计算 好 之 
后 ， 生 成 提货 /存货 单 ， 交 给 库 管 员 ， 直 接 去 对 应 房间 提 / 存 货物 。 理 货 
员 与 库 管 员 之 间 的 交互 ， 速 度 快 了 很 多 ， 因 为 完全 是 在 仓库 内 部 进行 通 
信 了 ， 不 需要 跨越 缓慢 的 公路 交通 系统 。 




















经 过 实践 ， 瓜 芋 的 这 套 做 法 还 真 取得 了 显著 成 效 ， 各 门派 无 须 雇用 
理 货 员 ， 无 须 文 付 郧 贵 的 高 速 费 ， 贡 省 了 成 本 。 同 时 ， 瓜 痢 也 及 了 财 。 
不 过 唯一 不 足 的 是 对 于 普通 公路 进行 货运 的 速度 ， 各 门 小 不 太 满 意 。 但 
征 相 对 于 成 本 大 大 降低 和 便捷 带 来 的 好 处 ， 各 门派 也 只 有 牺牲 速度 了 。 


10.1.2 ”双管齐下 一 一 两 种 方式 访问 的 后 端 存储 网 络 











但 是 有 的 仓库 租用 者 对 这 种 方案 并 没有 兴趣 ， 他 们 不 但 退 求 速度 ， 
而 且 情 愿 用 上 自己 的 理 贷 员 ， 也 不 相信 仓库 提供 的 理 贷 员 。 这 种 客户 得 罪 
不 起 ， 那 么 就 给 他 单独 的 政策 ， 还 是 采用 原来 的 方式 使 用 仓库 ， 和 新 方 





式 互 不 影响 。 在 仓库 前 面 开 尽 了 新 的 道路 去 接 入 高 速 枢纽 。 这 样 就 满足 
了 两 种 不 同 的 需求 ， 如 图 10-8 和 图 10-9 所 示 。 








图 10-8 ” 旁 路 传统 访问 图 10-9 ”两 种 方式 访问 的 后 端 存储 网 络 





10.1.3 ”万物 归 一 一 一 网 络 文件 系统 


微软 老道 在 吸取 瓜 董 的 思想 之 后 ， 终 于 创立 了 自己 的 理论 。 武 当 的 
仓库 就 像 一 个 大 的 卷 ， 一 个 大 的 磁盘 阵列 。 它 可 以 划分 出 多 个 LUN 供 多 
个 使 用 者 使 用 。 而 每 个 使 用 者 必须 有 目 己 的 文件 系统 ， 因 为 这 个 LUN 只 
古 一 个 苍 设 备 ， 只 提供 了 不 计 其 数 的 房间 存放 货物 。 至 于 怎么 存放 货 
物 。 需 要 由 使 用 者 自己 决定 和 管理 ， 也 就 是 用 文件 系统 来 管理 卷 ， 像 理 
货 员 作 货物 记录 一 样 。 








微软 老道 把 瓜 董 的 思想 用 在 了 存储 上 ， 他 把 文件 系统 的 功能 从 使 用 
者 处 迁移 到 了 磁盘 阵列 之 上 ， 让 磁盘 阵列 目 己 管理 存储 空间 。 而 对 外 提 
供 统 一 的 用 户 接口 “货物 存 取 单 据 v2.0) ， 使 得 使 用 者 不 用 再 记录 某 某 
文件 和 卷 上 而 区 或 者 艇 块 的 对 应 关系 ， 这 个 工作 统统 由 盘 阵 上 的 集中 式 
文件 系统 模块 处 理 。 使 用 者 只 需 通 过 网 络 告诉 这 个 文件 系统 需要 存 取 什 
么 文件 ， 长 度 是 多 少 就 可 以 了 。 具 体 存 取 数 据 的 过 程 ， 由 集中 式 文件 系 
统 来 做 ， 使 用 者 只 需 等 待 接收 数据 就 可 以 了 。 同 样 ， 在 存 文件 的 时 候 ， 
使 用 者 只 需 告 诉 文件 系统 要 存 哪些 数据 ， 提 供 一 些 文件 名 、 长 度 、 哪 个 
目录 下 等 信息 就 可 以 了 ， 人 至 于 文件 存 到 卷 的 哪些 空余 鹿 区 完全 由 盘 阵 上 
的 文件 系统 逻辑 来 处 理 ， 使 用 者 不 必 关 心 。 

















位 于 盘 阵 上 的 集中 式 文件 系统 得 益 于 包 交 换 网 络 ， 可 以 同时 处 理 多 
个 使 用 者 的 请 求 。 它 可 以 给 每 个 使 用 者 提供 各 目的 文件 夹 目录 ， 并 且 可 
以 为 这 些 目录 限定 允许 存放 的 最 大 数据 量 。 总 之 ， 文 件 系统 可 以 实现 的 








任何 功能 都 可 以 在 盘 阵 上 实现 。 
1. 网 络 文件 系统 


使 用 者 如 何 与 盘 阵 上 的 集中 式 文 件 系统 进行 交互 呢 ? 当然 是 通过 网 
络 来 传递 数据 。 由 于 一 直 以 来 的 习惯 ， 以 太 网 加 TCP/IP 成 为 了 首选 的 网 
络 方式 。 除 了 底层 传输 网 络 ， 还 必须 定义 上 层 的 应 用 逻辑 。 


针对 上 层 逻 辑 ， 微 软 定 义 了 自己 的 一 套 规范 ， 岂 做 CIFS (Common 
Internet File System) ， 意 思 是 Internet 范 围 的 FS。Linux 和 UNIX 系 统 使 
用 了 男 一 种 方式 ， 称 为 NFS (Network File System) ， 这 些 上 层 协 议 都 
征 利用 TCP/AP 协 议 进行 传输 的 。 


以 上 描述 的 模型 统称 为 “网 络 文件 系统 ”。 这 种 文件 系统 逻辑 不 是 在 
本 地 运行 ， 而 是 在 网 络 上 的 其 他 节点 运行 ， 使 用 者 通过 外 部 网 络 将 读 写 
文件 的 信息 传递 给 运行 在 远 端 的 文件 系统 ， 也 就 是 调用 远程 的 文件 系统 
模块 ， 而 不 是 在 本 地 内 存 中 调用 文件 系统 的 API 来 进行 。 所 以 网 络 文件 
系统 又 叫做 远程 调用 式 文件 系统 ， 也 就 是 RPC FS (Remote Procedure 
Call File System ) 。 








相对 于 SAN 来 说 ， 这 种 网 络 文件 系统 不 仅 磁盘 或 卷 在 远程 节点 上 ， 
连 文件 系统 功能 也 搬运 到 了 远程 节点 上 。 本 地 文件 系统 可 以 直接 通过 主 
板 上 的 导线 访问 内 存 来 调用 其 功能 。 而 网 络 文件 系统 只 能 通过 网 络 适 配 
器 上 连接 的 网 线 而 不 是 主板 上 的 导线 来 访问 远 端 的 文件 系统 功能 。 


网 络 文件 系统 在 网 络 上 传递 的 是 些 什么 内 容 呢 ? 下 面 用 抓 包 的 方式 
来 分 析 一 下 。 


2. CIFS 协 议 网 络 包 分 析 


在 某 个 用 CIFS 访 问 方式 的 目录 下 新 建 一 个 文本 文档 ， 然 后 将 它 删 
除 。 此 过 程 中 抓 取 网 络 流量 。 在 CIFS 方 式 下 ， 仅 仅 上 述 两 个 动作 ， 就 引 
发 了 网 络 上 数 百 个 包 的 流量 〈 如 图 10-10 所 示 ) ， 可 见 CIFS 是 一 个 开销 
非常 大 的 NAS 协 议 。 这 里 就 不 一 一 分 析 每 个 包 了 。 


图 10-10 ”CIFS 协 议 交 互 的 数据 包 
3. NFS 协 议 网 络 包 分 析 


在 一 台 Linux 客 户 端 上 使 用 NFSv3 来 Mount 一 台 NFS 服 务 占 上 的 某 个 
目录 到 本 地 的 /mnt 目 录 下 。 进 入 这 个 目录 ， 然 后 用 touch a 命令 来 创建 一 
个 名 为 a 的 文件 ， 然 后 执行 vi a， 进 入 编辑 模式 ， 不 作 任 何 修改 ， 退 出 ， 
之 后 用 rm a 命令 来 删除 这 个 文件 。 其 间 抓 取 网 络 上 的 流量 。 


提示 :”10.128.132.45 是 NFS 客 户 端 的 IP 地 址 ，10.128.132.175 是 
NFS 服 务 器 端的 人 P 地 址 。 分 析 结 果 已 经 去 除了 不 必要 的 TCP 包 
以 及 TCP_ACK 等 包 。 





图 10-11 显 示 的 是 这 个 过 程 中 网 络 上 双方 所 交互 的 主要 数据 包 。 
图 10-11 NFS 方 式 下 网 络 上 的 数据 包 


可 以 看 到 ，NFS 协 议 的 开销 远 远 小 于 CIFS 协 议 。 完 成 相似 动作 ， 
NFS 只 需要 交互 十 儿 个 包 即 可 。 下 面 来 分 析 每 个 包 的 作用 。 








Framel 《如 图 10-12 所 示 〉: 客户 端 在 创建 文件 之 前 ， 首 先 做 了 一 
次 lookup 操 作 ， 来 查找 当前 目录 中 是 否 已 经 有 同名 文件 ， 如 果 有 ， 则 拒 
绝 创建 。 图 中 的 DH 表示 Directory Handle， 是 一 个 32 字 节 长 的 字段 ， 这 
个 值 用 来 指 代目 录 名 称 。 在 第 一 次 访问 某 个 目录 时 ，NFS 服 务 端 会 动态 














分 配 这 个 值 ， 将 其 通知 给 客户 端 。 随 后 的 访问 请 求 中 ， 客 户 端 将 使 用 这 
个 值 而 不 是 目录 名 称 来 加 NFS 服 务 端 发 起 针对 这 个 目录 的 请 求 。 








图 10-12 ”客户 端的 Lookup 请 求 





提示 : 图 中 DH 值 的 hash 值 为 0x98f8d6bb， 为 了 表示 方便 ， 抓 
包 软 件 将 其 hash 成 一 个 4 字 节 的 值 ， 这 个 hash 值 并 不 是 存在 于 网 
络 包 中 的 。 本 例 中 ，/mnt 目 录 被 指定 的 DH 值 的 hash 值 就 是 
0x98f8d6bb。 


Frame2 (如 图 10-13 所 示 ) : 为 NES 服务 端 对 Framel1 的 回应 。 通 过 
ERR_NOENT 可 以 判断 出 当前 目录 并 没有 名 为 a 的 文件 。 











图 10-13 ”Lookup 请 求 的 回应 


Frame4 (如 图 10-14 所 示 ) : 客户 端 随即 发 起 了 “Create ”Call*”， 创 
建 “a” 文 件 。 





图 10-14 ”客户 端的 Create 请 求 

















Frame5 〈 如 图 10-15 所 示 ) : NFS 服 务 端 对 客户 端 Frame4 的 回应 。 
创建 成 功 ， 服 务 端 返回 File Handle (FH)〉 的 hash 值 为 0xf03ce91c。FH 与 
DH 一 样 ， 在 数据 包 中 实际 上 也 为 一 个 32 字 市 长 的 字段 。 为 了 表示 方 
便 ， 抓 包 软 件 将 其 hash 成 一 个 4 字 节 的 值 。 随 后 的 交互 中 客户 端 不 会 用 
文件 名 来 向 服务 端 请 求 操 作 ， 而 全 部 用 这 个 File Handle 来 指 代 。 





图 10-15 Create 请 求 的 回应 





Frame6〈 如 图 10-16 所 示 ) : 文件 “a” 创 建成 功 之 后 ， 出 于 保险 起 
见 ， 应 用 程序 一 般 都 会 紧 接 着 查询 一 下 文件 属性 ， 顺 便 确 认 文 件 是 否 创 





建成 功 。 “GetAttr _ Call” 就 是 用 来 查询 文件 属性 用 的 一 种 RPC call。 从 图 
中 可 以 看 到 对 应 的 FH 值 为 0xf03ce91c，NFS 服 务 端 收 到 这 个 值 就 会 自动 
对 应 成 文件 “a”。 








图 10-16 客户 端的 GetAttr 请 求 


Frame7 〈 如 网 10-17 所 示 ) : NFS 服 务 端 对 Frame6 的 回应 。 包 中 可 
以 看 到 文件 的 umask 访 问 权 限 以 及 atime、mtime、ctime 属 性 。 











图 10-17 ”GetAttr 请 求 的 回应 





Frame8〈 如 图 10-18 所 示 ) : 紧 接着 NFS 客 户 端 发 起 了 一 个 查询 /mnt 
目录 属性 的 请 求 。 因 为 Handle 的 值 为 0x98f8d6bb， 所 以 可 以 判断 这 个 
GetAttr Call 是 针对 /mnt 目 录 的 。 


图 10-18 ”客户 端 针对 /mnt 目 录 的 GetAttr 请 求 




















Frame9〈 如 图 10-19 所 示 ) : NEFS 服 务 端 对 Frame8 的 回应 。 


图 10-19 ”针对 GetAttr 请 求 的 回应 























Frame10 〈 如 图 10-20 所 示 ) : NFS 客 户 端 发 起 一 个 在 /mnt 目 录 中 查 
找 文 件 “a” 的 请 求 。 这 里 由 于 是 查找 操作 ， 客 户 端 会 假设 不 知道 “a” 文 件 
的 FH 值 ， 而 只 知道 /mnt 目 录 的 DH 值 ， 所 以 文件 名 “a” 使 用 的 就 是 ASCII 
码 的 “a”。 








图 10-20 ”客户 端的 Lookup 请 求 


Frame11 (如 图 10-21 所 示 )〉 : NEFS 服 务 端 根据 Frame10 中 请 求 的 回 
应 找到 这 个 文件 ，FH 值 是 0xf03ce91c。 








图 10-21 ”针对 Lookup 请 求 的 回应 


Frame12 〈 如 图 10-22 所 示 ) : NFS 客 户 端 发 起 一 个 SetAttr Call 的 请 
求 ， 这 个 请 求 的 目的 是 为 了 改变 文件 属性 。 可 以 看 到 客户 端 请 求 将 文件 
的 atimne 和 mtime 改 为 服务 端 当前 的 系统 时 间 。 








图 10-22 ”客户 端的 SetAttr 请 求 


Frame13 〈 如 图 10-23 所 示 ) : 对 Frame12 的 回应 。 可 以 看 到 atime、 
ctime 在 之 前 和 之 后 的 不 同 ， 当 然 ， 时 间 差 别 都 在 微 秒 级 ， 因 为 这 一 连 
串 的 请 求 其 实 是 在 很 短 的 时 间 里 发 出 去 并 得 到 应 答 的 。 





图 10-23 ”针对 SetAttr 请 求 的 回应 








Frame15《〈 如 图 10-24 所 示 ) : 由 于 在 客户 端 执 行 了 “rm a” 的 命令 ， 
所 以 客户 并 发 起 一 个 对 /mnt 目 录 的 访问 请 求 。 其 实 客户 端 在 抓 包 期 间 一 
直 处 于 /mnt 目 录 中 ， 人 至 于 为 何 要 重新 发 起 Access 请 求 ， 与 具体 应 用 程序 
的 代码 有 关 ， 可 能 开发 者 为 了 确认 /mnt 目 录 的 DH 值 没有 过 期 ， 所 以 重 
新 试探 访问 。 











图 10-24 客户 端 针 对 /mnt 目 录 的 Access 请 求 





Frame16 〈 如 图 10-25 所 示 ) : NFS 服 务 端 对 Frame15 的 回应 。 


图 10-25 ”针对 Access 请 求 的 回应 




















Frame18 (如 图 10-26 所 示 )〉 : 此 时 ， 客 户 端 由 于 输入 了 “rm a” 合 
令 ， 所 以 客户 端 首 先 要 碍 询 一 下 文件 “a” 的 权限 ， 因 此 客户 问 发 起 一 个 
GetAttr 的 请 求 来 查询 文件 “a” 的 权限 。 








图 10-26 客户 端的 GetAttr 请 求 


Frame19 〈 如 图 10-27 所 示 ) : NFS 服 务 端 对 Frame18 的 回应 。 


图 





10-27 ”针对 GetAttr 请 求 的 

















回应 





Frame20 (如 图 10-28 所 示 )〉 : NEFS 客 户 端 发 起 对 文件 “a” 的 Access 请 
求 。 至 于 为 何在 删除 文件 之 前 要 发 起 Access 请 求 ， 与 编码 习惯 有 关 。 





图 10-28 客户 端的 Access 请 求 














Frame21 (如 图 10-29 所 示 ) : NFS 服 务 端 对 Frame20 的 回应 。 











图 10-29 ”针对 Access 请 求 的 回应 











Frame23 〈 如 图 10-30 所 示 ) : NFS 客 户 端 发 起 Remove 请 求 。 可 以 看 
到 Remove 请 求 中 并 没有 使 用 FH， 而 是 直接 使 用 了 文件 名 。 








图 10-30 客户 端的 Remove 请 求 





Frame24 〈 如 图 10-31 所 示 ) : NFS 服 务 端 对 Frame23 的 回应 。 





图 10-31 ”针对 Remove 请 求 的 回 


过 





可 以 看 到 ， 基 于 NAS 的 数据 访问 ， 客 户 端 并 不 关心 文件 存放 在 磁盘 
的 哪些 扇 区 ， 这 些 逻 辑 全 部 由 NAS 服 务 端 处 理 ， 客 户 端 向 NAS 设 备 发 送 
的 只 有 各 种 文件 操作 请 求 以 及 实际 的 文件 流 式 数据 。 


提示 : 大 家 可 以 在 12.4 节 看 到 有 关 ISCSI 的 抓 包 分 析 ， 可 以 作 





一 下 对 比 ， 两 者 交互 的 语言 完全 不 同 。 





10.1.4 关 其 名 日 一 一 NAS 


这 种 带 有 集中 式 文件 系统 功能 的 盘 阵 叫做 网 络 附 加 存储 (Network 
Attached Storage, NAS) 。 


提示 : NAS 不 一 定 是 盘 阵 ， 一 台 普 通 的 主机 就 可 以 做 成 
NAS， 只 要 它 自己 有 磁盘 和 文件 系统 ， 而 且 对 外 提供 访问 其 文 
件 系统 的 接口 〈 如 NFS、CIFS 等 ) ， 它 就 是 一 台 NAS。 常 用 的 
Windows 文 件 共享 服务 器 就 是 利用 CIFS 作 为 调用 接口 协议 的 

NAS 设 备 。 一 般 来 说 ，NAS 其 实 就 是 处 于 以 太 网 上 的 一 台 利 用 
NEFS、CIFS 等 网 络 文件 系统 的 文件 共享 服务 器 。 至 于 将 来 会 不 
会 有 FC 网 络 上 的 文件 提供 者 ， 也 就 是 FC 网 络 上 的 NAS， 就 要 
看 是 否 有 人 尝试 了 。 





1. SAN 和 NAS 的 区 别 


前 面 说 过 ，SAN 是 一 个 网 络 上 的 磁盘 ，NAS 是 一 个 网 络 上 的 文件 系 


提示 : 根据 SAN 的 定义 ， 即 “存储 区 域 网 络 *”，SAN 其 实 只 是 一 
个 网 络 ， 但 是 这 个 网 络 内 包含 着 各 种 各 样 的 元 素 ， 如 主机 、 适 
配器 、 网 络 交 换 机 、 磁 盘 阵 列 前 端 、 盘 阵 后 端 、 磁 盘 等 。 应 该 
说 ，SAN 是 一 个 最 大 的 范围 ， 涵 盖 了 一 切 后 端 存储 相关 的 内 
容 。 所 以 从 这 个 角度 来 看 ，SAN 包 含 了 NAS， 因 为 NAS 的 意思 
是 “网 络 附加 存储 ”， 它 说 的 是 一 种 网 络 存储 方式 ， 这 样 它 束 没 
有 理由 不 属于 SAN 的 范畴 。 有 所以， 我 认为 SAN 包 含 NAS。 长 时 
间 以 来 ， 人 们 都 用 SAN 来 特 指 FC， 特 指 远 端的 磁盘 。 那 么 ， 
假设 设计 出 一 种 基于 FC 网 络 的 NAS， 此 时 SAN 代 表 什 么 呢 ? 





会 产生 滑稽 的 矛盾 。 但 是 ， 似 乎 还 真 想 不 出 一 种 更 简便 、 更 直 
观 的 叫 法 来 称呼 “FC 网 络 上 的 磁盘 ”这 个 事物 。 到 此 我 也 陷入 定 
义 的 洲 涡 了 ， 所 以 我 们 最 好 还 是 入 乡 随 俗 。 本 书 之 后 的 文字 

中 ， 就 把 FC 网 络 上 的 磁盘 叫做 SAN， 把 以 太 网 络 上 的 文件 系 

统称 为 NAS。 这 里 就 是 提 一 下 ， 不 要 被 表象 所 迷惑 。 








2. FTP 服 务 器 为 什么 不 属于 NAS 


我 们 必须 明白 什么 是 网 络 文件 系统 ， 网 络 文件 系统 与 本 地 文件 系统 
的 唯一 区 别 ， 就 是 传输 方式 从 主板 上 的 导线 变 成 了 以 太 网 络 ， 其 他 方面 
包括 调用 的 方式 对 于 上 层 应 用 来 说 没有 任何 改变 。 


这 就 意味 着 ， 一 旦 用 户 挂 载 了 一 个 网 络 文件 系统 目录 到 本 地 ， 那 么 
他 就 可 以 像 使 用 本 地 文件 系统 一 样 使 用 网 络 文件 系统 。 








在 Windows 系 统 中 ， 可 以 直接 双击 共享 目录 中 的 程序 将 其 在 本 机 运 
行 ( 实 际 上 是 先 通过 以 太 网 将 这 个 程序 文件 传输 到 本 地 的 缓存 ， 然 后 才 
在 本 地 执行 ， 而 不 是 在 远 端 执行 ) 。 而 FTP 无 法 做 到 这 一 点 ，FTP 不 能 
实现 诸如 挂 载 等 动作 ， 它 不 是 实时 的 。 只 有 通过 FTP 将 文件 传输 到 本 地 
的 某 个 目录 之 后 才能 执行 ， 而 且 这 个 程序 执行 需要 的 所 有 文件 都 必须 在 
本 地 。 














而 网 络 文件 系统 则 不 然 ， 即 便 某 个 本 地 执行 的 程序 需要 访问 远 端 的 
某 些 文件 ， 它 也 可 以 直接 访问 远 端 的 文件 ， 不 需要 预先 将 数据 复制 到 本 
地 再 访问 。 所 以 ，FTP、HTTP 和 TFTP 等 文件 服务 并 不 属于 网 络 文件 系 
统 ， 也 不 属于 NAS。 


3. 普通 台式 机 可 以 充当 NAS 吗 


完全 可 以 ， 只 要 具备 NAS 的 特性 ， 就 可 以 充当 NAS。 
NAS 必 须 具 备 的 物理 条 件 如 下 。 
不 管用 什么 方式 ，NAS 必 须 可 以 访问 卷 或 者 物理 磁盘 。 


NAS 必 须 具 有 接 入 以 太 网 的 能 力 ， 也 就 是 必须 具备 以 太 网 卡 。 





普通 台式 机 具备 了 这 两 个 条 件 ， 束 可 以 充当 NAS。 我 们 只 要 编写 程 
序 从 磁盘 提取 或 者 存放 数据 ， 记 录 好 这 些 数 据 的 组 织 方法 ， 然 后 通过 网 
络 文件 系统 协议 规定 的 格式 进行 发 送 或 接收 ， 就 可 以 实现 NAS 的 功能 。 
或 者 可 以 直接 在 操作 系统 上 编程 ， 直 接 利用 操作 系统 已 经 实现 好 的 文件 
系统 和 网 络 适配器 驱动 程序 ， 所 要 做 的 只 是 利用 操作 系统 提供 的 足够 简 
单 的 API 编 写 网 络 文件 系统 的 蜗 层 协议 逻辑 即 可 。 








10.2 ”龙争虎斗 一 ~ NAS 与 SAN 之 争 
10.2.1 SAN 快 还 是 NAS 快 


很 多 人 都 在 问 ， 到 底 是 SAN 快 还 是 NAS 快 ? 要 解答 这 个 问题 ， 方 法 
非常 简单 ， 和 百 米 赛跑 一 样 ， 只 要 计算 起 点 到 终点 的 距离 、 耗 时 、 开 销 
就 可 以 了 。 

SAN 的 路 径 图 如 图 10-32 所 示 。 


图 10-32 ”SAN 方式 路 径 图 





NAS 的 路 径 图 如 图 10-33 所 示 。 


图 10-33 NAS 方 式 路 径 图 





显然 ， NAS 架 构 的 路 径 在 虚拟 目录 层 和 文件 系统 层 通信 的 时 候 ， 用 
以 太 网 络 和 TCP/PP 协 议 代 奉 了 内 存 ， 这 样 做 不 但 增加 了 大 量 的 CPU 指令 
周期 (TCP/IP 逻 辑 和 以 太 网 卡 驱 动 程序 ) ， 而 且 使 用 了 低速 传输 介质 
(内 存 速 度 要 比 以 太 网 快 得 多 ) 。 而 SAN 方 式 下 ， 路 径 中 比 NAS 方 式 多 
了 一 次 FC 访问 过 程 ， 但 是 FC 的 逻辑 大 部 分 都 由 适 配 卡 上 的 硬件 完成 ， 
增加 不 了 多 少 CPU 开 销 ， 而 且 FC 访 问 的 速度 比 以 太 网 高 。 所 以 我 们 很 容 
易 得 出 结论 。 如 果 后 端 磁盘 没有 瓶 贷 ， 那 么 除非 NAS 使 用 快 于 内 存 的 网 
络 方式 与 主机 通信 ， 和 否则 其 速度 永远 无 法 超越 SAN 架 构 。 








目前 万 兆 以 太 网 络 已 经 逐渐 普及 ， 如 果 拿 万 兆 和 8GbFC 相 比 ， 底 层 
裸 速率 一 定 是 万 兆 的 要 快 ， 此 时 就 要 看 上 层 的 交互 效率 了 。 对 于 NAS 访 
问 协议 ， 每 一 笔 针 对 文件 的 操作 ， 比 如 Create〈) /Open 〈) 、 

Lookup () 、Getattr () 、Setattr () 、Read〈) /Write () 等 ， 都 需要 








经 过 网 络 传输 ， 而 对 于 SAN 来 讲 ， 由 于 文件 系统 运行 在 Host 本 机 ， 大 部 
分 文件 系统 元 数据 也 都 可 以 被 缓存 到 Host 本 地 内 存 ， 所 以 大 部 分 针对 文 
件 的 非 读 写 操作 (比如 Open() /Lookup 〈) 等 ) ， 都 可 以 在 本 地 内 存 
完成 调用 ， 此 时 速度 非常 快 ， 但 是 这 些 操作 在 NAS 环 境 下 ， 束 得 通过 网 
络 远程 同 NAS Server 发 起 请 求 ， 时 延 激 增 ， 虽 然 NAS _ Client 端 也 有 一 小 
部 分 缓存 ， 但 是 毕竟 不 如 整个 Host 本 地 FS 的 绥 存 占据 的 容量 大 。 当 你 的 
应 用 场景 多 是 这 类 IO 请 求 的 话 ， 那 么 性 能 远 比 不 过 SAN， 但 是 你 的 场景 
如 果 是 Read〈) /Write〈) 请 求 居多 ， 也 就 是 谈 写 实际 数据 的 请 求 占 多 
数 的 时 候 ， 此 时 速度 就 大 多 取决 于 底层 物理 链 路 的 带宽 了 。 














既然 NAS 一 般 情 况 下 不 比 SAN 快 ， 为 何 要 让 NAS 诞 生 呢 ? 既然 NAS 
不 如 SAN 速 度 快 ， 那 么 它 为 何 要 存在 呢 ? 具体 原因 如 下 。 








NAS 的 成 本 比 SAN 低 很 多 。 前 端 只 使 用 以 太 网 接口 即 可 ，FC 适 配 
卡 以 及 交换 机 的 成 本 相对 以 太 网 卡 和 以 太 交 换 机 来 说 是 非常 高 的 。 








NAS 可 以 解放 主机 服务 器 上 的 CPU 和 内 存 资源 。 因 为 文件 系统 的 逻 
辑 是 要 靠 CPU 的 运算 来 完成 的 ， 同 时 文件 系统 还 需要 占用 大 量 主机 内 存 
用 作 缓 存 。 所 以 ，NAS 适 合用 于 CPU 密 集 的 应 用 环境 。 





由 于 基于 以 太 网 的 TCP/IP 传 输 数 据 ， 所 以 NAS 可 扩展 性 很 强 。 只 要 
有 JP 的 地方 ，NAS 就 可 以 提供 服务 ， 且 容易 部 团 和 配置 。 


NAS 设 备 一 般 都 可 以 提供 多 种 协议 访问 数据 。 网 络 文件 系统 只 是 其 
提供 的 一 种 接口 而 已 ， 还 有 诸如 HITP、FTP 等 协议 方式 。 而 SAN 只 能 
使 用 SCSI 协 议 访问 。 





NAS 可 以 在 一 全 盘 阵 上 实现 多 人 台 客 户 站 的 共有 访问 ， 包 括 同时 访问 
某 个 目录 或 文件 。 而 SAN 方 式 下 ， 除 非 所 有 的 客户 端 都 安装 了 专门 的 集 


群 管理 系统 或 集群 文件 系统 模块 ， 否 则 不 能 将 东 个 LUN 共 有 享 ， 强 制 共享 
将 会 损毁 数据 。 





经 过 特别 优化 的 NAS 系 统 ， 可 以 同时 并 发 处 理 大 量 客户 端的 请 求 ， 
提供 比 SAN 方 式 更 方便 的 访问 方法 。 


台 主 机 可 以 同时 挂 接 NFS 上 的 目录 ， 那 么 相当 于 减少 了 整个 系统 
中 文件 系统 的 处 理 流程 ， 由 原来 的 多 个 并 行 处 理 转 化 成 了 NFS 上 的 单一 
实例 ， 简 化 了 系统 元 余 度 。 


10.2.2 SAN 好 还 是 NAS 好 
关于 IO 密 集 和 CPU 密 集 说 明 如 下 。 


a CPU 密集 : 指 的 是 茶 种 应 用 极其 耗费 CPU 资源 ， 其 程序 内 部 馆 辑 
复杂 ， 而 且 对 磁盘 访问 量 不 高 。 如 超频 爱好 者 常用 的 CPU 训 试 工 
具 就 是 这 种 应 用 ， 这 种 程序 在 运行 的 时 候 ， 根 本 不 用 读 取 破 盘 上 
的 数据 ， 只 是 在 程序 载 入 的 时 候 ， 读 入 一 点 点 程序 数据 而 已 。 进 
程 运行 之 后 便 会 使 CPU 的 核心 处 于 全 速 状 态 ， 这 会 造成 其 他 进程 
在 同一 时 间 内 只 获得 很 少 的 执行 时 间 ， 影 响 了 其 他 程序 的 性 能 。 
在 必要 时 ， 可 以 将 多 台 机 器 组 成 集群 来 运行 这 种 程序 。 

IO 密集 : 指 的 是 茶 种 应 用 程序 的 内 部 逻辑 并 不 复杂 ， 耗 费 的 CPU 
资源 不 多 ， 但 是 要 随时 存 取 人 硬盘 上 的 数据 。 比 如 FTP 服 务 右 之 类 
程序 就 是 这 种 。 

IO 和 CPU 同时 密集 : 这 种 应 用 程序 简直 就 是 梦 厦 。 为 了 获得 高 性 
能 ， 大 部 分 这 类 程序 都 不 适合 用 单 台 机 融 运 行 ， 必 须 组 成 集群 系 
统 来 运行 这 种 应 用 程序 ， 包 括 前 端 运 算 节 点 的 集群 和 后 端 存 储 节 
点 的 集群 。 























显然 ， NAS 对 于 大 块 连续 IO 密集 的 环境 ， 要 比 SAN 慢 一 大 截 ， 原 因 
是 积累 效应 。 经 过 大 量 IO 积 累 之 后 ， 总 体 差别 就 显现 出 来 了 。 不 过 ， 如 
果 要 使 用 10Gb/s 以 太 网 这 种 高 速 网 络 ， 无 疑 要 选用 NAS， 因 为 底层 链 路 
的 速度 毕竟 是 目前 NAS 的 根本 瓶 颈 。 此 外 ， 如 果 是 高 并 发 随机 小 块 IO 环 
境 或 者 共享 访问 文件 的 环境 ，NAS 会 表现 出 很 强 的 相对 性 能 。 如 果 SAN 
主机 上 的 文件 系统 碎片 比较 多 ， 那 么 读 写 某 个 文件 时 便 会 产生 随机 小 块 
IO， 而 NAS 自 身 文 件 系统 会 有 很 多 优化 设计 ， 碎 片 相 对 少 。CPU 密 集 的 
应 用 可 以 考虑 使 用 NAS。 














SAN 与 NAS 有 各 目的 优点 和 缺点 ， 需 要 根据 不 同 的 环境 和 需求 来 综 
合 考 虑 。 


10.2.3 ”与 SAN 设 备 的 通信 过 程 


对 于 SAN 方 式 来 说 ， 应 用 程序 必须 通过 运行 在 服务 器 本 机 或 者 NAS 
设备 上 的 文件 系统 与 磁盘 阵列 对 话 。 应 用 程序 对 本 机 文件 系统 (或 
NAS) 说 :“ 唾 ， 兄 弟 ， 帮 我 把 /mnt/SAN 目 录 下 的 SAN.txt 文 件 传 到 我 的 
缓冲 区 。” 文 件 系 统 开 始 计算 SAN.txt 文 件 占 用 的 磁盘 扇 区 的 LBA 地 址 ， 
计算 好 之 后 同 SAN 人 磁盘 阵列 说 《用 SCSI 语 言 ):“ 嗨 ， 哥 们 ， 把 从 
LBA10000 开 始 之 后 的 128 个 局 区 内 容 全 部 传送 给 我 ! ” 


SAN 破 盘 阵 列 接收 到 这 个 请 求 之 后 ， 便 从 它 目 身 的 众多 人 厂 盘 中 提取 
数据 ， 通 过 FC 网 络 传送 给 运行 着 文件 系统 程序 的 节操 (服务 此 主机 或 
NAS 设 备 ) 。 文 件 系 统 接 收 到 届 区 内 容 之 后 ， 根 据 文件 系统 记录 截 挥 局 
区 多 余 的 部 分 ， 将 整理 后 的 数据 放 入 请 求 这 个 数据 的 应 用 程序 的 缓冲 
区 = 


10.2.4 与 NAS 设 备 的 通信 过 程 





应 用 程序 通过 操作 系统 的 虚拟 目录 层 直 接 与 NAS 设 备 对 话 :“ 嗨 ， 
兄弟 ， 帮 我 把 /mntWNAS 目 录 下 的 NAS.txt 文 件 传 过 来 。” 或 “， 兄 弟 ， 
帮 我 把 /mnt/NAS 目 录 下 的 NAS.txt 文 件 的 前 1024 字 节 传 递 过 来 。” 这 些 话 
被 封装 成 TCP/IP 数 据 包 ， 通 过 以 太 网 传递 到 NAS 设 备 上 。NAS 接 到 这 个 
请 求 之 后 ， 立 即 用 自己 的 文件 系统 (NTFS、JFS2、EXT2、EXT3 等 ) 
计算 NAS.txt 文 件 都 占用 了 磁盘 的 哪些 鹿 区 ， 然 后 从 自己 的 磁盘 上 用 
ATA 语 言 或 者 SCSI 语 言 向 对 应 的 磁盘 存 取 数 据 〈 或 目 己 安装 FC 适 配 
卡 ， 从 SAN 存 储 设 备 上 存 取 数 据 ) 。 





显然 ，NAS 将 文件 系统 逻辑 搬出 了 主机 服务 器 ， 成 为 了 一 个 单独 的 
文件 系统 逻辑 运行 者 。 如 图 10-34 所 示 为 从 主机 到 NAS 设 备 的 IO 全 流程 
示意 图 ， 牵 扯 到 了 整个 系统 的 IO 路 径 以 及 路 径 上 的 每 种 元 素 和 角色 。 


图 10-34 网 络 文件 系统 IO 全 流程 图 





提示 : ”关于 系统 IO 路 径 的 详细 阐述 请 参考 本 书后 面 章 市 。 


(1) 首先 ， 主 机 客户 端 通过 NFS Client 对 NAS 上 的 一 个 输出 目 
录 /mas/export 进 行 Mount 操 作 ， 将 其 Mount 到 了 本 地 的 /mntnas 路 径 下 。 


(2) 之 后 ， 主 机 客户 端 上 某 应 用 程序 发 起 了 对 /mntnas/nas.txt 文 件 
的 读 取 操 作 ， 读 取 从 住 移 量 0 字 节 开 始 往 后 的 1024 字 节 ， 也 束 是 这 个 文 
件 的 前 1024 字 节 。 这 个 动作 是 通过 调用 操作 系统 提供 的 文件 操作 API 执 
行 的 ， 比 如 Read () 。 








(3) 这 个 IO 请 求 被 传送 到 了 NFS Client 处 ，NFS Client 知 道 /mnt/nas 
路 径 对 应 的 其 实 是 NAS 服 务 端的 /nas/export 这 个 输出 目录 ， 所 以 NFS 
Client 将 上 层 下 发 的 这 个 读 取 请 求 封 装 成 NFS 协 议 规定 的 标准 格式 通过 
网 络 传送 到 NAS 服 务 端 。 


(4) NAS 服 务 端 接收 到 这 个 读 请 求 之 后 ， 将 请 求 通 过 操作 系统 API 
传送 给 文件 系统 模块 处 理 。 


(5) 文件 系统 模块 接收 到 针对 /nas/exportnas.txt 文 件 的 读 请 求 之 
后 ， 首 先 查 询 缓存 内 是 否 有 对 应 的 数据 ， 如 果 有 ， 则 直接 返回 结果 如 
果 没 有 ， 则 需要 将 这 段 字 市 所 沙 入 的 底层 存储 空间 的 块 信息 取 回 ， 这 个 
动作 通过 查询 Inode 表 等 元 数据 获得 。 当 得 到 底层 块 地 址 之 后 ， 文 件 系 
统 通 过 调用 OS 提供 的 API 将 对 这 些 块 的 读 请 求 发 送 给 下 游 模 块 ， 也 就 是 
卷 管理 层 。 














(6) 卷 管理 层 是 将 底层 物理 磁盘 设备 进行 虚拟 化 封 厂 的 层次 。 当 
卷 管理 层 收 到 针对 某 个 卷 某 段 LBA 地 址 的 请 求 之 后 ， 它 要 进行 翻译 ， 将 
目标 虚拟 卷 的 地 址 翻译 为 对 应 着 撒 层 物理 磁盘 块 设备 的 地 址 ;翻译 完 
后 ， 卷 管理 层 将 对 应 目标 地 址 的 请 求 再 次 通过 调用 OS API 的 方式 发 送 给 
下 游 ， 也 就 是 驱动 程序 层 了 。 














(7) 块 设备 驱动 是 负责 对 相应 块 设备 进行 IO 的 角色 ， 它 将 这 些 IO 
发 送 给 SCSI CDB Generator， 也 就 是 SCSI 指 令 的 翻译 中 心 。 


(8) SCSI CDB Generator 的 职 贡 是 将 对 应 的 IO 请 求 描述 为 SCSI 协 
议 的 标准 格式 。 之 后 ， 这 些 指令 被 发 送 到 SCSIUEFC 适 配器 的 张 动 程序 
处 。 


(9) 设备 驱动 程序 接收 到 这 些 SCSI 指 令 之 后 ， 将 其 封装 到 对 应 的 
链 路 帧 中 通过 内 部 总 线 网 络 或 者 外 部 包 交 换 网 络 传送 到 目标 。 





《10) SCSI 指 令 传送 到 目标 设备 ， 目 标 设备 执行 相应 指令 并 返回 结 
果 。 





10.2.5 ”文件 提供 者 


NAS 可 以 看 作 一 个 Filer。Filer 这 个 词 是 著名 NAS 设 备 厂商 NetApp 对 
其 NAS 产 品 的 通俗 称呼 。 它 专门 处 理 文件 系统 逻辑 及 其 下 面 各 层 的 逻 
辑 ， 从 而 解放 了 服务 器 主机 。 服 务 器 主机 上 不 必 运 行文 件 系 统 逻 辑 ， 甚 
至 也 不 用 运行 磁盘 卷 逻 辑 ， 只 需 运 行 目录 层 人 逻辑 (UNIX 系 统 上 VFS 
层 、Windows 系 统 上 的 盘 符 及 目录 ) 即 可 。 把 底层 的 模块 全 部 交 由 一 个 
独立 的 设备 来 完成 ， 这 样 就 节约 了 服务 器 主机 的 CPU 资源 和 内 存 资 源 ， 
从 而 可 以 专心 地 处 理应 用 层 逻 辑 了 。 











NAS 网 关 就 是 这 样 一 种 思想 。NAS 网 关 其 实 就 是 一 台 运 行文 件 系统 
多 辑 和 卷 逻 辑 的 设备 ， 可 以 把 它 想象 成 一 个 条 ， 这 个 到 可 以 从 后 端 接收 
一 种 格式 〈 以 LBA 地 址 为 语言 的 指令 和 数据 格式 ) ， 经 过 处 理 后 从 前 端 
用 另 一 种 格式 〈 以 文件 系统 为 语言 的 指令 和 数据 格式 ) 发 送出 去 ， 或 执 
行 反 回 的 过 程 。 可 以 把 这 个 泵 接 入 任何 符合 条 件 的 网 络 中 ， 以 实现 它 的 
功能 。 我 们 可 以 称 它 为 文件 系统 泵 ， 或 者 Filer。 可 以 把 SAN 设 备 称 为 
Disker (专门 处 理 磁盘 卷 逻 辑 ) ， 把 服务 器 主机 称 为 Applicationer (专门 
处 理应 用 逻辑 ) 。 如 果 某 个 设备 集成 了 Filer 和 Disker 的 功能 ， 并 将 其 放 
入 了 一 个 机 箱 或 者 机 柜 ， 那 么 这 个 设备 惑 是 一 个 独立 的 NAS 设 备 。 如 果 
某 个 设备 仅仅 实现 了 Filer， 而 Disker 是 另外 的 独立 设备 ， 那 么 这 个 只 实 
现 了 Filer 的 设备 就 称 为 NAS 网 关 或 NAS 泵 。 








图 10-35 显 示 了 这 个 人 泵 接 入 网 络 之 后 发 生 的 变化 。 
图 10-35 ”NAS 泵 


然而 ， 目 前 NAS 的 用 途 并 不 如 SAN 广 泛 ， 主 要 原因 是 NAS 的 前 端 接 
口 几乎 都 是 千 兆 以 太 网 接口 ， 而 千 兆 以 太 网 的 速度 也 不 过 100Mb/s， 除 





去 开销 之 后 所 剩 无 几 。 而 SAN 设 备 的 前 端 接口 目前 普遍 都 是 4Gb/s 的 速 
度 ， 可 以 提供 400Mb/s 的 带宽 。FC 现 在 已 有 8Gb/s 速 率 的 接口 出 现 ， 而 
10Gb/s 以 太 网 也 初 露 端倪 。 不 久 的 将 来 ，NAS 必 有 定 会 发 起 另 一 轮 进攻 。 


10.2.6 NAS 的 本 质 


本 地 文件 系统 负责 将 硬盘 上 的 数据 包装 、 展 现 ， 以 及 提供 调用 接 
口 。 文 件 系统 将 数据 展现 为 文件 和 目录 的 形式 ， 调 用 接口 包括 读 、 写 、 
删 、 创 建 等 。 


一 般 情 况 下 ， 应 用 程序 是 在 内 存 中 调用 这 些 接口 从 而 让 文件 系统 实 
现 对 应 功能 的 。 如 Read () 、Write () 、API 等 。 








如 果 应 用 程序 不 在 本 机 运行 ， 而 是 运行 在 网 络 的 另 一 端 ， 同 时 依然 
想 保留 原 有 的 访问 文件 的 方式 。 此 时 就 需要 允许 远程 机 器 上 的 应 用 程序 
可 以 把 这 些 调用 指令 通过 网 络 打包 传送 过 来 ， 这 些 指令 必须 双方 都 能 够 
识别 ， 为 此 ，NFS 和 CIFS 协 议 诞生 了 。 二 者 统称 NAS 协 议 或 者 NAS。 





多 个 远程 的 应 用 程序 可 以 同时 对 本 地 文件 系统 发 起 IO 请 求 。 这 样 ， 
本 地 这 合 服务 器 就 变 成 了 一 台 文 件 服务 器 了 ，NAS 设 备 就 这 么 诞生 了 。 


所 以 NFS 和 CIFS 又 被 称 为 "网络 文 件 系统 ”， 其 实 它们 只 是 一 种 规定 
如 何 将 文件 操作 指令 及 结果 在 双方 之 间 传 送 和 控制 的 协议 。 网 络 上 只 有 
协议 ， 没 有 文件 系统 ， 文 件 系统 都 在 本 地 。 “通过 外 部 网 络 而 不 是 计算 
机 内 部 总 线 来 传递 文件 读 写 指令 的 系统 ”是 对 网 络 文件 系统 最 准确 和 最 
本 质 的 描述 。 


10.3 DAS、SAN 和 NAS 


人 们 将 最 原始 的 存储 架构 称 为 DAS Direct (Dedicate ) Attached 
Storage， 直 接连 接 存 储 ， 意 思 是 指 存储 设备 只 用 于 与 独立 的 一 台 主 机 上 服 
务 器 连接 ， 其 他 主机 不 能 使 用 这 个 存储 设备 。 如 PC 中 的 磁盘 或 只 有 一 
个 外 部 SCSI 接 口 的 JBOD 都 属于 DAS 架 构 。 





纵 观 武当 仓库 的 改革 过 程 ， 恰 恰 正 是 一 个 从 DAS “〈 仅 供 自己 使 用 ) 
到 SAN (出 租 仓库 给 其 他 租户 使 用 ) ， 再 到 NAS (集中 式 理 货 服 务 外 
包 ) 的 过 程 。 





到 此 ，DAS、SAN、NAS 形 成 了 存储 架构 的 三 大 阵营 ， 且 各 有 其 适 
用 条 件 ， 形 成 了 三 足 易 立 之 势 ! 





提示 : 但 是 ， 大 家 一 定 要 牢记 ，SAN (Storage Area 
Network) 是 一 种 网 络 ， 而 不 是 某 种 设备 。 只 要 是 专门 用 来 回 
服务 器 传输 数据 的 网 络 都 可 以 称 为 SAAN。 所 以 ，NAS 设 备 使 用 
以 太 网 络 回 主机 提供 文件 级 别 的 数据 访问 ， 那 么 以 太 网络 就 是 
SAN。 由 于 在 高 端 领域 NAS 的 使 用 不 如 FC ” ”SAN 设备 多 ， 所 以 
人 们 习惯 地 称 FC ”SAN 架构 为 SAN。 我 们 也 顺从 习惯 ,但 是 一 
定 要 明白 其 中 的 门道 。 





10.4 最终 幻想 一 一 将 文件 系统 语言 承载 于 FC 网 
络 传输 


既然 SCSI 语 言及 数据 可 以 用 FC 协 议 传递 ， 文 件 系统 语言 可 以 用 以 
太 网 传递 ， 那 么 文件 系统 语言 能 不 能 用 FC 传 递 呢 ? 再 者 SCSI 语 言 能 不 
能 通过 以 太 网 来 传递 呢 ? 完全 可 以 ， 而 且 后 者 已 经 被 实现 并 被 广泛 应 用 
了 ， 这 些 内 容 将 在 第 12 章 讲解 。 在 4 种 组 合 中 ， 只 有 将 文件 系统 语言 承 
载 于 FC 网 络 传 输 这 个 想法 没有 被 实现 ， 或 者 说 有 人 实现 了 但 是 没有 听 
说 。 





现在 来 看 前 者 。 试 想 一 下 ， 如 果 用 FC 协议 传递 文件 系统 语言 和 数 
据 而 不 是 磁盘 卷 语言 及 其 数据 ， 那 么 开销 会 小 很 多 。 文 件 系统 语言 毕竟 
征 比较 上 层 和 高 级 的 语言 ， 相 对 于 撒 层 磁盘 卷 语言 来 次 ， 它 非常 简单 。 














读 写 东 个 文件 ， 如 条 用 高 层 语言 只 需要 描述 关于 这 个 文件 的 信息 即 
可 。 但 是 如 果 使 用 低级 语言 ， 可 能 要 发 送 很 多 的 语句 。 如 果 这 个 文件 在 
磁盘 上 形成 了 很 多 雁 片 的 话 ， 发 送 的 IO 指令 将 不 计 其 数 。 这 吏 像 C 语 言 
被 编译 喜 编 译 成 汇编 语 名 一样， 文件 系统 语言 是 高 级 语言 ， 比 如 “将 C 盘 
下 C.txt 文 件 传送 过 来 ”> 这 一 句 高 级 语言 ， 会 极 翻 译 成 更 低级 的 多 条 SCSIi 
语言 。 利 用 比 内 存 总 线 速度 慢 得 多 的 FC 网 络 来 传送 这 些 低 级 语言 ， 无 
疑 是 非常 浪费 资源 的 。 低 级 语言 就 应 该 在 内 存 中 传递 而 不 是 外 部 低速 网 
络 上 ， 这 样 才能 达到 性 能 最 大 化 。 

















目前 普遍 的 架构 是 文件 系统 和 磁盘 控制 器 驱动 程序 都 运行 在 应 用 服 
务 器 主机 上 。 文 件 系 统 向 卷发 送 的 请 求 是 通过 内 存 来 传递 的 ， 而 主机 癌 
磁盘 (LUN) 发 送 的 请 求 是 通过 FC 网 络 来 传递 的 ， 后 者 速度 显然 比 前 
者 慢 很 多 。 如 果 将 “文件 系统 、 人 磁盘 控制 器 和 磁盘 (SAN 盘 阵 或 者 本 地 





磁盘 ) ”这 三 个 部 件 ， 整 体 搬 到 应 用 服务 器 主机 外 部 ， 成 为 一 个 独立 的 
NAS 系 统 。 然 后 这 个 NAS 设 备用 FC 协议 与 服务 器 主机 通信 ，FC 协 议 上 
承载 的 是 文件 系统 语言 ， 这 就 既 保证 降低 了 服务 器 的 开销 ， 又 保证 了 数 
据 传输 速度 。 


也 许 受 限于 技术 或 者 商业 和 市 场 的 限制 ，File system 〈 或 File) over 
FC (FC 网 络 文件 系统 ) 始终 没有 被 提出 或 开发 出 来 。 不 过 在 10G 以 太 网 
普及 之 后 ， 相 信 FC 设 备 也 会 因为 高 成 本 、 高 专用 人 化、 兼容 性 等 问题 逐 
渐 被 淘汰 。 目 前 市 场 上 的 NAS 设 备 普 衣 采用 以 太 网 加 上 TCP/IP 的 模式 来 
传送 文件 系统 指令 ， 我 们 可 以 称 这 种 架构 为 File system Over 
Ethernet (FSoE) 。 


提示 : 关于 协议 之 间 相 互 杂 区 的 论题 ， 在 后 面 会 详细 讨论 。 


10.5 长 路 漫漫 一 一 存储 系统 架构 演化 过 程 


下 面 总 结 一 下 系统 架构 演化 过 程 中 的 10 个 阶段 。 





10.5.1 第 一 阶段 : 全 整合 阶段 


图 10-36 是 一 个 最 原始 的 普通 服务 器 的 架构 ， 所 有 部 件 和 模块 都 在 
一 个 服务 器 机 箱 中 。 这 属于 DAS 架 构 ， 因 为 主机 机 箱 内 的 磁盘 只 被 本 机 
使 用 。 


图 10-36 ”全 整合 阶段 





10.5.2 第 二 阶段 : 磁盘 外 置 阶段 


图 10-37 所 示 的 架构 ， 是 将 磁盘 置 于 服务 器 机 箱 外 部 的 情况 。 这 种 
架构 依然 属于 DAS 架 构 ， 因 为 存储 系统 只 被 一 人 台 主 机 使 用 。 





图 10-37 磁盘 外 置 阶段 








10.5.3 ”第 三 阶段 外 部 独立 磁盘 阵列 阶段 


图 10-38 是 服务 器 主机 通过 普通 SCSI 线 绕 连 接 外 部 独立 磁盘 阵列 的 
情况 。 这 种 简单 的 SCSI 接 口 盘 阵 只 能 供 一 台 或 者 几 台 《如 果盘 阵 提 供 多 
个 外 部 SCSI 接 口 的 话 ) 主机 接 入 ， 称 不 上 彻底 的 网 络 化， 但 可 以 被 称 为 
SAN， 因 为 这 种 染 构 已经 开始 显现 网 络 化 明 芽 了 。 





图 10-38 ”外 部 独立 磁盘 阵列 阶段 


10.5.4 第 四 阶段 : 网 络 化 独立 磁盘 阵列 阶段 





图 10-39 是 一 台 服 务 器 用 FC 网 络 连接 FC 接 口 磁 盘 阵 列 的 情况 。 图 中 
磁盘 阵列 真正 成 为 包 交 换 网 络 上 的 一 个 节点 ， 可 同时 被 多 个 其 他 节点 访 
问 ， 是 向 彻底 网 络 化 进化 的 里 程 碑 。 这 种 架构 是 彻 彻 底 底 的 SAN 架 构 。 





图 10-39 网 络 化 独立 磁盘 阵列 阶段 





10.5.5 ”第 五 阶段 ， 瘦 服务 嚣 主机、 独立 NAS 阶 段 


图 10-40 中 ， 服 务 器 主机 用 以 太 网 与 NAS 设 备 进 行 通信 从 而 存储 数 
据 。 在 着 服务 器 阶段 ， 文 件 系 统 之 下 的 所 有 层次 模块 位 移 到 了 外 部 独立 
设备 中 。 主 机 得 到 了 彻底 的 解放 ， 专 门 处 理 业务 逻辑 ， 而 不 必 人 花费 太 多 
资源 去 处 理 底层 系统 逻辑 。 


图 10-40” 瘦 服务 嚣 主机、 独立 NAS 阶 段 





10.5.6 ”第 六 阶段 ， 全 分 离 式 阶段 





在 NAS 设 备 的 后 端 可 以 用 包含 在 自己 机 箱 内 的 硬盘 ， 也 可 以 用 并 行 
SCSI 来 连接 磁盘 ， 还 可 以 用 FC 协 议 来 连接 SAN 盘 阵 来 获得 LUN (NAS 
网 关 ) 。 在 这 个 阶段 中 ， 所 有 部 件 彻底 地 分 离 了 ， 每 个 部 件 都 各 司 其 
职 ， 中 间 通 过 不 同 的 网 络 方式 通信 ， 前 端 用 以 太 网 ， 后 端 用 FC 网 ， 如 
图 10-41 所 示 。 








图 10-41 全 分 离 式 阶段 





10.5.7 第 七 阶段 : 统一 整合 阶段 


在 图 10-42 的 环境 中 ， 既 有 纯 SAN 的 磁盘 阵列 ， 来 利用 自己 机 箱 或 
扩展 柜 内 的 磁盘 ， 又 有 NAS 网 关 设 备 ， 不 但 可 以 利用 本 地 磁盘 ， 还 可 以 


向 SAN 磁 盘 阵 列 “ 租 赁 "若干 LUN 卷 。 另 外 还 有 一 台 多 协议 磁盘 阵列 ， 它 
既 可 以 问 外 提供 FC 协 议 的 连接 方式 〈 承 载 磁盘 卷 语言 ) ， 又 可 以 提供 
以 太 网 的 连接 方式 《承载 文件 系统 语言 ) ， 这 种 设备 是 SAN 与 NAS 融 合 
的 结果 。 服 务 器 可 以 选择 直接 用 磁盘 卷 语言 访问 SAN 磁 盘 阵 列 上 的 
LUN， 用 运行 在 服务 器 上 的 文件 系统 程序 管理 磁盘 卷 ， 也 可 以 选择 直接 
通过 以 太 网 络 访问 NAS 设 备 上 的 目录 ， 用 文件 系统 语言 加 NAS 发 送 指 


令 。 


这 个 架构 最 终 束 是 一 个 整合 的 架构 ， 既 有 纯 SAN 和 纯 NAS， 又 有 被 
整合 到 一 起 的 SAN 和 NAS 统 一 存储 设备 。 


第 七 阶段 也 是 目前 开 系 统 所 应 用 的 架构 。 


图 10-42 ”统一 整合 阶段 





10.5.8 ”第 八 阶 段 : 迅速 膨胀 阶段 








也 束 是 Scale-Out 架 构 的 x86 集 群 阶 段 ， 使 用 大 量 的 节操 来 组 成 一 个 
对 外 统一 的 视图 。 从 物理 可 见 的 角度 上 讲 ， 是 大 规模 并 行 集群 ， 从 较 融 
层 的 角度 来 讲 ， 由 单个 的 、 无 意识 的 节点 来 组 成 一 个 庞大 的 整体 有 意识 
的 整体 ， 这 就 变 成 了 云 的 一 种 特征 了 。 不 管 是 SAN 还 是 NAS， 它 们 此 时 
被 承载 到 同 质 化 的 底层 集群 上 ， 只 是 前 问 输 出 的 访问 协议 不 同 而 已 。 








此 时 整个 系统 中 的 节点 数量 规模 将 会 空前 庞大 ， 系 统 内 部 的 能 量 将 
迅速 爆发 ， 如 图 10-43 所 示 。 








图 10-43 ”迅速 膨胀 阶段 


10.5.9 ”第 九 阶段: 收缩 阶段 








当 大 量 的 节点 迅速 膨胀 之 后 ， 能 量 最 终 会 被 消耗 多 有 尽 ， 随 着 新 技术 
的 不 断 产 生 ， 当 机 械 硬 盘 被 芯片 所 取代 ， 并 且 大 规模 集成 电路 扩 术 不 断 
地 发 展 ， 操 作 系 统 中 的 所 有 底层 模块 均 用 专用 硬件 电路 实现 。CPU 所 做 
的 仅仅 是 进行 业务 逻辑 计算 。 外 部 接口 已 经 过 小 到 了 全 部 使 用 无 线 网 络 
进行 通信 ， 包 括 连 接 显 示 器 〈 或 许 已 经 被 3D 眼 镜 所 取代 ) 。 


目前 ，Intel 公 司 已 经 在 其 CPU 上 集成 了 显示 必 片 ， 使 计算 机 不 再 需 
要 加 装 独 立 的 显卡 ， 也 不 用 占用 主板 上 的 空间 来 集成 显示 必 片 。Sun 公 
司 将 多 个 万 兆 以 太 网 必 扩 集成 在 了 最 新 的 CPU 上 。Bluearc 公 司 的 存储 产 
品 更 是 已 经 将 整个 操作 系统 的 所 有 逻辑 都 做 到 了 FPGA 心 刻 中 。 这 些 新 
技术 正在 发 村 ， 随 着 节点 数量 的 膨胀 ， 其 底层 却 在 向 着 收缩 的 方向 演 
进 。IT 架 构 正 处 于 缓慢 收缩 之 中 。 风 10-44 所 示 为 收缩 阶段 系统 架构 示 


意图 。 








图 10-44 ”收缩 阶段 


10.5.10 ”第 十 阶段 ， 强烈 埋 缩 阶段 





长 过 了 头 就 要 收缩 ， 阳 气 消散 之 。 到 045 强 弄 汶 及 阶段 
后 ， 阴 实 就 会 逐渐 显露 并 占 上 风 ， 整 
个 系统 会 发 生 强 烈 择 缮 。 对 于 系统 架构 ， 韧 缩 之 后 的 IT 系统 会 节约 大 量 
空间 和 电力 能 量 。 随 着 集成 电路 技术 发 展 到 一 定 程 度 之 后 ， 甚 至 可 以 将 
整个 系统 集成 于 一 个 微小 的 芯片 中 ， 即 所 谓 的 System on 
Chip〈SOC) 。IT 系 统 将 夫 缩 到 这 个 必 片 中 ， 如 图 10-45 所 示 。 





纵 观 这 10 个 阶段 ， 从 全 整合 阶段 〈 占 用 很 大 空间 和 资源 ) 到 志 缩 阶 
段 〈 极 小 的 空间 极 高 的 质量 ) ， 这 正 是 宇宙 发 展演 化 的 规律 。 在 一 个 极 
大 的 空间 中 包含 了 众多 物质 ， 然 后 通过 不 断 演化 ， 最 终 夫 缩 到 一 个 小 空 





间 内 ， 同 样 包含 了 极 大 的 质量 。 
到 此 ，SAN 已 经 不 仅仅 限于 通过 FC 网 络 传递 SCSI 指 令 的 架构 了 。 
SAN 的 概念 ， 既 然 是 “存储 区 域 网 络 ” 的 意思 ， 那 么 就 应 该 泛 指 参与 主机 
服务 器 后 端 存储 系统 的 所 有 部 件 ， 甚 至 包括 NAS， 我 们 可 以 将 NAS 看 作 

SAN 的 一 个 分 支架 构 。 
SAN 在 全 系统 架构 进化 到 第 十 阶段 之 前 还 会 继续 存在 。 在 第 十 阶 
段 ，SAN 的 概念 或 许 会 被 赋予 男 外 的 意义 。 





10.6 泰山 北斗 


NetApp 公 司 掌握 了 全 球 最 先进 的 NAS 方 面 的 相关 技术 ， 它 的 FAS 系 
列 产品 统治 了 NAS 市 场 的 大 部 江山 。FAS 系 列 中 的 所 有 产品 均 运 行 Data 
ONTAP 操 作 系 统 ， 这 是 NetApp 专 门 开发 的 针对 NAS 的 操作 系统 。 





NetApp 的 NAS 产 品 


既然 是 NAS， 其 内 部 的 文件 系统 层 肯 定 是 一 个 功能 强大 而 稳定 的 层 
次 。ONTAP 系 统 中 的 文件 系统 名 为 WAFL， 这 是 一 个 充满 个 性 的 文件 系 
统 。 


NetApp 上 自称 其 存储 产品 为 “Filer”， 下 面 就 来 看 看 Filer 的 四 把 杀手 
铀 。 


10.6.1 WAEFL 配 合 RAID 4 


Write Anywhere Filesystem Layout (WAFL) 是 NetApp 公 司 开发 的 
一 种 文件 系统 。 这 个 文件 系统 最 大 的 特点 ， 也 是 其 他 所 有 文件 系统 都 没 
有 实现 的 特点 ， 就 是 它 能 按照 RAID ”4 的 喜好 来 向 RAID 4 卷 写 数据 。 
RAID 4 由 于 其 独立 校 验 盘 的 设计 ， 导 致 它 只 能 接受 顺序 的 写 入 IO 而 不 
能 并 发 ， 所 以 它 对 于 其 他 厂家 的 盘 阵 来 说 完全 就 是 一 个 灾 星 ， 没 有 人 天 
用 ， 也 没有 人 愿意 用 。 然 而 NetApp 偏 偏 采 用 了 它 ， 而 且 通 过 WAFL 的 调 
教 ，RAID 4 在 FAS 产 品 上 发 挥 出 了 很 好 的 性 能 。WAFL 是 怎么 调教 
RAID 4 的 呢 ? 








与 其 说 是 WAEFL 调教 RAID 4， 不 如 说 是 RAID 4 逼迫 WAFL 就 范 。 








RAID 4 再 不 好 也 有 可 取 的 地 方 ， 如 果 IO 写 入 有 很 大 几率 是 整 条 写 
的 形式 ， 那 么 RAID 4 便 会 表现 得 像 RAID 0 一 样 良好 。 不 仅仅 是 RAID 





E 
y 


4， 任 何 校 验 型 的 RAID， 如 RAID 5、RAID 3， 只 要 是 整 条 写 ， 便 会 产 
生 极 高 的 性 能 。 


提示 : 关于 整 条 写 的 概念 ， 可 参考 本 书 第 4 章 的 内 容 。 


既然 校 验 型 RAID 最 喜欢 被 整 条 写 ， 那 么 就 不 妨 满足 这 个 要 求 。 
WAFL 就 是 这 么 被 设计 出 来 的 。 


图 10-46 所 示 的 是 一 个 5 块 盘 组 成 的 RAID 4 系统 。 条 带 大 小 20KB， 
条 带 在 每 个 数据 盘 上 分 割 出 的 segment 大 小 为 4KB。 假 如 某 一 时 刻 应 用 
要 求 WAFL 写 入 三 个 文件 ， 如 /tmp/filel、/tmp/file2 和 /tmp/file3， 其 中 
file1 大 小 为 4KB，file2 大 小 为 8KB，file3 大 小 为 4KB。 则 WAFL 便 会 计算 
出 : 如 果 将 这 三 个 文件 对 应 的 数据 写 到 一 整 条 条 带 上 ， 就 构成 了 整 条 
写 ， 性 能 得 到 了 提升 。 





图 10-46 ”5 块 盘 组 成 的 RAID 系 统 





所 以 ，WAFL 先 在 其 元 数据 中 做 好 记录 : /tmp/filel 对 应 数据 块 为 
A1，/tmp/file2 对 应 数据 块 为 A2 十 A3，/tmpy/file3 对 应 数据 块 为 A4。 然 后 
将 这 三 个 文件 的 数据 合并 写 入 RAID。 当 然 ， 如 果 要 求 增加 高 并 发 度 ， 
那么 WAFL 也 可 以 将 同一 个 文件 对 应 的 一 定 长 度 的 块 写 入 同一 个 人 硬盘 。 


实际 上 ， 文 件 系统 就 应 该 适 配 底层 的 特性 ， 只 有 这 样 才 能 获得 最 优 
的 性 能 。 普 通 文件 系统 中 ， 在 选取 空闲 块 写 入 数据 的 时 候 ， 并 没有 针对 
底层 的 RAID 级 别 来 做 对 应 的 优化 。 而 WAFL 中 有 一 个 专门 的 Write 
Allocation 模 块 来 负责 优化 。WAFL 的 做 法 无 疑 对 文件 系统 的 优化 起 到 了 
领头 和 示范 作用 。 


以 上 只 是 简略 说 明 WAFL 的 思想 ， 实 际 操作 中 还 需要 考虑 诸如 元 数 





据 的 写 入 、 块 的 偏 移 等 很 多 复杂 情况 。 











10.6.2 Data ONTAP 利 用 了 数据 库 管 理 系 统 的 设计 


我 们 知道 ， 数 据 库 管理 系统 是 这 样 记录 日 志 的 : 在 某 时 刻 ， 数 据 库 
管理 系统 接收 到 应 用 程序 的 SQL 更 新 语句 及 其 对 应 的 数据 ， 在 将 这 些 数 
据 更 新 到 缓存 中 徐 盖 原 有 数据 的 同时 ， 将 这 个 操作 的 动作 以 及 对 应 的 数 
据 ， 以 日 志 的 形式 记录 到 位 于 内 存 的 日 志 缓 冲 区 内 。 每 当 应 用 程 友 发 起 
提交 指令 或 每 阳 几 秒 钟 的 时 间 ， 缓 冲 区 内 的 日 志 就 会 被 写 入 到 磁盘 上 的 
日 志文 件 中 ， 以 防止 意外 挥 电 后 造成 的 数据 不 一 致 性 ， 同 时 将 缓存 中 更 
新 过 的 数据 块 写 入 磁盘 。 只 有 当日 志 被 确实 地 写 入 到 硬盘 上 的 日 志文 件 
中 后 ， 数 据 库 管理 程序 才 会 对 上 层 应 用 返回 执行 成 功 的 信号 。 

















数据 库 系 统 是 一 个 非常 复杂 的 系统 ， 也 是 一 个 对 数据 一 致 性 要 求 极 
高 的 系统 ， 所 以 数据 库 利 用 记录 操作 日 志 的 方式 来 保证 数据 一 致 性 的 做 
法 是 目前 普 训 使 用 的 ， 而 且 是 实际 效果 最 好 的 方法 。NetApp 的 Data 
ONTAP 操 作 系 统 ， 就 是 利用 了 数据 库 这 种 设计 思想 ， 它 把 同文 件 系统 
或 卷 的 一 切 写 入 请 求 作为 操作 日 志 记 录 到 NVRAM 中 保存 ， 每 当日 志 被 
保存 到 了 NVRAM 中 ， 就 会 同上 层 应 用 返回 写 入 成 功 信和 号。 





为 何 要 用 NVRAM 而 不 是 文件 来 保存 日 志 呢 ? 
10.6.3 ”利用 NVRAM 来 记录 操作 日 志 


数据 库 系统 完全 可 以 直接 将 操作 日 志 写 入 磁盘 ， 而 不 必 先 写 入 内 存 
中 的 日 志 缓 冲 区 ， 再 在 触发 条 件 下 将 日 志 写 入 磁盘 上 的 文件 。 然 而 这 么 
做 会 严重 降低 性 能 ， 因 为 日 志 的 写 入 是 非常 频繁 的 ， 且 必须 为 同步 写 
入 。 如 果 每 条 日 志 记 录 都 写 入 磁盘 ， 则 由 于 磁盘 相对 于 内 存 来 说 是 慢 速 

















IO 设备 ， 所 以 会 造成 严重 的 IO 瓶 宽 。 所 以 必须 使 用 内 存 中 的 一 小 块 来 作 
为 日 志 缓 存 。 





但 是 一 旦 系统 发 生意 外 挥 电 ， 则 内 存 中 的 日 志 还 没 来 得 及 保存 到 便 
盘 就 会 丢失。 在 数据 库 再 次 局 动 之 后 ， 会 提取 人 硬盘 上 已 经 保存 的 日 志文 
件 中 的 条 目 来 重 放 这 些 操作 ， 对 于 没有 提交 的 操作 ， 进 行 回 深 。 这 样 ， 
就 保证 了 数据 的 一 致 性 。 


如 琳 录 个 应 用 程序 频繁 地 进行 提交 操作 ， 则 日 志 缓 冲 区 的 日 志 便 会 
被 频繁 写 入 磁盘 。 在 这 种 情况 下 ， 日 志 缓存 就 起 不 到 多 少 作 用 了 。 笠 
好 ， 对 于 很 多 需要 访问 数据 库 的 应 用 程序 来 将， 上 层 的 每 个 业务 操作 一 
般 都 算 作 一 个 交易 ， 在 交易 尚未 完成 之 前 ， 程 序 是 不 会 发 送 提交 指令 给 
数据 库 系 统 的 ， 所 以 频繁 提交 友 生 的 频率 不 局 。 











然而 ， 上 层 应 用 问 文 件 系 统 中 写 数据 的 话 ， 每 个 请 求 都 是 一 次 完整 
的 交易 。 如 果 对 每 个 请 求 都 将 其 对 应 的 操作 日 志 写 入 和 磁盘， 开销 就 会 很 
大 。 所 以 NetApp 索 性 利用 带电 池 保 护 的 RAM 内 存 用 作 记 录 操 作 日 志 的 
存储 空间 。 这 样 一 来 ， 不 但 日 志 写 入 的 速度 很 快 ， 而 且 不 用 担心 意外 掉 
电 。 有 了 这 种 电池 保护 的 RAM 〈 称 为 NVRAM 似 乎 不 合适 ， 因 为 
NVRAM 不 用 电池 就 可 以 在 不 供电 的 情况 下 保存 数据 ， 而 NetApp 使 用 的 
是 带电 池 保 护 的 RAM， 下 文 姑且 称 其 为 NVRAM) 来 记录 操作 日 志 ， 只 
要 日 志 被 成 功 存 入 了 这 个 RAM， 就 可 以 立即 通知 上 层 写 入 成 功 。 





一 定 要 搞 清 楚 日 志和 数据 缓存 的 区 别 。 日 志 只 是 记录 一 种 操作 动作 
以 及 数据 内 容 ， 而 不 是 实际 数据 块 ， 前 者 比 后 者 要 小 很 多 。 实 际 数据 块 
保存 在 RAM 中 而 不 是 NVRAM 中 。 








由 于 用 RAM 来 保存 日 志 ， 所 以 速度 超级 快 ， 可 以 一 次 接收 上 干 条 





写 入 请 求 而 直接 同上 层 应 用 返回 成 功 信 号 ， 待 RAM 半 满 或 每 10 秒 钟 的 
时 候 ， 这 些 数据 由 WAEFL 一 次 性 批量 连续 写 入 硬盘 ， 保 证 了 高 效率 。 这 
也 是 NetApp 的 NAS 为 什么 相对 比较 快 的 一 个 原因 。 





10.6.4 WAEFL 从 不 履 写 数据 


每 当 NVRAM 中 的 日 志 占 用 了 整个 NVRAM 空 间 的 一 半 或 每 10 秒 钟 
也 可 能 是 其 他 的 某 些 条 件 达 到 临界 值 的 时 候 ，WAFL 便 会 将 所 有 组 存在 
内 存 缓 冲 区 内 的 已 经 改写 的 数据 以 及 元 数据 批量 写 入 人 硬盘， 同时 清空 操 
作 日 志 ， 腾 出 空间 给 接 下 来 的 请 求 使 用 。 这 个 动作 叫做 Check Point。 





WAFL 并 不 会 履 盖 掉 对 应 区 块 中 原来 的 数据 ， 而 是 寻找 磁盘 上 的 空 
朵 块 来 存放 被 更 改 的 块 。 也 就 是 说 ， 所 有 由 WAEFL 写 入 的 数据 都 会 写 入 
空闲 块 ， 而 不 是 覆盖 旧 块 。 另 外 ， 在 Check Point 没 有 发 生 的 时 候 ， 或 者 
数据 没有 全 部 被 Flush 之 前 ，WAEFL 从 来 不 会 写 入 任何 元 数据 到 磁盘 。 


有 了 以 上 两 个 机 制 就 可 以 保证 在 Check Point 没 发 生 之 前 ， 磁 盘 上 的 
元 数据 所 对 应 的 实际 数据 仍然 为 上 一 个 Check Point 时 候 的 状态 。 如 果 此 
时 发 生 突然 新 电 等 故障 ， 虽 然 可 能 有 新 数据 已 经 被 写 入 空闲 块 ， 但 是 元 
数据 并 未 写 入 ， 所 以 磁盘 上 保存 的 元 数据 还 是 指 问 旧 块 (这 也 是 为 何 旧 
块 从 来 不 会 被 WAEFL 履 善 的 原因 ) ， 数 据 就 像 没 有 变化 一 样 ， 根 本 不 用 
执行 文件 系统 检查 这 种 耗 时 费力 的 工作 。 一 旦 Check ”Point 被 触发 ， 则 
WAFL 先 将 缓存 中 的 所 有 数据 写 入 磁盘 空间 块 ， 最 后 才 将 元 数据 写 入 便 
盘 。 一 旦 新 的 元 数据 写 入 了 便 盘 ， 则 新 元 数据 的 指针 均 指 到 了 方才 被 写 
入 的 新 数据 块 ， 对 应 的 旧 数 据 块 则 变 为 空闲 其 《虽然 块 中 仍 有 数据 ， 但 
古 已 经 没有 任何 指针 指向 它 〉。 




















这 个 特性 使 得 NetApp 的 快照 技术 水 到 渠 成 ， 且 性 能 民 好 。 


10.7” 初 露 锋 芒 一 “BlueArc 公 司 的 NAS 产 品 


上 文中 所 述 的 开 系统 架构 发 展 的 第 九 阶 段 〈 收 缩 阶 段 ) ， 其 代表 束 
是 软件 的 全 芯片 化 。 这 些 芯 片 不 同 于 CPU， 而 是 完全 应 用 逻辑 芯片 ， 比 
如 ASIC 或 更 高 成 本 的 FPGA 和 ” CPLD。 这些 芯片 对 于 专用 逻辑 的 运算 速 
度 远 高 于 CPU， 因 为 CPU 是 读 取 外 部 程序 代码 指令 流 来 执行 并 生成 结 
的 ， 而 专用 蕊 片 则 是 通过 读 入 原始 数据 信号 ， 在 经 过 内 部 逻辑 电路 之 后 
直接 生成 了 输出 信号 。 一 片 频率 100MHz 的 FPGA 在 运行 专用 逻辑 的 时 候 
速度 也 会 高 于 频率 几 GHz 的 CPU。 图 10-47 所 示 为 CPU 的 处 理 流 程 ， 而 图 
10-48 所 示 的 是 FPGA 的 处 理 流程 。 











图 10-47 ”CPU 的 处 理 流程 图 10-48 ”FPGA 的 处 理 流程 








FPGA 心 片 的 频率 目前 已 经 可 以 超越 1GHz， 其 内 部 电路 已 经 达到 
1000 万 门 。 其 可 容纳 的 逻辑 更 多 、 更 复杂 ， 处 理 速 度 越 来 越 快 。 





目前 有 些 厂家 正在 尝试 利用 FPGA 来 取代 CPU。 由 于 FPGA 可 重 构 计 
算 的 特性 ， 人 们 认识 到 许多 能 发 挥 其 特长 的 应 用 。 比 如 在 玩 《Crysis》 
电脑 游戏 时 ， 可 将 FPGA 配 置 成 128 位 的 高 性 能 3D 图 像 处 理 器 ， 当 需要 
听 高 保 真 环绕 立体 声 时 ， 可 将 FPGA 配 置 成 专用 的 DSP 处 理 器 ; 在 高 层 
网 络 交换 机 需要 文 持 新 协议 时 ， 只 需 重新 配置 FPGA 而 不 必 更 改 任何 硬 
件 ; 在 数字 电视 变更 解码 协议 时 ， 只 要 通过 网 络 下 载 数 据 来 重新 配置 
FPGA; 当 从 GSM 网 转 到 CDMA 网 时 ， 也 只 需 重 新 配置 FPGA 而 不 必 更 
换 手 机 了 。 


同样 ， 存 储 产品 公司 BlueArc 在 其 NAS 产 品 Titan 系 列 中 ， 将 其 上 运 
行 的 所 有 软件 逻辑 都 写 入 了 FPGA 中 。 其 产品 将 存储 系统 路 径 上 的 多 个 


模块 也 分 别 做 成 了 可 插 拔 式 模块 ， 包 括 前 端 网 络 接口 模块 、 文 件 系统 模 
块 和 后 端 网 络 接口 模块 。 前 端 接口 是 面 对 客 户 端的 接口 ;文件 系统 则 是 
整个 系统 的 处 理 中 枢 ; 后 端 接口 则 是 连接 磁盘 扩展 柜 的 接口 。 每 个 模块 
上 均 有 多 个 FPGA 六 片 来 处 理 各 自 的 逻辑 。 几 10-49 显 示 了 Titan 各 个 模块 
之 间 的 生态 架构 图 。 














图 10-49 ”Titan 存 储 产品 内 部 架构 示意 图 





图 10-50 为 Titan 产 品 实物 图 。 后 面 有 4 个 插 槽 模块， 中 间 两 个 为 文件 
系统 模块 ， 最 上 面 和 最 下 面 的 模块 分 别 为 前 端 网 络 模块 和 后 端 网 络 栋 
块 。 





图 10-50 ”Titan 存储 产品 实物 图 





且 不 资 Titan 这 种 全 硬件 架构 是 售 成 熟 ， 其 内 部 软件 是 售 兼 容 性 民 
好 ， 抛 开 这 些 因素 不 谈 ， 这 种 架构 其 实 反 映 的 是 一 种 趋势 ， 一 种 精神 。 


10.8 宝刀 未 老 一 ”Infortrend 公 司 NAS 产 品 


在 中 端 SAN 存 储 方面 ， 似 乎 到 处 都 可 见 到 Infortrend 公 司 的 产品 ， 
其 优良 的 做 工 和 中 规 中 矩 的 软件 特性 ， 非 常 适合 被 OEM。 如 今 
Infortrend 这 员 老 将 也 推出 了 目 己 的 双 控 统一 存储 产品 EonNAS， 
最 大 支持 到 256 盘 。 同 时 支持 用 iSCSI、FC、NEFS/CIFS 方 式 访 问 ， 最 大 
文 持 4 个 万 兆 以 太 口 ， 如 图 10-51 所 示 。 这 蒜 NAS 系 统 采用 的 是 双 控 可 热 
插 拔 模块 化 设计 ， 设 计 上 还 是 很 用 心 的 。 











图 10-51 EonNAS3000 控 制 器 机 头 


对 于 NAS 来 讲 ， 软 件 核心 和 功能 胜 过 硬件 规格 。EonNAS 底 层 采 用 
ZFS 作 为 存储 软件 核心 。ZFS 拥 有 多 项 特色 ， 比 如 Raid-Z、 重 定 问 写 、 
原生 快照 /克隆 、 远 程 复制 、 压 缩 、 重 删 、 数 据 一 致 性 支持 等 等 。 这 也 
是 近年 来 ZFS 几 乎 被 所 有 二 三 线 广 商用 作 存 储 底层 的 原因 ， 因 为 它 几 乎 
搞定 了 SAN 和 NAS 存 储 系统 底层 所 需要 做 的 多 数 工 作 。 如 图 10-52 所 示 
为 EonNAS3000 配 置 界面 。 








图 10-52” EonNAS3000 配 置 界面 

















这 里 要 着 重 介 绍 的 一 点 是 ，EonNAS 支 持 无 颖 Failover。 多 数 双 控 
NAS 产 品 是 不 文 持 拷贝 文件 的 同时 发 生 控 制 器 切换 而 同时 又 能 保证 文件 
找 贝 过 程 继 续 的 。 很 欣慰 地 看 到 EonNAS 很 好 地 做 了 支持 ， 支 持 这 个 技 
术 ， 需 要 双 控 之 间 同 步 已 经 打开 的 文件 句柄 等 信息 ， 还 是 比较 有 挑战 性 
的 。 如 图 10-53 和 图 10-54 所 示 ， 当 在 执行 文件 找 贝 动作 时 ， 强 行 Failover 
一 台 控 制 器 ， 但 是 文件 拷贝 只 是 提示 了 重 试 或 者 跳 过 ， 并 没有 完全 中 
基 ， 此 时 点 击 重 试 即 可 恢复 之 前 的 找 贝 状态 。 

















图 10-53 ”强行 Failover 


图 10-54 拷贝 可 以 继续 执行 


第 11 革 大 师 之 作 一 一 大 话 以 太 网 


和 TCP/IP 协 议 
加 以 大 网 
四 IP 
四 工 CP 
国 UDP 
国 OSI 


在 老 祖宗 的 OSI 宝典 的 基础 上 ， 后 人 不 知 哪 位 大 侠 ， 创 立 了 目 己 的 
功夫 秘 乱 ， 后 广泛 流传 于 江湖 。 这 套 秘 厂 ， 束 是 大 名 此 蜀 的 “以 太 网 和 
TCP/IP 大 法 ”。 





11.1 共享 总 线 式 以 太 网 


如 何 让 多 台 PC 之 间 能 够 相互 连接 并 且 相 互 发 送信 息 呢 ?既然 说 到 
独立 系统 之 间 的 互联 ， 那 就 可 以 参考 OSI 来 做 。 在 参考 OSI 之 前 先 参考 
三 元 素 ， 即 连 起 来 、 找 目标 、 发 数据 。 


11.1.1 连 起 来 


“ 连 ” 这 个 动作 ， 包 括 了 OSI 的 物理 层 和 数据 链 路 层 。 首 先 要 找 一 种 
连接 方式 将 所 有 点 连接 起 来 。 连 接 多 个 节点 最 简单 的 办 法 就 是 总 线 技 
术 。 总 线 就 是 一 个 公共 的 媒介 。 要 交流 ， 就 必须 提供 交流 所 需 的 场 捷 ， 
这 个 场所 束 是 总 线 。 将 总 线 想象 成 一 根 钢 导 线 ， 每 个 节点 都 连接 到 这 条 
线 上 。 这 样 每 个 节点 的 信号 ， 在 总 线 上 所 有 的 其 他 节点 都 会 感知 到 ， 因 
为 民 导 体 上 的 电位 处 处 相等 。 














基于 这 个 总 线 模型 ， 早 期 的 以 太 网 是 使 用 集 线 右 (CHUB) 将 每 台 
PC 都 连接 到 和 它 的 一 个 接口 上 ， 所 有 这 些 接口 通过 集线器 内 的 中 继 电 路 
连接 在 一 起 。 为 什么 需要 中 继 上 器， 为 什么 不 可 以 直接 物理 连接 在 一 起 
呢 ? 使 用 中 继 器 的 主要 原因 有 两 个 : 第 一 ， 信 和 号 在 总 线 上 传输 时 受到 干 
扰 可 能 会 迅速 娶 减 。 加 了 中 继 占 后 集 线 旨 将 从 一 个 接口 收 到 的 bit 尝 复制 
到 每 个 接口 ， 这 样 惑 避免 了 信和 号 衰减 : 第 二 ， 中 继 需 可 以 防止 由 于 不 可 
知 的 原因 ， 造 成 两 个 节点 同时 向 总 线 上 放置 信号 所 造成 的 短路 。 图 11-1 
是 一 个 HUB 模 型 。 








图 11-1 HUB 模 型 


在 数据 链 路 层 ， 以 太 网 使 用 帧 的 形式 来 发 送 数据 流 。 上 层 的 数据 流 
被 封装 成 一 个 个 的 以 太 网 帧 ， 在 总 线 上 传播 。 


11.1.2 找 目 标 








为 了 区 分 总 线 上 的 每 个 节点 ， 每 个 节点 都 必须 具有 一 个 唯一 的 喘 份 
标志 。 以 太 网 中 ， 这 个 标志 被 称 作 Media Access ”Control (MAC) 地 
址 ， 介 质 访问 地 址 ， 即 只 有 数据 帧 中 包含 这 个 地 址 ， 总 线 介 质 上 拥有 这 
个 地 址 的 接收 方才 知道 这 个 数据 帧 是 给 自己 的 ， 从 而 才 会 将 其 保存 到 绥 
冲 区 内 。 实 际 上 ， 每 个 以 太 网 帧 中 都 包含 源 MAC 地 址 和 目的 MAC 地 
ib 


MAC 地 址 是 一 个 6 字 节 (48b) 长 的 字段 ， 每 个 节点 的 网 卡 都 有 一 
个 全 球 唯 一 的 MAC 地 址 ， 这 个 地 址 在 网 卡 出 厂 时 被 固化 在 芯片 中 。 





以 太 网 就 是 利用 MAC 地 址 来 区 分 每 个 节点 的 。 
11.1.3 发 数据 


既然 是 总 线 方 式 联 网 ， 那 么 每 个 节点 发 出 的 信和 号， 总 线 上 的 所 有 区 
扩 部 会 感知 到 ， 并 且 ， 同 一 时 刻 只 能 由 一 个 市 点 的 信号 在 总 线 上 传递 ， 
如 果 同 时 有 多 个 节操 都 问 总 线 上 传递 信号 ， 则 各 路 信号 之 间 就 会 发 生 冲 
突 。 比 如 ， 节 点 A 在 时 间 点 Tl 时 刻 向 总 线 上 放置 高 电位 信号 (假设 电位 
为 0.5V〉， 而 节点 B 在 Tl 时 刻 向 总 线 上 放置 低 电位 信号 (假设 电位 为 
0V) ， 这 样 ， 就 形成 了 电流 通路 ， 一 方面 造成 短路 ， 缩 短 设备 寿命 ; 
另 一 方面 总 线 上 的 其 他 节点 所 感知 到 的 电位 总 是 0(。 所 以 ， 任 何 情况 
下 ， 都 不 能 让 多 个 市 点 同 时 间 忌 线 上 放置 信号 。 








有 如 下 两 种 措施 可 以 防止 这 种 情况 的 发 生 。 


a 集 线 右 中 的 中 继 电 路 ， 会 防止 由 于 恶意 破坏 或 者 其 他 不 可 知 的 程 
序 bug 所 导致 的 信号 冲突 。 


a 在 协议 角度 ， 从 根本 上 杜绝 这 种 情况 的 发 生 。 


在 总 线 上 ， 每 个 节点 利用 载波 侦 听 机 制 (CCSMA) 来 检测 当前 总 线 
上 是 人 否 有 其 他 市 点 的 信号 正在 传播 ， 一 旦 检测 到 信号 ， 则 和 暂时 不 发 送 绥 
冲 区 内 的 数据 帧 ， 并 不 断 地 侦 听 电路 上 的 信号 ， 一 旦 发现 总 线 空 有 ， 则 
立即 站 总 线 上 放置 信号 ， 声 明 要 使 用 总 线 ， 如 果 在 完全 相同 的 时 刻 ， 忆 
ee NN 两 个 节点 检测 到 
冲突 后 ， 会 撤销 声明 ， 继 续 回 到 侦 听 状态 ， 这 个 过 程 叫做 冲突 检测 
(CDYs 








但 两 个 节点 在 同一 时 刻 同 时 发 出 信号 的 几率 很 小 ， 即 使 本 轮 声明 失 
败 ， 在 下 一 轮 争 抢 声明 中 ， 某 个 节点 胜利 的 几率 是 很 大 的 ， 而 且 以 太 网 
中 的 所 有 节点 的 优先 权 都 是 一 样 的 ， 或 者 可 以 说 以 太 网 内 没有 优先 权 的 
概念 ， 包 括 网 关 设 备 在 内 。 而 SCSI 总 线 的 优先 级 最 高 ， 因 为 SCSI 协 议 
本 身 就 是 一 个 Poll- Response 型 的 协议 ， 顺序 寻找 总 线 上 的 
除 上 自身 之 外 的 所 有 其 他 节点 ， 它 的 优先 级 最 高 。 所 以 对 于 以 太 网 来 说 ， 
ee 
情况 。 





另外 ， 也 不 必 担 心 这 种 CSMA/VCD 机 制 会 耗费 过 多 的 时 间 ， 由 于 这 
种 机 制 不 是 靠 CPU 执 行 代码 来 实现 的 ， 而 完全 是 靠 电路 逻辑 执行 的 ， 所 
以 速度 都 在 微 秒 级 ， 宏 观 上 不 会 感觉 到 延迟 。 


如 果 一 条 总 线 上 的 节点 过 多 ， 则 发 生 冲 突 的 几率 惑 越 大 ， 造 成 的 开 
销 和 延迟 也 越 大 。 夯 一 方面 节点 越 多 ， 每 个 节点 使 用 总 线 的 平均 时 间 也 
就 会 降低 ， 宏 观 上 ， 也 惑 造成 了 每 节点 的 可 用 带宽 降低 。 所 以 共享 总 线 
方式 的 网 络 ， 可 接 入 的 节点 数量 是 有 限 的 。 











节点 取得 了 总 线 使 用 权 之 后 ， 便 开始 发 送 数据 帧 ， 也 就 是 将 数据 帧 
的 比特 流转 换 成 电信 号 ， 以 一 定 的 间隔 速度 放置 到 总 线 上 ， 对 于 10Mbys 
以 太 网 来 说 ， 每 隔 一 千 万 分 之 一 秒 ， 总 线 上 的 信号 就 被 放置 一 次 ， 直 到 
整个 数据 帧 被 传播 完毕 ， 总 线 空 骨 ， 然 后 节点 再 发 起 新 一 轮 的 
CSMA/CD 过 程 。 


竺 一 个 节点 向 总 线 上 传播 数据 的 同时 ， 所 有 其 他 节点 都 会 将 总 线 上 
正在 传播 的 信号 保存 到 各 目的 缓冲 区 内 ， 形 成 一 帧 一 帧 的 数据 。 也 就 是 
说 ， 共 至 式 以 太 网 中 ， 任 何 一 个 市 把 所 发 送 的 数据 ， 其 他 所 有 节操 都 会 
收 到 。 








这 电 不 是 没有 隐私 可 言 了 么 ? 


的 确 ， 只 要 在 HUB 上 的 任何 一 个 节点 上 安装 一 个 抓 包 软件 ， 就 可 以 
抓 取 总 线 上 的 信号 ， 看 到 任何 源 节 点 发 送 到 任何 目的 节点 的 数据 。 


比如 ， 节 点 A 想 与 节点 B 通 信 ， 节 点 B 怎 么 知道 当前 总 线 上 的 数据 是 
给 它 的 呢 ? 我 们 上 面 讲 过 ， 每 个 节点 都 有 一 个 MAC 地 址 ， 节 点 A 若 想 将 
数据 传送 给 节点 B， 驶 会 在 数据 帧 中 的 特定 字段 填 入 节点 B 的 MAC 地 址 
《目的 MAC 地 址 ) ， 并 且 在 特定 字段 填 入 节点 A 自 己 的 MAC 地 址 〈 源 
MAC 地 址 ) ， 这 个 数据 包 被 所 有 人 收 到 ， 当 然 包括 B 节 点 。B 节 点 检测 
这 个 帧 的 目的 MAC 地 址 ， 与 自身 的 MAC 地 址 作对 比 ， 如 果 相 配 ， 则 得 
知 这 个 帧 是 给 自己 的 ， 并 且 通 过 检测 源 MAC 地 址 段 ，B 会 知道 这 个 帧 是 
节点 A 给 的 。 而 节点 C 此 时 也 收 到 了 这 个 帧 ， 它 也 会 对 比 自 己 的 MAC 与 
帧 中 的 目的 MAC 字 段 ， 发 现 不 匹配 ， 所 以 知道 这 个 帧 不 是 给 自己 的 ， 
立即 将 其 丢弃 。 























以 太 网 定义 了 一 种 特殊 的 MAC 地 址 ， 这 个 地 址 的 所 有 48 位 的 值 都 


为 1。 这 个 地 址 对 应 了 总 线 上 的 所 有 布 点 ， 也 就 是 次 ， 如 果 茶 个 数据 帧 
中 的 目的 地 址 是 这 个 特殊 的 MAC 地 址 ， 则 所 有 接收 到 这 个 帧 的 节点 都 
会 保存 起 来 并 提交 上 层 协 议 处 理 ， 而 被 这 个 地 址 称 为 广播 地 址 。 


11.2 网 桥 式 以 太 网 


前 面 描述 了 共 孚 总 线 型 以 太 网 。 会 发 现 ， 一 个 人 次 话 所 有 人 都 听 
到 ， 这 不 安全 ， 也 没 必 要 浪费 资源 。 必 须发 明 一 个 机 制 来 改进 ， 网 桥 的 
出 现 ， 初 步 降 低 了 这 个 问题 所 带 来 的 影响 。 


网 桥 也 有 多 个 接口 ， 外 观 甚至 和 HUB 一 样 ， 但 是 里 面 的 电路 加 入 了 
逻辑 运算 电路 和 智能 化 的 东西 ， 不 像 HUB 一 样 ， 所 有 接口 复制 总 线 上 的 
数据 。 


网 桥 把 它 上 面 的 接口 分 了 很 多 组 ， 每 一 个 组 中 的 接口 都 在 一 条 独立 
的 总 线 上 ， 不 同 的 组 使 用 不 同 的 总 线 。 也 就 是 说 ， 除 非 网 桥 转发 过 去 ， 
否则 某 个 组 中 总 线 上 的 数据 ， 不 会 被 另外 的 组 收 到 。 这 样 就 减 小 了 冲突 
域 ， 相 当 于 本 来 10 个 人 的 小 组 ， 分 成 了 多 个 子 讨 论 组 ， 一 个 讨论 组 在 讨 
论 的 同时 ， 男 一 个 讨论 组 也 可 以 讨论 ， 两 个 组 完全 物理 上 隔离 。 这 样 ， 
接 入 相同 数目 的 节点 ， 但 是 性 能 却 比 HUB 好 多 了 。 图 11-2 为 一 个 网 桥 模 
型 。 


图 11-2 ”网 桥 模型 








如 图 11-2 所 示 ， 节 点 A 与 B 在 总 线 1 (冲突 域 1) 中 ， 总 线 1 与 总 线 2 
是 隔离 的 ， 如 果 人 A 与 B 通 信 ， 则 只 会 在 总 线 1 上 节点 ，A 与 B 通 信 有 的 同 
时 ， 总 线 2 上 的 C 与 D 也 可 以 通信 。 这 样 ， 每 个 冲突 域 中 所 包含 的 节点 数 
目 降 低 了 ， 所 以 相对 HUB 来 说 提高 了 性 能 。 








但 是 如 果 人 A 想 与 D 通 信 ， 怎 么 办 呢 ?” 点 无 疑问 ， 桥 接 蕊 片 必 须 将 A 发 
出 的 数据 帧 从 总 线 1 复制 到 总 线 2 上 ; 反之 亦 然 。 那 么 ， 桥 接 芯 片 如 何 知 
道 菜 个 数据 帧 是 A 发 送 给 DD 的 ， 而 不 是 B 的 昵 (A 发 送 给 B 的 数据 帧 不 能 


被 复制 到 总 线 2， 否 则 就 和 HUB 一 样 了 ) ? 显然 ， 桥 接 心 片 必 须 对 数据 
帧 进行 分 析 ， 分 析 其 中 的 目的 MAC 地 址 ， 如 果 某 个 数据 帧 的 源 节 点 在 
总 线 1 上 ， 其 目的 MAC 地 址 对 应 的 节点 也 在 总 线 1 上 ， 那 么 必 片 就 不 会 
复制 这 个 数据 帧 到 其 他 总 线 ， 但 是 如 果 目 的 MAC 对 应 的 市 皮 与 源 节 扣 
不 在 一 个 总 线 上 ， 则 桥接 必 片 会 将 这 个 数据 帧 转发 到 目的 节点 所 在 的 总 
线 ， 从 而 让 目的 市 点 收 到 。 








为 了 做 到 这 一 点 ， 网 桥 必 须知 道 某 条 总 线 上 到 底 包 含 了 哪些 MAC 
地 址 ， 这 样 才能 做 到 根据 目的 MAC 与 总 线 的 对 应 关系 来 决定 某 个 数据 
帧 是 否 需要 转发 ， 转 发 到 哪 条 总 线 。 桥 接 忆 片 是 通过 动态 学 习 来 填 
充 “MAC 一 总 线 ” 对 应 表 的 。 





每 当 总 线 上 有 数据 帧 通过 ， 桥 接 蕊 片 就 去 提取 它 的 源 MAC 地 址 ， 

放 入 对 应 表 中 〈 已 经 存在 的 记录 将 会 忽略 ) 。 比 如 ， 当 网 桥 刚刚 加 电 的 
时 候 ， 这 张 对 应 表 是 空 的 。 这 时 总 线 1 上 的 A 向 B 发 送 了 一 个 数据 由 因 
为 是 共享 总 线 ， 所 以 桥接 芯片 也 会 同样 收 到 这 个 帧 ， 网 桥 立 即 提取 这 个 
帧 中 的 源 MAC 地 址 ， 假 如 这 个 MAC 值 为 : 00-40-D0-A0-A3-7D， 就 向 表 
中 填 入 一 条 “00-40-D0-A0-A3-7D ” bus1”， 这 表示 busl 总 线 上 ， 有 一 个 
MAC 地 址 为 00-40-D0-A0-A3-7D 的 市 点 连接 着 。 同 样 ， 所 有 总 线 上 所 收 
到 的 源 MAC 地 址 都 会 被 记录 到 表 中 。 如 果 从 总 线 1 上 收 到 一 个 数据 帧 ， 

经 过 查 表 发 现 其 目的 MAC 在 男 一 条 总 线 上 ， 则 网 桥 将 这 个 帧 转发 到 那 

条 总 线 。 如 果 某 个 帧 的 目的 MAC 还 没有 被 网 桥 学 习 到 ， 也 就 是 说 网 桥 

不 知道 这 个 MAC 在 哪个 总 线 ， 则 网 桥 便 向 除 发 送 这 个 帧 的 总 线 之 外 的 

其 他 总 线 转 发 这 个 帧 ， 直 到 学 习 到 这 个 MAC 条 目 。 














强调 : ”网 桥 并 不 记录 到 底 是 哪个 端口 所 连接 的 节点 具有 这 个 
MAC， 因 为 根本 没有 必要 记录 端口 信息 ， 数 据 帧 只 要 进入 这 
条 总 线 ， 这 条 总 线 上 所 有 端口 下 连接 的 地 点 就 都 会 收 到 数据 ， 





只 记录 “总 线 - MAC” 统计 表 即 可 ， 所 以 没有 必要 记录 “端口 - 
MAC” 表 。 


11.3 ”交换 式 以 太 网 


HUB 是 一 锅 粥 ， 网 桥 也 好 不 到 哪里 去 ， 只 不 过 把 这 一 锅 大 粥 分 成 了 
多 锅 小 粥 而 已 。 


随 着 人 硬件 拉 术 的 所 高， 交换 式 以 太 网 出 现 了 。 交 换 式 以 太 网 利用 交 
换 机 蔡 代 了 网 桥 。 其 实 交 换 机 也 是 一 种 网 桥 ， 一 种 特殊 的 网 桥 。 普 通 网 
桥 中 ， 每 个 端口 组 (冲突 域 》 中 有 不 止 一 个 端口 ， 而 交换 机 中 ， 每 个 站 
口 组 中 只 有 一 个 端口 ， 也 可 以 这 么 次， 交换 机 上 的 每 个 端口 都 独占 一 条 
忆 线 。 这 样 交 换 机 彻 折 隔离 了 冲突 域 ， 而 不 是 仅 仪 减 小 了 冲突 域 ， 也 就 
是 说 ， 交 换 机 的 每 个 端口 下 都 是 一 个 独立 的 冲突 域 。 


此 外 ， 交 换 机 内 部 已 片 ， 也 不 再 被 称 作 桥 接 心 厂 ， 而 改 成 交换 芒 
片 。 网 桥 芯片 学 习 并 记录 “MAC- 总 线 ? 对 应 表 ， 那 么 顺 蕨 摸 瓜 ， 交 换 机 
既然 每 个 端口 独占 一 个 总 线 ， 理 所 当然 的 ， 交 换 蕊 片 学 习 并 记录 的 就 
是 “MAC- 端 口 ” 对 应 表 。 





交换 机 是 以 太 网 的 最 终 实 现形 式 。 端 口 之 间 不 再 是 共享 总 线 通信 ，， 
而 是 可 以 在 任意 时 刻 、 任 意 两 个 端口 之 间 同 时 收发 数据 。 





HUB 是 没有 大 脑 的 ， 只 有 一 个 中 继 器 。 网 桥 进化 出 了 大 脑 ， 但 是 智 
丙 不 高 。 而 交换 机 则 拥有 高 乔 商 的 大 脑 和 极 快 的 运算 速度 。 图 11-3 便 是 
一 个 交换 式 模型 。 





图 11-3 ”交换 式 以 太 网 模型 


11.4 ” TCP/IP 协 议 





以 太 网 的 出 现 ， 给 系统 间 互 联 提供 了 方便 的 方式 。 每 个 节点 安装 一 
甘 以太 网 适配器 ， 上 层 程序 只 要 将 要 发 送 的 数据 以 及 数据 要 到 达 的 目的 
MAC 地 址 告诉 以 太 网 卡 ， 数 据 就 可 以 通过 以 太 网 传输 到 目的 ， 完 成 通 
信 过 程 。 





但 是 实际 中 ， 以 太 网 并 不 是 直接 被 应 用 程序 使 用 来 收发 数据 的 。 完 
其 原因 ， 束 是 因为 以 太 网 是 一 个 没有 传输 保障 机 制 的 网 络 。 首 和 完 以 太 网 
设备 不 会 对 数据 帧 进行 校 验 纠 错 等 措施 。 其 次 以 太 网 设备 一 旦 由 于 数据 
交换 量 过 大 ， 束 可 能 造成 缓冲 区 队列 充满 而 主动 丢弃 数据 帧 ， 而 且 丢 弃 
数据 帧 的 同时 ， 不 会 有 任何 措施 来 通知 发 送 方 。 所 以 ， 以 太 网 是 一 个 不 
可 菲 的 网 络 。 应 用 程序 如 果 和 直接 调用 以 太 网 来 发 送 数 据 ， 则 必须 忍受 于 
失 数 据 的 风险 。 











为 了 解决 以 太 网 的 这 个 弱点 ， 人 们 在 以 太 网 之 上 ， 增 加 了 一 个 层 
次 ， 在 这 个 层次 上 ， 人 们 实现 了 以 太 网 所 不 具有 的 功能 。 运 行 在 这 个 层 
次 上 的 程序 ， 用 了 很 多 复杂 的 机 制 来 保证 发 送 给 以 太 网 适配器 的 数据 包 
能 够 成 功 地 到 达 对 方 ， 如 果 中 途 及 生 丢 包 现 象 ， 则 本 地 会 通过 超时 未 得 
到 确认 等 机 制 来 重新 发 送 该 数据 包 。 而 应 用 程序 由 原来 的 直接 调用 以 太 
网 接口 ， 改 为 调用 这 种 位 于 以 太 网 上 层 的 新 程序 接口 从 而 获得 可 靠 的 数 
据 收 发 。 





运行 在 这 个 新 层次 上 的 协议 有 很 多 ， 如 NetBEUI、NetBIOS、IPX、 
TCP/IP 等 。 这 些 协 议 ， 其 下 层 调 用 以 太 网 提供 的 服务 ， 上 层 则 向 外 提供 
新 的 调用 接口 ， 回 应 用 程序 提供 可 靠 的 网 络 传输 服务 。 


在 这 些 协议 中 ，TCP/IP 以 其 广 谱 的 适用 性 、 良 好 的 性 能 以 及 能 够 民 
好 地 在 超大 规模 网 络 上 运行 等 优点 ， 迅 速 地 得 到 了 普及 ， 成 为 Internet 网 
络 所 使 用 的 通信 协议 。 


11.4.1 TCP/IP 协 议 中 的 IP 





到 MAC 这 一 层 ， 以 太 网 已 经 实现 了 OSI 的 下 三 层 ， 即 物理 层 、 链 路 
层 和 网 络 层 。 以 太 网 也 只 跨越 了 这 3 层 ， 从 第 四 层 到 第 七 层 ， 以 太 网 没 
有 涉足 〈 现 在 普遍 认为 以 太 网 只 作用 到 链 路 层 ， 这 是 一 个 错误 观点 。 造 
成 这 种 误解 的 原因 ， 是 以 太 网 一 旦 与 TCP/IP 结 合 ， 便 沦落 为 TCP/IP 协 议 
的 链 路 屋 ， 其 第 三 层 地 址 被 以 太 网 的 全 所 映射 掉 了 ， 所 以 掩盖 了 其 第 三 
层 的 元 素 ) 。 





由 于 以 太 网 的 天 生 弱 点 ， 使 它 不 得 不 选择 与 TCP/IP 协 议 合作 ， 求 助 
TCP/IP 协 议 回 上层 应 用 程序 提供 可 靠 传 输 保 障 。 由 于 主动 权 完 全 掌握 在 
TCP/IP 手 中 ， 所 以 TCP/P 同 以 太 网 提出 了 一 个 非常 过 分 的 要 求 ， 即 以 太 
网 要 想 占 有 市 场 一 席 之 地 ， 就 必须 将 MAC 地 址 隐藏 把， 对 外 统统 用 
TCP/P 家 族 的 新 一 代 地 址 : 了 地 址 。 以 太 网 委 曲 求全 ， 不 得 不 同意 这 个 


要 求 。 











其 实 ，TCP/P 提 出 这 个 要 求 不 是 故意 难为 以 太 网 。 因 为 除了 以 太 网 
之 外 ， 还 有 很 多 其 他 类 型 的 联网 方式 。 而 以 TCP/IP 在 业界 的 权威 性 ， 其 
他 网 络 都 求助 于 TCP/TP 来 将 它们 融入 市 场 以 分 一 杯 北 。 而 几乎 每 种 联网 
方式 都 有 自己 的 编 址 和 寻 址 方式 ， 面 对 这 么 多 种 地 址 ，TCP/IP 只 好 快刀 
斩 乱 厅 ， 将 这 些 五 花 八 门 的 地 址 ， 统 统 映射 到 IP 地 址 上 ， 对 外 统一 以 IP 
地 址 作为 编 址 方式 。 








下 面 简单 介绍 一 下 ARP 协 议 。 


既然 TCP/IP 宣 称 要 将 所 有 类 型 的 地 址 全 部 统一 到 IP 地 址 ， 那 么 也 就 
意味 着 ， 网 络 中 的 每 个 节点 ， 都 必须 配备 一 个 了 地 址 ， 节 点 之 间 相 互通 
信 的 时 候 ， 也 要 使 用 耳 地址。 但 是 ， 数 据 帧 最 终 是 通过 底层 的 网 络 传输 
设备 来 转发 的 ， 如 以 太 网 交换 机 。 而 以 太 网 交换 机 是 不 理解 耳 地 址 的 ， 
它 只 能 分 析 数 据 帧 中 特定 偏 移 处 的 MAC 地 址 ， 从 而 做 出 转发 动作 。 所 
以 ， 必 须 有 一 种 机 制 ， 来 将 耳 地 址 映射 成 底层 MAC 地 址 。 














ARP 协 议 就 是 专门 用 来 处 理 一 种 地 址 与 男 一 种 地 址 之 间 相 互 映射 的 
一 种 机 制 。ARP 协 议 运 行 在 每 个 网 络 设备 上 ， 将 一 种 地 址 映射 成 底层 网 
络 设备 所 使 用 的 另 一 种 地 址 。 








对 于 ARP 协 议 ， 本 书 不 再 作 具 体 描述 。 
11.4.2 IP 的 男 外 一 个 作用 





IP 层 还 有 一 个 作用 ， 就 是 适 配 上 下 层 ， 给 链 路 层 和 传输 层 提 供 适 
配 。 适 配 了 什么 ， 怎 么 适 配 的 呢 ? 我 们 知道 链 路 层 有 MTU 的 概念 ， 也 
就 是 链 路 最 大 传输 单元 ， 即 每 帧 所 允许 包含 的 最 大 字 市 数 。 








提示 : ”第 7 章 中 描述 过 ， 链 路 层 就 类 似 于 司机 和 交通 规则 ， 要 
对 货车 的 载重 、 车 型 大 小 有 要 求 ， 如 这 条 路 承受 不 了 多 重 的 

车 ， 每 辆 车 不 能 拉 超 过 多 高 的 货物 等 。 如 条 客户 给 的 货物 太 

大 、 太 重 ， 不 能 一 次 运 过 去 ， 那 么 只 能 把 货物 分 割 、 分 次 运 

送 ， 到 达 目 的 地 后 ， 再 组 装 起 来 。 这 个 动作 由 卫 层 程序 来 做 。 

也 区 是 耳根 据 链 路 的 MTU 值 来 分 割 货物 ， 然 后 给 每 个 分 割 的 贷 
物 块 贴 上 源 和 目的 耳 地 址 、 顺 序号 ， 以 便 在 货物 块 到 达 目 的 地 
后 ， 利 用 顺序 号 来 重新 合并 成 完整 的 一 件 货 








货物 被 分 割 成 块 后 都 需要 被 路 由 转发 一 次 ， 然 而 路 由 噩 每 次 选择 的 


路 径 不 一 定 都 一 样 ， 而 且 每 个 块 都 需要 由 司机 运送 ， 司 机 要 驶 水 平 、 速 
度 不 同 《〈 链 路 层 ) ， 束 难免 会 有 些 先 到 、 有 些 后 到 ， 所 以 到 达 目 的 地 后 
很 有 可 能 乱 序 。 此 时 就 要 用 到 顺序 号 了 ， 这 个 号 码 是 根据 货物 被 分 割 处 
相对 整个 货物 起 点 的 距离 (Offset， 偏 移 量 〉 而 制定 的 。 根 据 这 个 号 ， 
等 所 有 货物 块 到 达 目 的 之 后 ， 对 方 的 耳 程 序 就 会 根据 这 个 号 码 将 零散 的 
块 组 装 起 来 。 





强调 : 每 个 货物 块 都 携 市 IP 头 部 ， 但 是 只 有 第 一 块 携 带 TCP 或 
者 UDP 头 部 ， 因 为 传输 层 头 部 是 在 应 用 数据 之 前 的 ， 卫 分 割 的 
时 候 ， 一 定 会 把 传输 层 头 部 分 割 在 第 一 块 货物 中 。 








11.4.3” ”TCP/IP 协议 中 的 TCP 和 UDP 


TCP/P 协 议 其 实 包 含 了 两 个 亚 层 ，IP 是 第 一 个 亚 层 ， 也 就 是 用 来 统 
一 底层 网 络 地 址 和 寻 址 的 亚 屋 。 第 二 个 亚 屋 ， 就 是 TCP 或 者 UDP， 在 逻 
错 上 和 它 和 们 位 于 正之 目 。 





TCP 的 功能 ， 葡 是 维护 复杂 的 状态 机 ， 保 障 发 送 方 发 出 的 每 个 数据 
包 ， 都 会 被 最 终 传 送 到 接收 方 ， 如 果 发 生 严 重 错误 ， 还 会 同上 层 应 用 反 
馈 出 错 信息 ， 从 而 保证 应 用 层 逻 辑 的 无 误 和 一 致 性 。 


而 UDP 的 功能 ， 则 可 以 理解 为 是 TCP/IP 对 以 太 网 的 一 种 透 传 ， 即 
UDP 是 一 个 没有 传输 保障 功能 的 亚 层 ， 除 了 UDP 可 以 提供 比 以 太 网 更 方 
便 的 调用 方式 外 ， 其 他 方面 没有 什么 本 质 区 别 。 也 许 是 因为 TCP/IP 协 议 
入 得 TCP 的 人 逻辑 太 过 复杂 ， 所 以 提供 了 一 种 绕 过 TCP 复 杂 逻 辑 而 又 比 以 
太 网 更 加 方便 调用 的 方式 ， 即 UDP。 


TCP/IP 协 议 向 上 层 应 用 程序 提供 的 调用 接口 称 为 Socket 接 口 ， 即 “ 插 
座 ” 接 口 。 这 也 体现 了 TCP/IP 想 让 应 用 程序 更 为 方便 地 使 用 网 络 ， 就 像 


将 插头 插入 供电 插座 而 接 入 电网 一 样 使 用 计算 机 网 络 。 


基于 TCP/AP 有 很 多 应 用 层 协议 ， 这 些 协议 必须 依赖 TCP/P 协 议 ， 比 
如 : Ping、Trace、SNMP、Telnet、SMTP、FTP、HTTP 等 。 这 些 应 用 
程序 ， 加 上 它们 所 依赖 的 P、TCP 和 UDP， 然 后 加 上 物理 层 链 路 层 (以 
太 网 等 ) ， 一 并 形成 了 TCP/IP 协 议 簇 。 


1. TCP 协议 





第 7 章 中 说 过 ，TCP 就 是 一 个 押运 员 的 角色 ， 也 就 是 由 它 把 货物 交 
给 IP 做 调度 的 。 货 物 最 初 是 由 应 用 程序 来 生成 的 ， 应 用 程序 又 调用 
Socket 接 口 来 向 接收 方 发 送 这 些 货物 。 应 用 程序 通知 TCP/P 去 特定 的 内 
存 区 域 将 数据 拷贝 到 Socket 的 缓冲 区 ， 然 后 TCP 再 从 缓冲 区 将 数据 通过 
IP 层 的 分 片 后 ， 从 底层 网 络 适 配器 发 送 到 网 络 对 端 。 





TCP 通 过 MSS (Max Segment Size) 来 调整 每 次 转 给 卫 层 的 数据 大 
小 。 而 MSS 的 值 完全 取决 于 底层 链 路 的 MTU 值 。 为 了 避免 I P 分 片 ，MSS 
总 是 等 于 MTU 值 减 掉 IP 头 ， 再 减 掉 TCP 头 之 后 的 值 。 这 样 TCP 发 送 给 也 
的 数据 ， 卫 加 入 卫 头 之 后 ， 恰 好 就 等 于 底层 链 路 的 MTU 值 ， 使 得 耻 不 需 


ena 


强调 : ”既然 货物 的 大 小 要 匹配 MTU， 那 为 什么 不 直接 让 TCP 
把 分 割 好 的 货物 给 IP 昵 ? 


TCP 其 实 很 想 这 么 做 ,但 是 它 很 难 做 到 ， 因 为 TCP 是 个 端 到 端的 协 
议 ， 也 束 是 说 ， 只 有 通信 的 最 终 问 点 维护 着 TCP 状 态 信 息 ， 途 经 的 各 个 
其 他 设备 一 概 不 知道 。 如 果 两 个 端点 所 处 的 局 域 网 都 是 以 太 网 ， 但 是 途 
经 一 段 串 口 链 路 ， 假 设 串 口 MTU 为 576B， 以 太 网 MTU 为 1500B， 那 么 





双方 在 TCP 握 手 的 时 候 会 互相 通告 自己 的 MSS， 因 为 是 端 到 端 协议 ， 不 
关心 途经 的 设备 和 链 路 ， 那 么 它们 都 认为 自己 和 对 方 都 处 在 以 太 网 中 ， 
所 以 互相 都 通告 自己 的 MSS 值 为 1460B (最 大 分 段 大 小 ， 等 于 出 口 MTU 
减 去 卫 头 和 TCP 头 的 开销 ) 。 





这 样 ，TCP 给 IP 的 货物 大 小 就 是 : 1460+TCP 头 三 1480B， 然 后 加 上 
IP 头 传输 出 去 。 一 旦 这 个 数据 包 到 达 了 串口 链 路 ， 则 串口 链 路 两 端的 IP 
层 必 须根 据 串 口 链 路 的 MTU， 对 〈1480+ 串 行 链 路 协议 头 ) 字 节 的 数据 
包 进 行 分 片 ， 将 数据 包 分 成 多 个 576B 的 数据 帧 〈 最 后 一 帧 大 小 可 能 小 于 
576B) ， 从 而 在 串口 链 路 上 传输 。 所 以 TCP 的 MSS， 在 广域网 传输 时 基 
本 派 不 上 用 场 。 不 过 ， 有 机 制 可 以 探测 到 途经 链 路 上 的 最 小 MTU 值 ， 
TCP 参 考 这 个 链 路 最 小 MTU 值 所 得 出 的 MSS 值 ， 这 时 是 很 有 价值 的 。 


在 Windows 系 统 中 ， 每 块 网 卡 的 MTU 大 小 其 实 是 可 调 的 ， 但 是 只 外 
调节 到 比 网 卡 所 连接 到 的 以 太 网 交换 设备 所 允许 的 ee 
可 以 ， 如 果 调 节 到 大 于 这 个 值 ， 则 会 造成 数据 丢失 以 及 不 可 知 的 莫名 错 
误 。Windows 中 是 通过 注册 表 中 以 下 的 键 值 来 调节 MTU 大 小 的 : 


HKEY_LOCAL MACHINE\SYSTEM\ControlSet003\Services\TCP/IP\Param 





图 11-4 是 一 个 TCP 握 手 过 程 中 ， 发 起 连接 端 在 TCP 头 的 option 字 段 中 
给 出 了 本 地 TCP 的 最 大 MSS 值 (本 地 网 络 适配器 最 大 MTU 值 减 去 
40B) 。 本 例 中 由 于 MTU 值 被 配置 成 了 1300B 而 不 是 默认 的 1500B， 所 
以 造成 TCP 通 告 MSS 值 为 1260B。 








图 11-4 ”TCP 握手 过 程 中 的 一 个 包 








TCP 将 上 层 应 用 的 数据 完全 当 作 字 市 流 ， 不 对 其 进行 定 界 处 理 。 
TCP 认 为 上 层 应 用 数据 就 是 一 连 串 的 字 市 ， 它 不 认识 字 节 的 具体 意义 ， 








却 可 以 任意 分 割 这 些 字 节 ， 封 装 成 货物 进行 传送 ， 但 是 必须 保证 数据 的 
排列 顺序 。 


比如 ， 上 层 应 用 要 传输 123456789 这 9 个 数字 ，TCP 可 以 一 次 发 送 这 
9 个 字 节 的 内 容 ， 也 可 以 每 次 发 送 3 个 字 节 ， 分 3 次 发 完 ， 或 者 ， 上 层 放 
到 货 仓 中 1、2、3 三 个 数据 ，TCP 有 可 能 将 这 3 个 数据 打包 一 次 发 送 
(nagel 算 法 ) ，TCP 的 这 些 动作 ， 上 层 都 是 不 知道 的 。 但 是 ， 对 于 
123456789 这 9 个 数字 ， 如 有 果 接 收 疹 先 收 到 1、2、3 这 三 个 数字 ，4 一 9 还 
没有 被 接收 到 ， 而 当 只 有 应 用 程序 完全 接收 到 这 9 个 数字 才 会 认为 数据 
有 意义 时 ， 应 该 怎么 办 呢 ? 








要 解决 这 个 问题 ， 就 得 完全 靠 上 层 应 用 程序 。 比 如 ， 可 以 在 一 个 消 
恩 头 部 增加 一 个 定 长 字段 ， 表 示 这 个 消 恩 的 长 度 ， 比 如 在 123456789 之 
前 增加 一 个 〈9) ， 变 成 (9) 123456789， 那 么 程序 一 旦 接收 到 (9) ， 
就 能 判断 出 接 下 来 要 连续 接收 9 个 字 节 才 有 意义 ， 如 果 某 时 刻 只 接收 到 
了 1、2、3， 应 用 程序 便 会 将 数据 缓存 起 来 ， 然 后 等 待 后 面 的 6 个 数字 。 








如 果 TCP 从 〈9) 处 分 割 了 数据 流 ， 怎 么 办 ?比如 分 割 成 < ”和 ?9) 
123456789” 两 段 数 据 ， 那 么 此 时 接收 方 应 用 程序 接收 到 “(” 这 个 字符 ， 
就 会 不 理解 其 意义 ， 这 样 就 要 求 应 用 程序 必须 有 缓存 ， 把 TCP 交 上 来 的 
数据 流放 到 缓存 中 ， 然 后 自行 合并 成 有 意义 的 数据 后 再 作 处 理 。 





TCP 把 上 层 的 数据 看 作 一 些 无 关联 逻辑 的 数据 流 ， 它 不 会 感知 到 消 
恩 与 消息 之 间 的 定 界 符 。 消 轧 和 消息 之 间 的 界限 需要 完全 由 应 用 程序 目 
行 分 析 。 接 收 端 和 发 送 问 的 TCP 都 保存 一 个 缓冲 区 《〈 货 仓 ) ， 及 送 和 接 
收 的 数据 都 存放 在 货 仓 中 ， 接 收 方 TCP 货 仓 中 的 数据 ， 每 次 被 应 用 程序 
一 次 性 取出 到 应 用 程序 目 己 的 缓冲 区 ， 应 用 程序 再 从 应 用 缓冲 中 将 数据 
流连 接 成 有 意义 的 数据 进行 处 理 。 








一 句 话 ，TCP 是 把 上 层 数据 “分 段 *， 卫 是 把 TCP 分 好 的 段 再 “分 
片 ”〈 如 果 这 个 段 大 于 MTU) ， 了 PP 到达 目 的 之 后 会 把 每 个 分 片 合 并 成 一 
个 TCP 的 “分 段 *， 提 交 给 TCP， 然 后 TCP 就 直接 存放 到 货 仓 ， 顺 序 排 
放 ， 不 管 上 层 消息 间 的 分 界 。 


2. UDP 协 议 


UDP 和 TCP 不 同 ，TCP 是 孙悟空 ， 那 么 UDP 就 是 猪八戒 。UDP 只 是 
被 动 地 起 到 一 个 IP 和 上 三 层 之 间 的 接口 作用 ，UDP 没 有 传输 保障 机 制 ， 
出 错 后 不 会 重 传 ， 不 需要 保持 重 传 缓冲 和 复杂 的 定时 器 、 状 态 机 等 机 
制 ， 而 且 UDP 也 不 会 像 TCP 那 样 把 数据 流 按 照 MSS 分 段 ，UDP 统 统 不 理 
会 。 用 户 传 给 UDP 多 大 的 数据 ， 它 就 一 次 性 发 送出 去 ， 适 配 MTU 的 工 
作 完 全 由 IP 来 做 。 








UDP 没 有 握手 机 制 ， 想 发 就 发 ， 发 完 就 不 省 了 。 正 因为 UDP 这 么 简 
单 ， 所 以 UDP 头 部 只 有 8 字 节 长 ， 包 括 目的 和 源 端 口号 、UDP 数 据 包 长 
度 、UDP 校 验 和 。 而 且 UDP 相 对 TCP 效 率 高 了 很 多 。 所 以 它 适 合用 在 实 
时 性 要 求 很 高 ， 但 是 可 靠 性 要 求 不 高 的 时 候 ， 比 如 实时 视频 流 、 音 频 流 
服务 等 。 














3. 端口 号 


计算 机 操作 系统 上 ， 运 行 着 N 个 程序 ， 也 可 以 说 是 N 个 进程 。 如 宁 
程序 之 间 需 要 相互 通信 ， 就 需要 用 号 码 来 标识 各 个 程序 ， 也 就 有 了 进程 
号 的 概念 。 只 要 知道 一 个 程序 的 进程 号 ， 束 可 以 用 这 个 区 分 其 他 程序 。 














同一 台 计 算 机 上 程序 之 间 的 通信 ， 一 般 是 在 内 存 中 直接 通信 的 。 如 
果 两 台 计 算 机 上 的 两 个 程序 之 间 需 要 通信 ， 虽 然 也 可 以 通过 高 速 网 络 将 








台 计 算 机 的 内 存 共 剖 ， 但 是 这 种 网 络 的 成 本 很 高 。 而 普通 网 络 能 做 到 
的 ， 只 能 用 夯 外 一 种 方式 ， 即 移 将 消息 通过 网 络 发 送 到 邦 一 个 计算 机 ， 
然后 让 接收 到 消 妃 的 计算 机 来 选择 把 这 个 消 妃 发 给 其 上 运行 的 对 应 的 程 
序 。 


要 这 样 做 ， 接 收 方 的 操作 系统 中 的 TCP/IP 协 议 就 一 定 需要 知道 某 个 
数据 包 应 该 放 入 哪个 应 用 程序 的 缓冲 区 ， 因 为 同一 时 刻 可 能 有 多 个 应 用 
调用 Socket 进 行 数据 收发 操作 。 为 了 区 分 开 正 在 调用 Socket 的 不 同 应 用 
程序 ，TCP/P 协 议 规 定 了 端口 号 的 概念 。 任 何 一 个 应 用 程序 在 调用 
Socket 的 时 候 ， 必 须 声 明 连 接 目 的 计算 机 上 TCP/IP 协 议 的 那个 端口 号 。 





11.5 TCP/IP 和 以 太 网 的 关系 


强调 : ”很 多 人 把 TCP/IP 和 以 太 网 硬性 关联 起 来 ， 认 为 TCP/IP 
就 是 以 太 网 ， 或 者 以 太 网 就 是 TCP/IP， 这 种 思想 是 完全 错误 
的 。 


TCP/IP 是 一 套 协 议 体系 ， 以 太 网 也 是 一 套 协 议 体 系 ， 它 们 之 间 是 相 
互利 用 的 关系 ， 而 不 是 相互 依存 的 关系 。 





TCP/IP 协 议 并 不 像 以 太 网 一 样 有 其 底层 专门 的 硬件 ， 但 是 它 可 以 租 
用 一 切合 适 的 硬件 来 为 它 充当 物理 层 和 链 路 层 的 角色 。 除 了 以 太 网 交换 
机 ，TCP/P 甚 至 可 以 用 无 线 电波 、 红 外 线 、USB、COM 串 口 、ATM 等 
作为 其 物理 层 和 链 路 层 。 





以 太 网 给 TCP/IP 充 当 了 链 路 层 ， 不 一 定 代 表 它 只 能 作用 于 链 路 层 。 
以 太 网 有 自己 的 网 络 层 编 址 和 寻 址 机 制 ， 它 有 网 络 层 的 元 素 。 各 种 联网 
协议 都 有 自己 的 层次 ， 都 在 OSI 模型 中 有 自己 的 定义 ， 只 不 过 TCP/IP 协 
议 在 网 络 层 和 传输 层 的 功能 应 用 得 太 广 泛 了 ， 所 以 OSI 的 第 三 层 和 第 四 
层 ， 几 乎 就 是 被 TCP/PP 协 议 给 统治 了 ， 其 他 协议 虽然 也 占有 一 席 之 地 ， 
但 是 相 比 TCP/ 耻 的 光辉 就 暗淡 了 许多 。 另 外 ，TCP/P 没 有 统治 链 路 层 和 
物理 屋 ， 在 这 两 层 中 ， 就 是 其 他 协议 体系 的 天 下 ， 所 以 TCP/IP 只 能 “ 租 
用 ”其 他 底层 协议 (比如 以 太 网 ) ， 来 完成 OSI 开放 系统 互联 的 任务 。 











这 就 是 PoP， 意 即 Protocol over Protocol。PoP 的 思想 ， 到 处 可 见 ， 
因为 没有 人 可 以 统治 OSI 的 全 部 7 层 ， 毕 况 需 要 大 家 相互 合作 。 





提示 : 关于 PoP 的 具体 分 析 ， 在 本 书后 面 的 章节 中 会 讲 到 。 


第 12 章 ”开车 突起 一 一 存 备 网 络 的 
新 军 IP SAN 


四 工 CP/IP 
加 以 太 网 
四 SAN 
四 了 POP 


TCP/PP 协 议 可 谓 出 尽 了 风头 ， 不 仅 统治 了 Internet， 就 连 局 域 网 通 
信 ， 人 们 也 愿意 使 用 高 开销 的 TCP/P 协 议 ， 可 算是 给 足 了 它 面子 。 





TCP/IP 的 买卖 越 做 越 大 ， 否 并 收购 ， 不 断 涉足 新 领域 ， 甚 至 连 家 用 
电器 都 想 接 入 IP 网 络 。 而 偏偏 有 一 位 避 是 坚持 不 给 TCP/IP 面 子 ， 这 就 是 
大 名 易 易 的 FC 大 侠 。 十 几 年 来 ，TCP/P 在 江湖 上 可 谓 是 叱 啦 风 云 、 前 
呼 后 拥 、 一 呼 百 应 ， 听 惯 了 恭维 话 ， 看 惯 了 鞠躬 人 。 但 是 唯 独 FC 大 使 
从 来 没 正 眼看 过 它 一 次 ，TCP/IP 心 里 窝 火 啊 ! 








12.1 横 眉 冷 对 一 一 TCP/IP 与 FC 





FC 大 使 既然 敢 和 TCP/ 耻 叫板 ， 肯 定 有 自己 的 拿手 本 领 。 


首先 ，FC 在 家 底 儿 上 就 占 了 上 风 ，FC 是 正 儿 八 经 的 世家 ， 四 世 同 
党 (OSI 下 四 层 都 有 定义 ) 。 而 TCP/IP 就 两 蕴 人 (网 络 层 和 传输 层 )， 
好 不 容易 整 了 个 后 代 还 是 收养 的 (租用 以 太 网 等 其 他 底层 传输 网 络 )。 





其 次 ，FC 目 前 普遍 能 跑 出 每 秒 4Gb/s 的 速度 ， 以 太 网 每 秒 100Mby/s 的 
速度 算 正 常 ，1Gb/s 的 速度 算 超 各 发 挥 ，10Gb/s 的 速度 还 正在 修炼 之 
中 。 


再 次 ，TCP/P 办 事 拖泥带水 ， 笨 重 不堪 。 瞧 瞧 TCP/P 的 那个 大 头 
CTCP 和 了 IP 头 开销 合 起 来 要 40B) ， 下 雨 都 能 当 伞 用 。FC 的 脑袋 只 有 
24B。 以 太 网 交换 机 MTU 一 般 为 1500B，FC 交 换 机 则 超过 2000B， 传 输 
效率 上 也 高 过 以 太 网 。 


正 由 于 这 些 原因 ， 服 务 嚣 和 存储 都 愿意 走 FC 的 道 儿 。 


老 T (CTCP/AP ) 心里 一 琢磨 ， 虽 然 俐 家 业 不 如 FC 大 ， 跑 得 不 如 它 
快 ， 长 得 也 比 它 胖 ， 但 俺 也 不 是 一 无 是 处 啊 ! 


首先 ， 俺 广 结 天 下 良友 ， 江 湖 各 处 都 有 俺 的 分 号 。 


其 次 ， 俺 便宜 ， 给 钱 束 让 走 。 且 俺 的 好 兄弟 以 太 网 ， 几 乎 有 网 络 的 





再 次 ， 那 FC 也 不 是 神仙 ， 走 它 的 道 毛病 太 多 ， 兼 容 性 差 ， 扩 展 性 
过 ， 而 且 费 用 太 高 。 就 任 这 三 点 ， 不 信 斗 不 过 FC。 


老 T 陷 入 了 久久 的 沉思 之 中 .……. 


12.2 自 叹 不 如 为 何不 是 以 太 网 +TCP/IP 


以 太 网 可 寻 址 容量 很 大 ， 甚 至 比 卫 的 地 址 容量 都 要 大 ， 是 卫 的 2 16 
倍 。 而 其 地 址 是 定 长 的 ， 且 使 用 专用 电路 完成 交换 动作 。 以 太 网 除了 双 
绞 线 之 外 ， 还 可 以 用 光纤 进行 传输 。 最 重要 的 一 点 就 是 以 太 网 非常 廉 
价 、 部 署 简单 。 一 个 普通 16 口 100Mb 以 太 网 交换 机 ， 只 需要 一 两 百 元 左 
右 。 而 一 个 16 口 的 FC 交换 机 得 上 万 元 ， 还 没有 算 上 适 配 光 纤 的 SFP 适 配 
器 的 费用 。 

















但 是 ， 以 太 网 与 FC 网 络 比 起 来 ， 也 有 其 先天 不 足 之 处 。 


第 一 ， 速 度 方面 ， 以 太 网 目前 只 普及 到 1Gb/s 的 速度 ， 昌 然 10Gb/s 
以 太 网 络 已 经 开发 出 了 成 品 ， 但 是 离 完 全 普及 还 需要 一 段 时 间 。 而 FC 
己 经 普及 到 了 4Gb/s 的 速度 ， 有 日 8Gb/s 和 10Gb/s 速 度 的 FC 接口 标准 也 正在 
制定 当中 。 





第 二 ， 以 太 网 是 一 个 不 可 靠 的 网 络 ， 它 不 是 一 个 端 到 端的 协议 ， 不 
管 源 和 目的 的 状态 ， 只 是 一 味 地 同 接 口上 窄 数 据 ， 这 也 是 下 层 协 议 的 普 
思 特 点 。 即 使 对 方 缓冲 将 满 ， 以 太 网 还 是 照样 往 链 路 上 赛 数据 ， 而 不 会 
有 所 减 慢 。 一 旦 接收 方 缓存 充满 ， 随 后 的 数据 帧 就 会 被 自动 丢弃 而 不 会 
加 上 层 通 告 。 所 以 ， 以 太 网 必须 依靠 一 种 提供 可 靠 传输 机 制 的 上 层 协 议 
才能 达到 可 靠 传输 。 





强调 : Disk SAN 是 唯一 一 个 没有 被 以 太 网 攻克 的 领域 。 最 大 
的 原因 其 实 束 是 因为 以 太 网 的 速度 相对 FC 来 说 慢 了 太 多 。 





以 太 网 仿佛 总 是 慢 了 一 步 。FC 速 率 普 及 到 1Gb/s 的 时 候 ， 以 太 网 才 
刚刚 普及 到 10Mby/s 的 速率 ， 而 且 还 是 HUB 总 线 式 以 太 网 。 而 当 FC 普 及 





到 2Gb/s 速 率 的 时 候 ， 以 太 网 也 刚刚 普及 到 100Mb/s。 直 到 目前 ， 以 太 网 
才 普 及 到 1Gb/s 速 率 ， 而 FC 已 经 普及 到 4Gb/s 了 。 





以 太 网 即使 是 依靠 了 TCP/IP 协 议 提 供 的 传输 保障 机 制 ， 也 难 敌 FC 
协议 。 总 之 ， 目 前 来 说 ，FC 协 议 在 性 能 方面 处 处 比 TCP/P+ 以 太 网 强 。 


12.3 天生 我 才 必 有 用 一 攻陷 Disk SAN 阵 地 


老 T 深 知 ， 自 己 再 怎么 修炼 ， 也 不 可 能 在 速度 和 性 能 上 与 FC 正 面 交 
锋 。 在 江湖 中 摸 扑 深 打 了 这 么 多 年 ， 老 谋 深 算 的 老 T 决 定 避 开 自 己 的 这 
些 短 处 不 谈 ， 发 扬 自 己 的 长 处 ， 将 Disk SAN (相对 于 NAS SAN) 这 个 
阵地 攻陷 。 








俺 老 T 不 管 是 论 品 相 还 是 论 才 能 ， 痢 不 输 给 FC。 既 然 SCSI 能 怒 给 
FC， 它 就 没有 理由 对 俺 不 动心 。 老 T 开 始 做 白 日 梦 ， 异 慢 着 与 SCSI 成 杀 
后 的 种 种 。 


老 T 经 过 一 段 时 间 的 摸索 和 实验 ， 终 于 设计 出 了 一 套 新 协议 系统 ， 
称 其 为 ISCSI， 即 Internet Small Computer System Interface。 即 在 这 种 协 
议 中 ，SCSI 语 言 甚 至 可 以 通过 Internet 来 传递 ， 也 就 是 承载 于 TCP/IP 之 
ss 








由 此 可 见 其 扩展 性 是 非常 高 的 。 只 要 IP 可 达 ， 则 两 个 节点 之 间 就 可 
以 通过 iSCSI 通信 。 也 就 是 说 ， 位 于 中 国 的 一 台 主 机 ， 可 以 通过 iSCSI 协 
议 从 Intemet 访 问 国外 的 存储 空间 。 既 然 ISCSI 协 议 是 利用 TCP/IP 协 议 来 
传输 SCSI 语 言 指 令 ， 那 么 在 通信 的 双方 就 一 定 需要 先 建立 起 TCP 的 连 
接 。 与 FC 协 议 类 似 ，iSCSI 将 发 起 通信 的 一 方 称 为 Initiator， 将 被 连接 端 
称 为 Target。 一 般 来 说 ，Pitiator 端 均 为 主机 设备 ，Target 端 均 为 提供 存 
储 空间 的 设备 ， 比 如 磁盘 阵列 。 





老 T 拿 着 设计 蓝图 找到 了 SCSI 协 议 ， 并 且 成 功 取 得 了 SCSI 的 芳心 。 
于 2004 年 4 月 份 完 婚 ， 并 且 领 到 了 结婚 证 ， 编 号 为 RFC3720。 





两 人 并 屑 携手 ， 成 功 游说 了 一 批 磁盘 阵列 生产 厂商 在 其 产品 上 和 演 试 


着 实现 iSCSI 协议 。 





提示 : ”正如 本 书 第 10 章 中 所 说 的 ， 既 然 SCSI 语 言及 数据 可 以 
用 FC 协议 传递 ， 文 件 系 统 语言 可 以 用 以 太 网 传递 ， 那 么 SCSI 
语言 当然 也 可 以 用 以 太 网 传递 。 


iSCSI 既 然 要 利用 TCP/IP 来 传输 SCSI 协 议 指 令 和 数据 ， 那 么 就 必须 
将 自己 作为 调用 TCP/IP 这 个 传输 管道 的 一 个 应 用 来 看 待 。 大 家 都 知道 在 
浏览 器 中 输入 “http:W/1.1.1.1” 或 者 “http:/1.1.1.1:80”， 就 表示 让 浏览 器 对 IP 
地 址 为 1.1.1.1 的 这 台 服 务 器 上 的 TCP/IP 传 输 管道 的 80 号 端口 发 起 http 请 
求 ， 也 就 是 浏览 网 页 。 同 样 ， 如 果 是 telnet 这 个 应 用 ， 那 就 要 连接 对 方 
的 23 端 口 。 所 谓 “ 端 口 ”， 就 是 被 TCP/IP 协 议 用 来 区 分 每 个 从 管道 中 传 出 
去 或 者 收 进来 的 数据 包 ， 到 底 是 哪个 上 层 应 用 的 ， 哪 个 应 用 在 “监听 ”车 
个 端口 ， 那 么 TCP/ 了 就 将 对 应 的 数据 包 《〈 数 据 包 中 含有 端口 号 信息 ) 发 
送 到 这 个 应 用 对 应 的 缓冲 区 ， 正 因为 TCP/IP 是 个 公用 传输 通道 ， 谁 都 可 
以 利用 它 来 可 靠 地 传输 数据 到 网 络 男 一 端 ， 所 以 才 会 用 “端口 号 ”来 区 分 
不 同 的 发 起 数据 传输 的 应 用 。 


同样 ，iSCSI 也 要 监听 3326 这 个 端口 号 。SCSI 指 令 和 数据 ， 作 为 “ 客 
人 ”， 需 要 被 TCP/ 了 了 这 以“ 发 机 ?运载 到 目的 地 ，SCSI 本 喘 并 不 关心 也 不 
想 去 关心 诸如 从 哪个 登 机 口 〈 端 口号 ) 登 机 、 行 李 托 运 、 安 检 、 海 关 交 
涉 等 一 系列 问题 ， 于 是 需要 有 一 个 代理 或 者 说 引导 者 来 完成 这 些 动作 ， 
这 个 角色 就 是 iSCSI Initiator 和 iSCSI Target。 








早期 的 SCSI 协 议 体系 其 实 从 物理 层 到 应 用 层 都 有 定义 的 ， 网 络 层 也 
有 定义 ， 比 如 一 条 总 线 最 大 16 个 节点 ， 每 个 节点 有 Target 模 式 和 Initiator 
模式 ， 但 是 后 期 SCSI 体 系 的 下 四 层 被 其 他 协议 取代 ，iSCSI+TCP/IP+ 以 
太 网 相当 于 取代 了 下 四 层 ， 所 以 SCSI 上 三 层 不 需要 自己 去 发 现 网 络 里 的 











节点 和 Target 了， 这 些 都 由 iSCSI 这 个 代理 去 完成 。 


首先 iSCSI ”Target 端 运行 在 存储 系统 一 侧 或 者 说 想 要 共享 自己 的 磁 
盘 空间 让 别人 访问 的 那 一 侧 ， 其 作用 是 接收 iSCSI Initiator 端 传输 过 来 的 
SCSI 协 议 指 令 和 数据 ， 并 将 这 些 指令 和 数据 转交 给 自己 这 一 侧 的 SCSI 
协议 栈 〈 其 实 是 Class ”Driver 或 者 SCSI Middle Layer) 处 理 。iSCSI 
Initiator 端 运行 在 想 要 获得 存储 空间 的 主机 一 侧 ， 其 目的 是 同 iSCSI 
Target 端 发 起 连接 ， 并 传输 SCSI 指 令 和 数据 。 在 iSCSI Initiator 端 程序 中 
需要 配置 所 要 连接 的 iSCSI ” Target 端的 IP 地 址 (或 者 使 用 一 种 叫做 iSNS 
的 服务 动态 自动 配置 来 发 现 iSCSI Target) ，iSCSI Initiator 会 主动 向 这 些 
IP 地 址 的 3326 端 口号 发 起 iSCSI Login 过 程 〈 注 意 这 个 动作 不 是 SCSI 协 议 
定义 的 ， 完 全 是 iSCSI 这 个 代理 程序 自己 定义 和 发 起 ) 。Login 过 程 的 交 
互 细节 此 处 不 做 细 表 ，iSCSI Target 端 响应 Login 之 后 ， 双 方 在 iSCSI 层 就 
连通 了 。iSCSI 连 通 之 后 ，Initiator 会 主动 向 Target 发 起 一 个 SCSI “ Report 
Lun 指 令 ，Target 便 疝 Initiator 报 告 所 有 的 Lun 信 息 ， 拿 到 Lun 列 表 之 后 ， 
Initiator 端 主动 发 起 SCSI Inquery Lun 指 令 查 询 每 个 Lun 的 属性 ， 比 如 设备 
类 型 (人 磁盘、 人 磁带、 光驱 、 打 印 机 等 等 和 厂商 之 类 ， 然 后 Initiator 端 
便 癌 OS 内 核 注册 这 些 Lun (这 里 要 注意 一 下 ， 这 两 条 SCSI 指 令 是 
Initiator 固 化 的 ， 不 需要 经 过 其 上 层 的 SCSI 层 ) 。OS 内 核 便 针对 每 个 
Lun 加 载 其 各 目的 驱动 《Windows 下 就 是 Class Driver，Linux 下 就 是 
Block Driver/Tape ”Driver 等 ) ， 在 对 应 的 /dev/ 下 生成 各 上 自 的 设备 。 所 
以 ，iSCSI Initiator 其 实 是 一 个 虚拟 的 Port Driver， 其 通过 调用 TCP/IP， 
TCP/IP 再 继续 调用 底层 网 卡 的 Port Driver 实 现 数据 发 送 。 














FC 也 是 一 个 网 络 ， 也 是 替代 了 传统 SCSI 协 议 栈 的 下 四 层 ，FC 也 不 
是 为 了 专门 承载 SCSI 协 议 才 被 发 明 的 ， 那 么 利用 FC 网 络 发 送 SCSI 协 议 
的 那个 应 用 程序 或 者 说 角色 是 什么 ”就 是 俗称 FCP 的 一 个 协议 ， 相 当 于 


FC 体 系 下 的 一 个 应 用 ， 也 就 类 似 TCP/P 体 系 下 的 FTP、Telnet 等 。FTP 
要 发 起 连接 传 文件 ， 首 先 要 向 对 方 的 TCP 端 口号 21 发 起 连接 ， 同 样 ， 利 
用 FC 传 输 SCSI 指 令 的 FCP， 同 样 也 需要 向 对 方 FC Target 端 某 个 特定 端口 
号 发 起 连接 ，FC Target 端 的 某 个 程序 正在 监听 这 个 端口 的 一 切 动作 。 那 
为 何 主机 端 不 需要 安装 FCP ”Initiator 程 序 呢 ?其 实 FCP 的 Initiator 程 序 就 
是 集成 在 了 FC 适 配 卡 的 驱动 里 了 ， 因 为 FC 的 HBA 卡 目前 来 讲 专 门 分 配 
给 存储 用 ， 所 以 直接 集成 到 驱动 里 ， 不 需要 额外 安装 ， 而 以 太 网 则 不 
同 ， 广 商 不 可 能 上 自 带 iSCSI Initiator 或 者 Target 程 序 ， 所 以 一 般 都 是 独立 
开发 独立 安装 。 另 外 ，FC 协 议 也 像 TCP/IP 协 议 一 样 有 类 似 “ 端 口号 ”的 概 
念 ， 只 不 过 没有 像 TCP/IP 这 样 被 广为人知 轻 了 ， 所 以 用 FC 承载 任何 上 
层 应 用 都 是 可 以 的 ， 当 然 ， 需 要 你 自己 去 开发 了 。 同 样 ，SAS 网 络 里 也 
是 这 样 一 套 运作 流程 ， 利 用 SAS 网 络 承 载 SCSI 协 议 ， 需 要 SSP 发 起 端 和 
目标 端 ， 同 样 ， 也 被 集成 到 了 驱动 里 。 











12.4 iSCSI 交互 过 程 简 析 





以 下 所 有 实例 均 为 Windows XP 操 作 系 统 环境 ， 抓 包 软 件 为 
WireShark 0.99 。 


12.4.1 实例 一 : 初始 化 磁盘 过 程 


图 12-1 一 图 12-6 所 示 的 Trace 结果 是 在 Windows XP 中 ， 初 始 化 一 块 
通过 iSCSI 协议 提交 上 来 的 LUN 磁 盘 的 过 程 中 抓 取 的 。 在 Windows 初 始 
化 一 块 新 磁盘 的 过 程 中 ， 会 对 磁盘 进行 查询 以 及 修改 其 MBR。 下 面 就 
来 分 析 一 下 有 具体 的 动作 。 





图 12-1 中 包含 了 Frame1 一 Frame8。 





图 12-1 初始 化 磁盘 的 过 程 





关键 帧 分 析 


Framel~8: ISCSI Initiator 端 〈 主 机 端 ) 首先 向 LUN (ISCSI 
Target) 发 起 Read Capacity 指 令 来 读 取 此 LUN 的 容量 信息 。 在 Target 返 回 
的 数据 中 ， 可 以 看 到 这 个 LUN 共 包含 的 LBA 数 为 112454 个 ， 总 容量 大 
54MB (112454x512:=1024:*1024) 。 主 机 连续 对 Target 发 出 了 4 次 Read 
Capacity 指 令 ， 这 也 是 程序 上 的 设计 ， 可 能 是 为 了 充分 保证 读 取 到 的 容 
量 是 准确 无 误 的 。 





图 12-2 包 含 了 Frame9 一 Frame10。 


图 12-2 Test Unit Ready 


Frame9 一 10: 主机 在 读 取 完 Target 端 的 容量 信息 之 后 ， 便 发 起 了 一 
个 Test Unit Ready 指 令 来 探寻 Target 端 是 否 处 于 可 工作 状态 或 已 经 准备 就 
绪 。 第 10 帧 是 Target 对 主机 的 响应 。 





图 12-3 包 含 了 Frame11 一 Framel13。 


图 12-3 Mode Sense 


Framel1l 一 13: 主机 问 Target 发 出 了 Mode Sense 指 令 ， 用 来 得 询 
Target 在 iSCSI 处 理 逻 辑 以 及 物理 上 的 相关 参数 。Target 在 第 12 帧 中 返回 
了 结 


Frame14 为 TCP 奔 层 的 ACK， 不 必 深 究 。 
图 12-4 中 包含 了 Frame15 一 Frame16。 
图 12-4 读 取 LBA0 


Frame15 一 16: 主机 读 取 Target 的 第 一 个 LBA， 即 编号 为 全 0 的 
LBA， 这 个 LBA 也 就 是 MBR 扇 区 。 从 数据 内 容 中 可 以 看 出 ， 新 磁盘 的 
这 个 扇 区 的 内 容 是 全 0。 


图 12-5 中 是 Frame17。 


图 12-5” 写 入 MBR 


Frame17: 主机 向 Target 的 0 号 LBA 写 入 了 数据 ， 也 就 是 将 一 些 必要 
信息 写 入 了 MBR。 


图 12-6 中 包含 了 Frame18 一 Erame57。 











图 12-6 多 种 指令 再 次 读 写 











Frame18 一 57: 在 写 入 MBR 之 后 ， 主 机 又 接连 多 次 发 出 Read 
LBA0、Read Capacity、Write LBA0、Test Unit Ready 指 令 。 在 最 后 一 个 
Test Unit Ready 指 令 发 出 并 获得 返回 数据 之 后 ， 人 磁盘 初始 化 完毕 。 此 时 
没有 数据 包 交 互 了 。 


对 磁盘 分 区 、 格 式 化 等 操作 过 程 ， 这 里 就 简单 地 介绍 这 么 多 。 有 兴 
趣 的 读者 可 以 自行 实验 。 


12.4.2 ”实例 二 : 新 建 一 个 文本 文档 


在 图 12-7 所 示 的 10.128.134.107 这 台 主 机 通过 TCP/IP 网 络 与 
10.128.133.60 那 台 磁 盘 阵 列 通 信 ， 并 在 磁盘 阵列 的 一 个 LUN 中 建立 了 一 
个 新 文本 文件 。 图 12-7 所 示 为 主机 与 磁盘 阵列 交互 数据 的 过 程 。 


图 12-7 一 次 写 IO 


前 7 个 数据 帧 所 包含 的 Payload 字 节 数 为 8240。 这 8240 个 字 节 ， 束 是 
主机 向 磁盘 阵列 所 发 送 的 一 次 写 IO。 协 议 分 析 软 件 自行 判断 了 数据 帧 中 
的 协议 ， 并 定 界 分 析 了 前 7 个 数据 帧 为 一 次 iSCSI 的 写 动作 。 这 8240 个 字 
节 ， 其 实 就 是 iSCSI 协议 模块 通过 一 次 Socket 调 用 TCP/PP 协 议 向 外 发 送 的 
字 节 ， 而 TCP 根 据 MSS 值 ， 又 将 8240B 的 数据 分 割 成 了 7 个 数据 包 传 送出 
去 。 这 8240B 中 包含 一 个 48B 长 的 iSCSI 头 ， 以 及 剩余 部 分 最 终 都 需要 被 
写 入 LUN 的 数据 。 我 们 可 以 计算 一 下 ，8240B 减 去 48B， 等 于 8192B， 人 恰 
好 是 16 个 磁盘 悄 区 《16x512B) 的 大 小 。 也 就 是 说 ， 这 次 传输 其 实 就 是 
主机 向 这 个 LUN 的 16 个 连续 而 区 写 入 了 数据 。 图 12-8 中 也 显示 了 相关 字 
段 的 值 ， 确 实 为 16。 





图 12-8 ”此 IO 块 大 小 为 16 个 LBA 


如 图 12-8 在 主机 向 存储 设备 传送 的 SCSI 命 令 中 ，Opcode 字 有 段 给 出 了 
这 个 命令 的 操作 代码 ，0x2A 表 示 写 ， 如 果 为 读 ， 则 对 应 的 值 为 0x28。 
同时 也 给 出 了 要 写 入 的 初始 LBA 为 〈 也 就 是 请 区 号 ) 198484 和 Transfer 
Length 为 16。 也 就 是 说 ， 主 机 在 这 条 命令 中 通知 存储 设备 ， 将 随后 传送 
的 数据 写 入 从 198484 号 LBA 开 始 的 随后 16 个 扇 区 中 。 

存储 设备 上 的 TCP 程 序 返回 给 主机 3 个 ACK 应 管 开销 数据 包 后 ， 在 


第 11 帧 中 ， 将 iSCSI 协 议 自 身 的 会 话 层 应 答 返 回 给 主机 ， 证 明 SCSI 命 令 
已 经 执行 成 功 ， 如 图 12-9 所 示 。 











图 12-9 ”成 功 返回 





我 们 来 计算 一 下 主机 辐 存 储 设备 发 送 了 16 个 而 区 的 数据 ， 其 所 耗费 
的 开销 大 致 为 多 少 。 


开销 1: iSCSI 头 部 。iSCSI 头 部 长 48B， 每 次 IO 都 只 耗费 48B。 


开销 2: TCP/IP 头 部 以 及 ACK 开 销 。 在 MSS 值 与 MTU 值 适 配 的 情况 
下 ， 每 个 数据 帧 均 会 包含 40B 的 开销 ; MSS 值 大 于 MTU 值 的 情况 下 ，IP 
会 将 数据 包 拆 分 ， 第 一 个 拆 分 包 耗 费 40B 开 销 ， 随 后 的 拆 分 包 每 个 只 耗 
费 20B 开 销 。ACK 包 的 数量 视窗 口 大 小 以 及 两 端 协议 状态 而 定 ， 数 量 不 
定 。 每 个 纯 ACK 包 耗费 60B 开 销 。 


开销 3: 以 太 网 帧 头 部 开销 。 每 个 以 太 网 帧 耗费 14B 开 销 。 


根据 以 上 描述 ， 上 述 IO 共 耗费 的 开销 为 606B。 所 以 ， 大 致 估算 出 
的 开销 比例 为 606/〈606+8192) 二 6% 。 当 然 这 个 估算 是 不 符合 统计 学 
原理 的 ， 在 这 里 只 是 大 致 估算 一 下 而 已 。 


紧 接 着 ， 主 机 又 同 存储 设备 发 出 了 写 入 请 求 ， 这 次 写 入 的 则 是 8 个 
扇 区 ， 如 图 12-10 所 示 。 





图 12-10” 写 请 求 





猜测 : ”第 一 次 主机 向 LUN 写 入 了 16 个 属 区 的 内 容 ， 是 这 个 新 
建文 本 文件 的 实际 数据 ， 而 第 二 次 写 入 8 个 扇 区 的 内 容 ， 可 能 
征 针对 这 个 文件 的 元 数据 。 当 然 在 此 只 能 做 一 个 大 致 的 猜测 。 
右 想 奶 究 到 诬 也 并 不 难 ， 但 是 我 们 在 此 就 不 做 过 多 分 析 了 。 





如 图 12-11 所 示 是 在 癌 东 LUN 复 制 一 个 大 文件 时 抓 取 的 数据 包 。 主 
机 每 次 IO 请 求 写 入 的 扇 区 数 变 成 了 128， 也 就 是 64KB 的 数据 。 从 数据 包 
内 容 中 ， 可 以 看 出 这 个 文件 好 像 是 一 个 视频 文件 ， 而 且 是 一 部 流行 的 美 
国电 视 剧 。 





图 12-11 复制 一 个 大 文件 





由 于 Socket 的 缓冲 区 一 般 为 64KB， 所 以 上 层 程序 每 次 调用 发 送 给 
Socket 最 大 的 数据 长 度 也 被 限制 在 64KB。 由 此 就 可 以 计算 出 图 12-11 中 
的 这 个 10 将 数据 写 入 了 LBA305768 一 LBA305895 这 128 个 扇 区 中 。 如 果 
此 时 还 需要 接着 写 入 新 数据 而 同时 LBA305895 之 后 的 扇 区 还 是 空闲 状态 
的 话 ， 文 件 系 统 便 会 继续 同 其 后 的 局 区 继续 写 入 。 所 以 ， 图 12-12 中 所 
示 的 IO 向 LBA305896~LBA306023 这 16 个 扇 区 写 入 了 64KB 的 数据 。 如 
果 文 件 依然 没有 写 完 ， 则 继续 按照 这 个 逻辑 写 下 去 。 





图 12-12 ”连续 的 64KB 写 入 





12.4.3 ”实例 三 ， 文件 系统 位 图 


图 12-13 一 图 12-15 所 示 的 Trace 结果 是 在 通过 主机 上 的 文件 系统 ， 将 
500MB 的 数据 从 一 个 写 满 数据 的 1GB iSCSI LUN 中 删除 的 过 程 中 所 抓 取 
的 。 


图 12-13 ”删除 500MB 的 数据 
图 12-13 为 删除 500MB 数 据 时 抓 取 的 数据 包 。 


由 于 文件 系统 从 磁盘 上 删除 数据 的 过 程 中 ， 只 会 修改 相关 的 链表 ， 
从 元 数据 中 抹 掉 相应 的 记录 ， 而 不 会 去 抹 掉 或 者 覆盖 被 删除 的 文件 原来 
所 对 应 的 恒 区 上 的 任何 数据 ， 所 以 虽然 删除 了 500MB 的 数据 ， 但 是 真正 
的 IO 数据 远 小 于 500MB。 本 例 中 ， 这 个 过 程 只 交互 了 163 个 数据 包 。 








在 前 51 个 数据 包 中 ， 所 有 IO 均 为 写 操作 ， 每 个 大 小 均 为 8 个 局 区 
《4096B， 被 分 成 三 个 数据 帧 )。 可 以 判定 这 些 IO 其实 都 是 在 更 新 文件 
系统 元 数据 。 


从 第 52 一 第 80 个 数据 包 为 一 个 80 扇 区 的 写 IO， 如 图 12-14 所 示 。 


图 12-14 ”文件 系统 位 图 (一) 





分 析 这 个 IO 的 实际 内 容 ， 发 现 其 包含 了 很 多 的 0xff， 即 二 进 制 的 
11111111。 这 个 IO 更 新 的 元 数据 ， 束 是 本 书 前 文中 提 到 过 的 文件 系统 位 
图 〈 见 5.7.4 节 ) 。 位 图 是 一 个 元 数据 文件 ， 其 中 用 每 个 位 来 表示 对 应 磁 
盘 分 区 中 的 每 个 块 〈 或 者 复 ， 视 设计 不 同 而 定 ) 是 否 正在 被 某 个 文件 所 
占用 。 由 于 本 例 中 ，LUN 上 依然 留 有 一 半 的 数据 ， 所 以 依然 有 一 半 的 簇 
被 文件 占用 着 。 这 些 秘 也 就 是 图 中 被 标明 为 0xff 字 节 所 对 应 的 徐 。 被 标 
明 0x00 的 字 节 则 对 应 着 磁盘 上 未 被 文件 占用 的 空 亲 块 〈 复 ) ， 但 不 是 说 
这 些 空闲 块 中 “没有 数据 ”或 者 “数据 为 全 0”"。 对 于 一 块 界 新 的 磁盘 ， 局 

















区 中 的 数据 可 能 为 全 0， 但 是 对 于 一 块 已 经 使 用 过 的 磁 租 ， 扇 区 中 会 保 
留 很 多 以 前 被 删除 文件 的 < 尸体 *。 这 些 * 尸 体 "会 被 随后 的 对 这 个 肩 区 的 
写 IO 数 据 所 覆盖 ， 





图 12-15 所 示 的 数据 是 在 将 那个 LUN 中 剩余 的 数据 全 部 删除 的 过 程 
中 所 抓 取 的 。 





图 12-15 ”文件 系统 位 图 (二 ) 


可 以 看 出 ，LBA1044425 以 及 随后 〈 包 括 其 自身 ) 的 56 个 而 区 为 存 
放 位 网 的 硬 区 〔〈 当 然 这 只 是 一 部 分 ， 还 可 能 有 其 他 书 区 也 用 来 存放 位 
图 ) 。 由 于 删除 文件 导致 LUN 上 的 空闲 块 增 加 ， 所 以 文件 系统 必须 修改 
位 图 映射 表 ， 这 就 产生 了 图 12-15 中 第 246 个 数据 包 所 对 应 的 写 IO 操 作 。 
通过 数据 包 内 容 可 以 看 出 ， 位 图 中 几乎 所 有 他 节 都 为 0x00。 这 就 说 明 此 
时 LUN 上 已 经 几乎 都 是 空闲 块 了 。 





读者 可 以 自行 操作 并 分 析 一 下 iSCSI 以 及 文件 系统 的 逻辑 。 但 是 要 
注意 一 点 ， 由 于 主机 上 的 文件 系统 是 有 缓存 的 ， 当 向 LUN 做 了 一 次 操作 
之 后 ， 会 被 文件 系统 缓存 一 段 时 间 〈 几 秒 或 者 十 几 秒 都 有 可 能 ) ， 然 后 
才 批量 Flush 到 硬盘 CLUN) 上 。 所 以 此 时 一 定 要 保持 网 卡 抓 包 软件 继 
续 执 行 抓 取 ， 直 到 十 几 秒 钟 之 后 ， 流 量 面板 中 没有 新 的 数据 包 被 抓 取 
到 ， 此 时 方 可 停止 抓 取 ， 获 得 Trace 数据 。 


12.5 iSCSI 磁盘 阵列 


当年 FC 闹 革命 的 时 候 ， 可 谓 是 缀 麦 烈 烈 ， 气 壮 山河 。 当 时 ， 那 场 
革命 对 人 磁盘 阵列 架构 的 改变 真是 太 彻底 了 ， 所 以 至 今 人 们 仍然 记忆 犹 
新 。 而 TCP/IP 想 在 已 经 被 FC 革命 过 的 江湖 上 再 闹 出 点 动静 来 ， 可 就 不 
是 那么 容易 了 。 毕 竟 TCP/IP 所 依靠 的 以 太 网 相对 于 FC 来 说 ， 都 属于 包 
交换 网 络 ， 而 且 很 多 概念 都 类 似 甚 至 相同 。 很 多 盘 阵 厂商 并 不 看 好 
TCP/ 卫 的 介入 。 但 是 最 终 还 是 有 一 批 喜欢 标新立异 、 敢 于 创新 的 厂商 ， 
举 起 大 旗 来 文 持 TCP/P。 








图 12-16 便 是 一 个 典型 的 iSCSI 磁盘 阵列 的 基本 架构 。 可 以 看 到 ， 其 
前 端 IO 设备 就 是 普通 的 以 太 网 卡 。TCP/P 以 及 iSCSI 逻辑 均 运 行 在 主 内 
存 中 。 后 端的 磁盘 可 以 以 任何 方式 接 入 总 线 ， 甚 至 可 以 是 独立 的 磁盘 阵 
列 。 人 磁盘 经 过 VM 虚拟 化 层 之 后 ， 通 过 前 端 接 口供 主机 访问 。iSCSI 盘 阵 
与 FC 盘 阵 结 构 类 似 ， 只 不 过 前 端 接口 成 了 以 太 网 口 而 已 。NetApp 的 
FAS 系 列 产 品 在 同一 个 控制 句 上 实现 了 多 种 协议 的 接口 ， 包 括 iCSTI、 
FCP、CIFS、NFS 以 及 其 他 的 一 些 基 于 TCP/IP 的 数据 访问 协议 。 


图 12-16 iSCSI 盘 阵 架构 示意 图 





注意 : VM 意 为 Volume Manager，Virtualization Manager。 


我 们 可 以 及 现 ， 这 人 台 盘 阵 的 架构 与 PC 无 异 。 的 确 ， 不 管 是 主机 还 
是 磁盘 阵列 ， 它 们 都 是 由 计算 机 系统 的 老 三 样 一 一 CPU、 内 存 、 外 设 组 
成 的 。 其 所 实现 的 功能 ， 关 键 是 靠 押 运行 的 软件 。 主 机 上 的 老 三 样 运行 
的 是 处 理 业务 罗 辑 的 应 用 程序 ， 而 运行 在 盘 阵 老 三 样 上 的 则 是 专门 处 理 
通过 不 同 网 络 协议 传输 进来 ， 或 者 出 去 的 SCSI 指 令 以 及 优化 磁盘 读 写 的 
程序 。 从 本 质 上 来 说 ， 它 们 二 者 是 相同 的 ， 只 不 过 是 分 工人 不 同 而 已 。 

















提示 : “ 正 因 为 它们 本 是 同根 生 ， 所 以 相 束 又 何 太 急 呢 ! PC 只 
要 运行 了 盘 阵 上 的 软件 ， 惑 是 一 全 盘 阵 相反， 一阵 如 果 运 行 
了 应 用 程序 ， 则 就 可 以 当成 一 合 主机 来 使 用 。 


目前 ， 几 乎 各 种 操作 系统 都 已 丝 有 了 iSCSI Pitiator 软 件 。 有 些 操作 
系统 ， 比 如 Windows、Linux 等 还 有 了 iSCSI ”Target 软件 。 它 们 安装 了 
Target 软 件 ， 也 就 变 成 了 盘 阵 ， 只 不 过 在 性 能 、 功 能 和 容量 上 没有 专业 
盘 阵 强悍 。 








目前 ，TCP/AP 只 是 占领 了 盘 阵 前 问 接 口 的 部 分 阵地 。 而 对 于 后 端 破 
盘 接 口 的 进攻 ， 也 不 是 没有 设计 和 尝试 过 。 当 年 FC 可 是 一 举 拿 下 了 盘 
阵 的 前 端 和 后 端 。 而 如 今 老 T 能 有 FC 的 那个 本 事 么 ? 确实 有 些 厂家 的 盘 
阵 将 TCP/IP 协 议 作 为 后 站 磁盘 到 适 配 占 之 间 的 传输 协议 ， 但 是 这 样 的 设 
计 似 乎 并 没有 得 到 认可 。 这 个 结果 也 是 可 以 预知 的 ，TCP/IP 之 所 以 可 以 
与 FC 苋 搜 ， 束 是 因为 其 优 民 的 扩展 性 ， 而 不 是 因为 它 的 速度 。 后 端 需 
要 的 首先 是 性 能 ， 而 不 是 扩展 性 。 所 以 ， 后 端 还 是 责 弄 地 交 给 FC 才 是 
明智 的 选择 。 


12.6 IP SAN 


后 来 ， 人 们 过 性 将 iSCSI 为 代表 的 以 TCP/IP 作 为 传输 方式 的 网 络 存 
储 系统 称 做 IP SAN， 即 基于 IP 的 存储 区 域 网 络 。 值 得 说 明 的 是 ，IP SAN 
并 不 一 定 要 用 以 太 网 作为 链 路 层 ， 可 以 用 任何 支持 IP 的 链 路 层 ， 比 如 
ATM (IPoA) 、PPP、HDLC， 甚 至 是 Fibre Channel 也 可 以 作为 IP 的 链 
路 层 。 


这 样 ， 就 使 得 耻 SAN 的 可 扩展 性 变 成 了 无 限 ， 它 可 以 扩展 到 世界 上 
任何 一 个 有 Internet 网 络 接 入 的 地 方 。 这 也 是 Internet Small Computer 
System Interface 名 称 的 由 来 。 


iSCSI 的 方便 和 灵活 性 逐渐 显现 出 了 优势 。 的 确 ， 现 在 还 有 哪 台 主 
机 上 不 带 以 太 网 适配器 的 ?还 有 哪 台 主机 上 不 运行 TCP/IP 协 议 的 呢 ? 就 
连 大 型 机 设备 都 有 自己 的 前 置 TCP/IP 处 理 机 了 。 





FC 网 络 虽 然 比 并 行 SCSI 总 线 的 扩展 性 高 了 很 多 ， 但 是 相对 于 
TCP/PP 的 扩展 性 ，FC 就 是 小 巫 见 大 巫 了 。 





iSCSI 与 NAS 的 区 别 如 下 。 


虽然 iSCSI 与 NAS 都 是 利用 TCP/IP+ 以 太 网 来 实现 的 ， 但 是 二 者 所 传 
输 的 语言 是 大 相 径 庭 的 。NAS 传 输 的 是 文件 系统 语言 ， 而 iSCSI 传输 的 
是 SCSI 指 令 语 言 。NAS 设 备 上 必须 运行 一 种 或 者 多 种 文件 系统 逻辑 ， 才 
能 称 为 NAS; 而 iSCSI Target 设 备 上 不 需要 运行 任何 文件 系统 逻辑 〈 盘 
阵 自身 操作 系统 文件 管理 除外 ) 。 








在 相同 的 条 件 下 ，iSCSI 与 NAS 在 速度 与 性 能 方面 相差 不 大 。 


12.7 增强 以 太 网 和 TCP/IP 的 性 能 


老 T 对 IP SAN 可 谓 是 投入 了 一 腔 热血 。 它 想 尽 一 切 办 法 要 提高 
TCP/IP 的 性 能 ， 以 便 与 FC 抗衡 。 


1. Checksum Offload (CO) 


计算 每 个 TCP 包 的 校 验 数据 是 一 件 极其 村 燥 乏 味 和 耗费 资源 的 工 
作 。 由 于 TCP/IP 程 序 均 需要 运行 在 主机 操作 系统 中 ， 所 以 计算 校 验 数据 
的 任务 当然 要 落 在 主机 CPU 身上 。CPU 不 得 不 拿 出 额外 的 指令 周期 来 计 
算 每 个 TCP 包 的 校 验 数据 。 这 对 于 CPU 处 理 能 力 比较 弱 的 主机 来 说 ， 人 性 
能 影响 是 不 可 忽略 的 。 








为 了 将 CPU 解脱 出 来 ， 一 种 称 为 Checksum Offload 的 技术 被 开发 出 
来 。 这 种 技术 将 计算 校 验 数 据 的 工作 完全 转移 到 了 网 卡 的 硬件 上 ， 对 于 
问 外 发 送 的 TCP 包 ，CPU 可 以 不 经 校 验 直 接 传送 给 网 卡 ， 由 网 卡 必 廊 来 
做 校 验 ;同样 ， 对 于 接收 到 的 数据 包 ， 在 没 提 交 到 主机 内 存 之 前 ， 就 已 
经 做 好 了 校 验 匹 配 。 图 12-17 就 是 Checksum Offload 功 能 的 一 个 图 示 。 


图 12-17 网卡 的 Checksum Offload 功能 





2. Large Send Offload (LSO) 





TCP 需 要 根据 底层 链 路 的 MTU 值 来 适 配 其 每 次 发 送 的 数据 大 小 。 如 
果 上 层 传递 过 来 的 数据 大 于 其 允许 的 最 大 分 段 长 度 〈MSS 值 ) ， 则 TCP 
会 将 这 些 数据 分 成 若干 个 数据 包 发 送出 去 ， 这 惑 是 所 谓 的 Large Send。 
这 项 工作 目前 也 可 以 被 转移 到 网 卡 上 来 完成 。 


3. TCP/IP Offload (TO) 


TCP/IP ”Offload 则 干脆 将 TCP/IP 整 个 程序 都 放 到 网 卡 硬件 芯片 上 来 
运行 。 这 种 特殊 的 以 太 网 卡 称 为 TOE 卡 ， 即 TCP/IP Offload ”Engine 
Card。 图 12-18 是 TOE 卡 在 存储 盘 阵 上 的 应 用 及 架构 图 。 








图 12-18 ”使 用 TOE 卡 的 iSCSI 盘 阵 层次 架构 示意 图 








4. Security Offload (SO) 


Security Offload 不 仪 将 TCP/IP 协 议 从 主机 上 Offload 了 下 来 ， 它 还 可 
以 在 硬件 上 直接 实现 IPSEC 相 关 的 协议 ， 将 对 数据 包 的 加 解密 过 程 也 从 
主机 上 Offload 下 来 。 


5. iSCSI Offload (IO ) 


iSCSI Offload 将 TCP/IP+iSCSI 的 整套 逻辑 都 放 到 网 络 适 配 卡 上 来 运 
行 。 由 于 iSCSI 的 上 层 是 SCSI， 所 以 一 张 iSCSI 卡 对 于 主机 来 说 ， 会 表现 
为 一 张 SCSI 卡 。 不 同 的 是 ， 这 张 虚拟 的 SCSI 卡 可 以 设置 其 自己 独立 的 IP 
地 址 以 及 其 他 TCPAIP 和 iSCSI 的 参数 。 图 12-19 所 示 为 iSCSI 硬 卡 在 存储 阵 
列 上 的 应 用 及 架构 图 。 











图 12-19 ”使 用 iSCSI Offload 卡 的 iSCSI 盘 阵 架构 示意 图 


12.8 FC SAN 和 节 败 退 
1. 成 本 问题 


说 来 有 点 惊讶 ， 部 普 FC SAN 的 成 本 是 部 署 IP SAN 的 10 倍 甚至 十 几 
倍 。 以 太 网 卡 和 以 太 网 交换 机 相 比 FC 卡 与 FC 交 换 机 便宜 了 很 多 。 所 
以 ， 对 于 对 性 能 要 求 不 是 很 苛刻 的 用 户 来 说 ， 部 署 IP SAN 无 疑 是 性 价 比 
最 高 的 方法 。 





2. 可 扩展 性 问题 


FC 是 一 个 专用 网 络 。 昌 然 FC 当 初 是 作为 像 以 太 网 一 样 的 通用 的 网 
络 传输 技术 被 设计 出 来 ， 但 是 目前 ， 其 专门 被 用 作 存 储 网 络 ， 也 算是 命 
该 如 此 。FC 长 期 被 束缚 在 这 样 一 个 狭小 的 环境 内 ， 不 仪 造成 了 其 不 思 
进取 的 性 格 ， 而 且 也 造成 了 其 成 本 的 大 高 不 下 ， 所 以 FC 很 难 被 扩展 出 
二 


3.， 易 用 性 问题 


曲 高 则 和 寒 。 既 然 FC 这 么 不 开放 ， 那 么 束 注 定 难 用 。 部 署 一 个 FC 
存储 网 络 比 部 敬一 个 IP 存 储 网 络 要 复 保 ， 对 搁 术 人 员 的 要 求 也 比较 高 。 


4. 兼容 性 问题 
由 于 FC 极其 不 开放 ， 即 使 FC 有 相关 的 标准 ， 但 不 同 的 生产 厂家 生 


产 出 的 FC 设 备 ， 有 时 候 并 不 一 定 会 完全 兼容 ， 总 会 出 现 一 些 莫名 其 妙 
的 问题 。 相 比 来 说 ，TCP/IP 由 于 已 经 在 完全 开放 的 环境 中 摸 扑 深 打 了 很 





长 的 时 间 ， 所 有 已 经 被 发 现 的 bug 也 都 被 修复 了 。 


12.9 iSCSI 配置 应 用 实例 


本 实例 用 一 台 NetApp ”FAS3050 系 列 磁盘 阵列 充当 iSCSI 的 Target 设 
备 ， 用 一 台 运 行 于 Windows XP 操作 系统 的 PC 充当 iSCSI Initiator 端 ，PC 
上 的 iSCSI Initiator 软 件 为 微软 的 MS iSCSI Initiator 2.07 版 本 。 本 例 中 将 
描述 如 何在 存储 设备 上 一 步 步 地 创建 LUN， 然 后 映射 给 主机 使 用 。 


12.9.1 第 一 步 : 在 存储 设备 上 创建 LUN 
1. 创建 Aggregate 


所 谓 Aggregate 是 指 RaidGroup 的 组 合 ， 一 个 Aggr (Aggregate) 可 以 
包含 多 个 RG (Raid Group) 。 如 图 12-20 所 示 ， 这 人 台 盘 阵 在 其 后 端的 0a 
和 0b 个 FC 通道 下 各 连接 了 两 台 扩 展柜 〈Shelf1 和 Shelf2) ， 每 台 扩展 柜 
包含 14 块 硬盘 ， 这 样 每 个 通道 包含 了 28 块 硬盘 。 





























图 12-20 ”系统 硬盘 列表 





图 12-21 所 示 的 是 系统 中 目前 还 没有 被 分 配 到 RG 中 的 人 磁盘， 标 为 
Spare， 共 16 块 。 








图 12-21 ”Spare 人 硬盘 列表 


使 用 “aggr create” 命 令 创 建 一 个 aggr， 如 图 12-22 所 示 。“-r 6” 参 数 表 
示 每 个 RG 最 大 允许 包含 6 块 磁盘 ， 如 果 超 过 6 块 ， 则 自动 形成 男 一 个 
RG; “-t raid_dp” 参 数 表 示 RG 的 RAID 类 型 为 RAIDDP (这 种 RAID 类 型 本 
书 不 做 描述 ， 具 体 可 以 在 Internet 上 搜索 ) ; 12 表 示 这 个 aggr 包 含 12 块 
盘 。 计 算 一 下 这 样 正 好 可 以 形成 两 个 GG， 每 个 RG6 块 盘 。*aggrtest 为 


这 个 aggr 的 名 字 。 








图 12-22 ”创建 aggr 
创建 好 的 aggr 中 有 两 个 分 别 包 含 6 块 盘 的 RG， 如 图 12-23 所 示 。 
图 12-23 ”aggrtest 中 包含 两 个 RG 


刚 创 建 好 的 aggr 名 为 aggrtest， 大 小 为 955GB， 其 中 给 快照 预 留 的 空 
间 为 47GB， 实 际 可 用 在 线 存储 用 户 数 据 的 空间 为 9008GB， 如 图 12-24 所 
示 。 


图 12-24 ”aggr 的 空间 分 布 


2. 在 aggr 中 创建 Vol 





Vol， 即 卷 ， 是 凌驾 于 aggr 之 上 的 一 层 虚 拟 化 产物 ， 目 的 是 为 了 更 
加 灵活 地 取 用 aggr 所 提供 的 存储 空间 。Vol 可 以 任意 创建 删除 ， 任 意 增 
加 或 者 减 小 容量 。 





如 图 12-25 所 示 ， 在 aggrtest 中 创建 了 一 个 名 为 voltest， 然 后 将 offline 
删除 。 这 个 过 程 非常 简单 ， 命 令 发 出 之 后 立即 生效 。 








图 12-25 ”创建 /删除 一 个 Vol 


在 aggrtest 上 创建 两 个 卷 : iSCSI1 和 iSCSI2， 大 小 均 为 300GB， 如 图 
12-26 所 示 。 








图 12-26 创建 两 个 新 卷 








3. 在 Vol 中 创建 LUN 


LUN 是 最 终 提 交 给 主机 使 用 的 一 块 存储 空间 ，NetApp 将 LUN 容 纳 
于 Vol 的 空间 之 下 ， 并 且 LUN 也 可 以 任意 增 、 删 、 扩 、 缩 。 


在 每 个 Vol 中 分 别 创建 一 个 大 小 为 200GB 的 LUN， 如 图 12-27 所 示 。 


图 12-27 创建 LUN 





4. 创建 Igroup 并 映射 LUN 


所 谓 Igroup， 是 用 来 管理 LUN 一 主机 映射 天 系 的 。 本 书 前 文中 描述 
过 这 种 灵活 的 映射 关系 。Igroup 惑 像 一 个 桥 染 ， 主 机 和 LUN 如 果 都 映射 
到 某 个 lgoup， 那 么 这 台 主 机 就 可 以 访问 这 些 LUN。 


如 图 12-28 所 示 ， 创 建 一 个 名 为 IG 的 iSCSI 类 型 的 Igroup， 并 将 它 映 
射 到 了 一 个 主机 端的 iSCSI Titiator 的 IQN 地 址 。 接 着 ， 将 两 个 LUN 都 映 
射 到 了 这 个 Igroup 中 。 





图 12-28 ”创建 Igroup 并 映射 LUN 和 主机 
12.9.2 第 二 步 : 在 主机 端 挂 载 LUN 
1. 确认 主机 问 的 IQN 名 称 


确认 主机 端 iSCSI Initiator 的 IQN 名 称 是 否 与 Igroup 中 所 配置 的 一 
致 ， 如 图 12-29 所 示 。 


图 12-29 ”IQN 名 称 


2. 添加 iSCSI Target 端 地 址 


添加 iSCSI Target 端 地 址 ， 发 现 其 上 的 LUN， 如 图 12-30 和 图 12-31 所 
示 。 图 12-32 显 示 已 经 发 现 iSCSI 目 标 ， 但 处 于 未 激活 状态 。 











图 12-30 ”添加 iSCSI Target 端 地 址 
图 12-31 添加 完成 图 12-32 ”未 激活 状态 的 Targe 
3. 激活 iSCSI 目 标 六 ， 发 现 LUN 


单 击 图 12-32 中 的 Log On 按钮 ， 如 图 12-33 所 示 。 





图 12-33 ”激活 iSCSI 有 目 


-> 
Hl 





单 击 OK 按钮 后 ， 可 以 在 图 12-34 中 看 到 ， 目 标 已 经 连接 ， 此 时 LUN 
会 被 主机 识别 到 。 


图 12-34 ”处 于 激活 状态 的 iSCSI 目标 


4. 使 用 LUN 





如 图 12-35 所 示 ， 在 主机 的 磁盘 管理 右 中 会 发 现 两 块 未 初始 化 的 磁 
盘 ， 其 对 应 的 是 存储 设备 上 的 两 个 LUN。 


图 12-35 ”新 识别 到 的 两 个 LUN 





初始 化 之 后 格式 化 这 两 块 磁盘 (LUN) ， 如 图 12-36 所 示 。 





图 12-36 ”初始 化 之 后 格式 化 磁盘 





如 图 12-37 和 图 12-38 所 示 ， 这 两 块 磁盘 已 经 可 以 正常 使 用 了 。 


图 12-37 磁盘 状况 正常 图 12-38 “我 的 电脑 ”显示 的 磁盘 


12.10 iSCSI 卡 Boot 配 置 示例 


上 文 提 过 iSCSI 卡 ， 即 向 操作 系统 表现 为 一 块 SCSI 卡 ， 底 层 却 用 卫 
网 络 来 传输 SCSI 协 议和 数据 。 本 节 介 绍 如 何 配置 系统 从 iSCSI 启动 。 在 
阅读 本 贡 之 前 最 好 先 阅读 9.9 节 ， 本 节 介 绍 的 内 容 与 FC Boot 过 程 类 似 。 








如 图 12-39 所 示 ， 系 统 加 电 后 进入 iSCSI 卡 的 Optional ”ROM 配 置 界 
面 。 首 先 配 置 iSCSI Initiator 端 的 信息 ， 比 如 IP 地 址 、 网 关 地 址 等 。 配置 
完 后 进入 Target 端 配置 界面 。 


图 12-39 配置 iSCSI Initiator 端 信息 








配置 Target 端 的 IP 地 址 和 IQN 名 ， 如 图 12-40 所 示 。 配 置 完毕 后 退 
出 。 在 系统 主 Bios 中 配置 已 经 识别 到 的 iSCSI LUN 作 为 第 一 启动 盘 ， 如 
图 12-41 所 示 。 





二 


图 12-40 配置 iSCSI Target 端 信息 I 











图 12-41 ” 主 Bios 中 配置 第 一 启动 盘 I 














图 12-42 所 示 为 Intel Pro 1000/PT iSCSI 卡 的 配置 界面 。 





图 12-42 ”Intel Pro 1000/PT iSCSI 卡 的 配置 界面 

















当 iSCSI 卡 配置 完成 之 后 ， 系 统 重启 的 过 程 中 会 出 现 类 似 图 12-43 所 
示 的 界面 。 








图 12-43 ”配置 完毕 系统 重启 之 后 的 界面 














12.11 10Gb 以 太 网 的 威力 初 显 


2010 年 3 月 ，Microsoft 与 Intel 合 作 进行 了 一 项 在 10Gb/s 以 太 网 之 上 基 
于 iSCSI 协议 的 IOPS 及 吞吐 量 测 试 。 测 试 中 硬件 使 用 基于 Imtel Xeon 
processor 5580 CPU 的 服务 器 ， 以 及 基于 Intel 82599 10 Gigabit Ethernet 
Controller 的 10Gb/s 以 太 网 适配器 ; 操作 系统 可 以 用 Windows Server 2008 
R2， 以 及 Microsoft iSCSI ”Initiator 软 件 ， 存 储 端 使 用 StarWind 公 司 的 
iSCSI Target 软 件 ， 交 换 机 使 用 Cisco Nexus 5020 10Gb/s 以 太 网 交换 机 。 
整个 系统 中 使 用 10 台 iSCSI Target Server 和 1 人 台 iSCSI Client，Client 使 用 单 
10Gb/s 以 太 网 口 连 接 交 换 机 。 在 512Byte IO Size 和 连续 IO 条 件 下 ， 获 得 
了 双向 总 共 超 过 100 万 的 IOPS 值 。 如 图 12-44 所 示 分 别 为 IJOPS 和 吞吐 量 

《 双 同 )。 





图 12-44 ”10Gb/s 以 太 网 的 IOPS 和 吞吐 量 





当然 ， 连 续 小 块 IO 是 最 能 够 获得 高 IOPS 的 IO 方式 ， 并 且 测 试 使 用 
的 硬件 和 软件 都 是 做 了 充分 优化 的 ， 比 如 Intel” 82599 适 配器 开启 了 众多 
的 Offload， 包 括 Checksum、Large Send 等 ， 以 及 针对 Intel Xeon5000 系 列 
CPU 的 一 些 额外 优化 ， 比 如 在 中 断 和 DMA 方 面 。 





这 个 测试 的 目的 是 为 了 饱和 链 路 的 IOPS， 证 明了 10Gb/s 以 太 网 + 软 
iSCSI Initiator 在 经 过 优化 设置 之 后 ， 完 全 有 能 力 饱 和 底层 链 路 的 IOPS 和 
带宽 。 目 前 业界 对 TCP/IP+ 以 太 网 组 合 的 协议 效率 有 很 多 质疑 ， 质 疑 其 
效率 非常 低 ， 有 人 甚至 说 效率 只 有 50% ， 这 完全 是 无 稽 之 谈 。 


随 看 整个 网 络 骨 干 速度 的 提升 ， 以 太 网 取代 不 开放 的 FC 平 台 ， 是 
人 述 早 的 事情 。 


12.12 ”小结 


IP SAN 出 现 之 后 ，FC SAN 的 统治 地 位 被 大 大 地 动摇 了 。FC 目 前 唯 
一 可 以 用 来 与 P SAN 抗 衡 的 武器 ， 就 是 其 高 速度 。 但 是 这 个 武器 的 震慑 
力也 在 降低 。 我 们 可 以 发 现 ， 以 太 网 的 速度 每 次 革新 都 是 以 10 倍 速 为 单 
位 ， 从 10Mb/s 到 100Mb/s、1Gb/s，10Gb/s 速 率 的 以 太 网 也 已 经 发 布 了 。 
而 FC 每 次 革新 均 以 2 倍速 为 单位 ， 从 一 开始 的 1Gb/s、2Gb/s， 到 目前 正 
在 被 广泛 使 用 的 4Gb/s 速 率 ， 而 FC 的 下 一 个 速率 级 别 为 8Gb/s (或 者 
10Gb/s) ， 而 且 这 个 标准 还 正在 制定 当中 。 以 太 网 已 经 在 计划 上 抢先 了 
FC 一 步 。 不 知道 在 10Gb/s 时 代 ，FC 还 能 不 能 守住 它 那 仅 有 的 一 点 点 沙 
漠 绿 洲 。 








说 明 :” 现 在 已 经 出 现 了 HyperSCSI 以 及 ATA over Ethernet 这 两 
种 欲 抛 弃 略 显 低 效 的 TCPAP 协 议 而 另 立 门派 的 协议 ， 但 是 由 于 
各 种 原因 ， 尚 未 得 到 推广 。 


第 13 章 ”握手 言 和 一 一 IP 与 FC 融合 
的 结果 


mFC 

mIP 

四 协议 之 间 的 相互 作用 
四 协议 融合 


话说 FC 和 IP 各 占 一 方 ， 谁 也 不 让 谁 ， 互 相 竞争 了 数 年 ， 两 者 各 芯 
门派 ， 势 不 两 立 。 但 是 “ 夫 天 下 之 势 ， 分 久 必 合 ， 合 信人 必 分 ”。 


数 年 来 ， 两 者 在 市 场 上 竞争 得 可 谓 你 死 我 活 。FC 仅 仅 拿 着 FC SAN 
的 速度 和 稳定 性 来 炮 和 又 卫 SAN， 而 IP 也 不 甘 示 弱 ， 处 处 举 着 可 扩展 性 
和 成 本 的 大 旗 ， 声 讨 FC SAN， 曾 得 江湖 上 风 风 雨 雨 。FC 竺 借 着 它 的 速 
度 优势 ， 占 据 了 高 端 市 场 ， 而 IP 则 以 成 本 优势 在 低 端 市 场 占据 了 一 席 之 
地 。 然 而 两 人 谁 都 想 一 统 天 下 ， 把 对 方 彻底 驱逐 出 市 场 ， 但 是 ， 相 持 了 
数 年 ， 谁 也 没 能 把 谁 干 掉 ， 两 人 都 累 了 。 这 么 多 年 的 互相 攻击 ， 谁 也 没 
有 取得 丝毫 胜利 ，FC 还 是 稳固 地 占据 高 端 市 场 ，IP 依然 驰 怠 低 端 。 


终于 有 一 天 ，FC 和 IP 决定 握手 言 和 ， 不 再 投入 无 谓 的 人 力 、 物 
力 、 财 力 来 和 对 方 竞 争 。 与 其 大 肆 攻 击 对 方 ， 不 如 多 用 点 精力 来 提升 和 
发 展 自 里 的 技术 ， 同 时 学 习 对 方 的 技术 ， 取 长 补 短 ， 方 为 正 违 啊 ! FC 
和 了 彻夜 长 谈 ， 终 于 取得 了 一 致 的 见解 ， 决 定 双 方 各 取 所 长 ， 共 同 为 江 
湖 做 页 献 。 











首先 ，FC 决 定 由 IP 入 股 目 己 的 公司 ， 给 FC SAN 提 供 更 高 的 扩展 性 
架构 解决 方案 ; 同时 ，FC 也 入 股 IP 的 公司 ， 给 IP 提供 研发 经 费 ， 用 于 
其 研发 出 基于 以 太 网 的 、 新 型 的 、 适 合 存储 区 域 网 络 的 专用 协议 体系 。 


13.1 FC 的 赛 境 


入 股 FC 公 司 之 后 ，IP 便 开 始 研 究 如 何 将 FC 协议 体系 转向 可 扩展 
的 、 开 放 的 结构 。 说 到 可 扩展 且 开 放 的 网 络 传输 协议 ， 一 定 非 TCP/IP 黄 
属 。 可 是 FC 和 TCP/PP 是 两 套 室 不 相干 的 协议 体系 ， 如 果 将 FC 全 部 转 为 
TCP/AP， 那 岂 不 是 叛变 成 了 SAN 了 么 ? 但 是 如 果 丝 上 毫 不 变 ， 那 只 能 是 
FC SAN， 还 是 不 具备 开放 和 扩展 性 。 








1. FC 的 扩展 性 问题 








FC 为 什么 扩展 性 差 ? 就 是 因为 如 果 通 信 双 方 距离 太 远 的 话 ， 需 要 
目 己 架 设 光 缆 ， 或 者 租用 电信 的 专线 光 绑 ， 这 两 者 成 本 都 很 高 。 如 有 果 租 
用 电信 部 门 的 专线 光 绕 ， 则 FC 最 低速 上 度 为 1Gb/s， 且 租用 电信 部 门 的 
1Gb/s 带 宽 的 专线 光线 ， 其 费用 不 是 一 般 机 构 能 承担 的 。 














提示 : ”目前 电信 提供 的 专线 接 入 ， 其 骨干 网 一 般 采 用 PDH 或 
者 SDH 协 议 传 输 ， 到 终端 用 户 所 能 承受 的 速率 为 2Mb/s 的 El1 线 
路 。 当 然 也 可 以 直接 从 高 速 骨干 网 直接 分 离 出 相对 高 速 的 线 
路 ， 比 如 OC3、0OC48 等 ， 但 是 费用 还 是 过 于 高 郧 ， 令 人 无 法 


承受 。 

















E1 线 路 有 上 自己 的 编码 格式 ， 不 能 将 电信 部 门 接 入 的 光纤 直接 插 到 
FC 设 备 上 ， 因 为 两 问 的 编码 方式 不 同 ， 不 能 和 局 端的 设备 建立 连接 ， 
所 以 需要 增加 一 个 协议 转换 设备 (准确 来 说 是 协议 隧道 封装 设备 ) ， 将 
El 协议 解 封 装 ， 转 换 成 协 转 设备 后 面 的 协议 逻辑 ， 比 如 V35 串 口 、 以 太 
网 等 其 他 协议 。 目 前 已 经 存在 FC over Sonet、FC over ATM 等 协 转 设备 
了 ， 不 过 这 些 专 线 的 扩展 性 仍然 不 强 ， 而 且 这 种 方案 以 及 对 应 的 设备 也 











目前 看 来 ， 如 果 要 扩展 FC 网 络 ， 让 相隔 很 远 的 两 地 之 间 用 上 FC 协 
议 ， 最 好 的 办 法 就 是 自己 架设 专用 光缆 。 可 是 自己 架设 光缆 也 只 能 在 自 
己 可 控 的 范围 内 ， 比 如 一 个 大 三 区 之 内 ， 但 是 如 果 是 在 市 内 ， 或 者 两 个 
城市 、 两 个 省 之 间 ， 私 自 架 设 光缆 是 绝对 被 禁止 的 。 














怎么 办 ? 痛 先 ， 要 走出 去 ， 残 一定 要 租用 电信 部 门 的 线路 。 电 信 拓 
供 了 两 种 线路 : 一 种 是 接 到 Internet 的 线路 ， 也 就 是 接 入 电信 部 门 的 
Internet 运 营 网 络 ， 通 信 的 双方 都 接 入 ， 并 且 使 用 TCP/IP 通 信 ; 男 一 种 就 
征 光 线 专 线 ， 也 就 是 通信 的 双方 都 接 入 电信 部 门 的 专用 传输 骨干 网 络 ， 
这 条 专线 闪 到 器 的 带宽 由 接 入 提供 商 保证 ， 只 要 两 端的 设备 文 持 ， 其 上 
可 以 运行 任何 上 层 协议 。 上 层 帧 会 被 后 层 封装 协 议 〈 比 如 El 等 ) 再 成 帧 
传送 到 电信 部 门 骨干 传输 网 络 中 。 








虽然 Internet 接 入 可 以 获得 100Mb/s 或 者 1000Mb/s 的 速率 ， 但 是 这 只 
是 本 地 带宽 (从 本 地 到 局 端 设备 之 间 的 链 路 带宽 ) ， 端 到 端的 带宽 ， 以 
现在 的 电信 部 门 TCP/P 网 络 环境 ， 除 非 购 买 接 入 丙 的 QOS 或 者 MPLS TE 
服务 ， 否 则 没有 人 能 够 保证 两 点 间 的 通路 带宽 〈 速 率 ) 。 





提示 : ”如 果 两 地 之 间 相 距 很 近 ， 那 么 不 妨 考虑 Internet 链 路 。 
因为 如 果 两 地 同时 接 入 相同 城市 的 ISP 网 络 ， 数 据 包 被 路 由 的 
跳 数 就 不 会 很 高 ， 其 全 有 可 能 只 经 过 1 跳 或 者 2 跳 便 可 以 被 对 方 
收 到 。 更 有 其 者 ， 同 城 的 两 地 可 能 连接 在 局 端的 同一 台 设 备 
上 。 这 样 可 获得 的 带 需 速率 就 会 非 第 可观， 就 可 以 像 在 内 网 通 
信 一 样 利 用 VPN 来 让 两 个 站 点 之 间 联 通 。 但 要 澄清 一 点 ， 由 于 














Iternet 链 路 不 能 时 刻 保障 稳定 的 带宽 ， 所 以 这 种 方法 只 适合 对 
数据 传输 实时 性 要 求 不 高 ， 但 同时 又 要 求 高 市 宽 的 情况 。 








而 专用 线路 虽然 保证 了 带宽 ， 但 是 只 能 承受 E1 等 低速 专线 ， 且 价格 
相对 Intemet 接 入 要 贵 很 多 。 而 且 目 前 只 有 V35 一 El 封装 解 封 设备 和 E1 一 
以 太 网 封装 解 封 设备 ， 并 没有 E1 一 FC 封装 解 封 设 备 。 而 V35 串 口 和 以 太 
网 这 两 种 二 层 协议 ， 都 普遍 被 用 来 承载 IP 协 议 ， 所 以 目前 来 说 ，E1 一 般 
用 来 承载 了 作为 网 络 层 协议 。 有 些 路 由 器 自 带 E1 封 装 解 封 模块 ， 可 以 不 
用 外 接 协 转 ， 直 接连 接 从 光端机 分 离 出 来 的 一 路 或 者 几 路 G703 或 者 
BNC 接 头 ， 直 接 编 码 与 解码 El 协议 。 但 是 这 些 也 都 是 IP 路 由 器 ， 和 FC 
丝 宇 没有 关系 。 











可 以 看 出 ，FC 如 果 脱 离 了 “后 端 专用 ”这 四 个 字 到 开放 领域 ， 显 然 是 
无 法 生存 的 。 而 IP SAN， 则 软 硬 通 吃 ， 只 要 有 IP 的 地 方 ， 不 管 其 下 层 是 
什么 链 路 协议 ， 就 可 以 部 署 IP SAN。 这 就 是 为 何 称 TCP/IP 为 协议 中 的 秦 
始 星 的 原因 : 秦 始 星 统一 了 货币 ， 到 哪里 都 通用 ， 同 样 ，TCP/P 也 统一 
了 和 下层 凌 乱 的 各 种 协议 。 








13.2 ”协议 融合 的 迫切 性 


说 到 这 里 ， 租 用 Internet 线 路 ， 只 能 承载 IP， 而 租用 点 对 点 专线 ， 也 
普 过 用 来 承载 卫 ， 可 能 感觉 FC 的 扩展 似乎 就 是 死路 一 条 了 。 但 是 ，IP 想 
起 了 ISCSI， 当 初 自己 不 就 是 把 SCSI 协 议 给 封装 到 了 TCP/IP 协 议 中 来 传 
输 ， 才 扩展 了 SCSI 协 议 么 ?也 就 是 说 如 果 将 一 种 协议 封装 到 男 一 种 协议 
中 传输 ， 束 可 以 使 用 另 一 种 协议 带 来 相应 的 好 处 了 。 不 妨 就 这 么 假设 一 
下 ，FC 不 可 扩展 ，TCP/IP 扩 展 性 很 强 ， 那 么 如 果 把 FC 协议 封装 到 
TCP/IP 协 议 中 来 传输 ， 是 不 是 也 可 以 获得 TCP/IP 的 扩展 性 呢 ?” 这 个 想法 
比较 大 胆 ， 因 为 FC 本 身 也 是 作为 一 种 可 以 传输 其 他 协议 的 协议 ，FC 其 
至 可 以 承载 IP， 作 为 IP 的 链 路 层 ， 那 么 为 什么 现在 却 反 过 头 来 需要 用 IP 
来 承载 呢 ? 





提示 : ”Protocol over Protocol，PoP， 即 一 种 协议 被 打包 封装 或 
者 映射 到 另 一 种 协议 之 上 。 这 种 思想 在 网 络 协议 领域 中 经 常 使 
用 。 我 们 姑且 称 其 为 “协议 融合 "”， 认 为 其 已 经 可 以 形成 一 个 独 
立 的 科目 。 


要 谈 协 议 融 合 ， 还 得 从 以 太 网 和 TCP/IP 说 起 。 





1. 以 太 网 和 TCP/IP 不 能 不 说 的 故事 


前 面 已 经 详细 介绍 了 以 太 网 和 TCP/IP 协 议 。 我 们 知道 ， 以 太 网 是 一 
个 网 络 通信 协议 。 

提示 : 记得 茶 人 曾经 说 过 一 句 话 :“ 网 络 融 是 水 蝇头 。” 这 人 句 话 

比较 有 意思 ， 它 反映 出 说 这 人 句 话 的 人 对 网 络 的 不 了 解 ， 但 是 也 

证 明 他 平时 所 见 到 的 网 络 ， 确 实 只 有 水 唱 头 ， 且 以 太 网 普 明 使 





用 水 晶 头 ， 这 样 “ 网 络 就 是 水 唱 头 ”这 句 话 ， 也 不 是 那么 可 突 
了 。 它 从 茶 种 角度 也 反映 出 了 以 太 网 在 当今 的 普及 程度 。 


前 面 讲 到 以 太 网 是 可 以 寻 址 的 ， 也 就 是 说 它 涉 及 了 OSI 第 三 层 网 络 
层 的 内 容 。 大 家 都 连接 到 一 个 以 太 网 环境 中 ， 不 需要 任何 其 他 上 层 协 
议 ， 就 可 以 区 分 开 对 方 ， 进 行 通信 。 既 然 这 样 ， 为 什么 连 新 闻 联 播 的 主 
持 人 都 知道 Imternet 是 利用 TCP/ 了 了 协议 而 不 是 以 太 网 来 通信 呢 ? 为 何 我 们 
总 是 说 以 太 网 十 TCP/IP 协 议 二 元 组 ， 而 不 是 仅仅 说 以 太 网 ， 或 者 TCP/IP 
协议 ? 


因为 以 太 网 和 TCP/IP 协 议 是 逻辑 上 分 开 的 ， 它 们 各 自 是 不 同 的 协议 
体系 ， 那 么 为 什么 总 是 把 它们 组 合 起 来 说 呢 ? 它们 之 间 有 什么 割舍 不 断 
的 恩 恩 怨 怨 呢 ? 这 其 中 原因 ， 还 要 从 耳 讲 起 。 





2. IP 本 位 








前 面 也 说 过 了 ，IP 就 是 一 个 映 份 标志 ， 是 用 来 与 其 他 人 区 别 的 一 个 
ID。 以 太 网 协议 中 规定 的 MAC 地 址 ， 从 原理 上 讲 ， 就 足够 用 来 区 分 网 
络 中 各 个 节点 了 。 但 是 前 面 也 分 析 过 ， 完 全 靠 MAC 来 寻 址 的 缺点 : 一 
是 MAC 地 址 太 长 ，48b， 用 于 路 由 寻 址 时 效率 太 低 ; 二 是 世界 上 并 不 是 
每 个 环境 中 都 用 以 太 网 来 建立 网 络 ， 除 了 以 太 网 ， 还 有 其 他 各 种 方式 的 
网 络 系统 ， 各 目 有 各 目的 寻 址 方式 ， 如 果 要 让 所 有 类 型 的 网 络 之 间 无 障 
人 碍 的 相互 通信 ， 残 毅 要 一 个 秦 始 旦 来 统一 天 下 的 货 








IP 就 是 这 个 被 选中 的 货币 。 不 管 以 太 网 ， 或 者 串口 协议 ， 或 者 
FDDI 等 类 的 局 域 网 方式 ， 我 们 最 终 都 要 让 其 之 间 相 互通 信 ， 才 能 形成 


Internet。 





提示 : 如 果 你 是 徐 始 星 ， 你 会 怎么 来 处 理 各 国 众多 的 货 
呢 ? 虽然 秦 始 旦 最 终 将 其 他 货币 回收 废除 了 ， 但 是 人 P 却 不 能 在 
短 时 间 内 将 所 有 网 络 形 式 都 废除 ， 而 用 以 太 网 统一 ， 因 为 现在 
己 经 不 是 一 个 人 说 了 算 的 时 代 了 。 秦 始 旦 可 以 在 各 个 使 用 不 同 
贷 币 的 地 方 设立 一 个 专门 的 吕 换 机 构 ， 只 要 到 了 这 个 地 方 ， 兢 
多 换 成 这 里 使 用 的 货 





同样 ， 我 们 也 给 每 个 网 络 设立 一 个 网 络 地 址 兑换 设备 ， 也 就 是 协 
议 ， 将 统一 的 下 地 址 兑换 成 这 个 网 络 的 目 用 私有 地 址 ， 用 这 种 方式 实现 
各 种 类 型 网 络 的 相互 联通 。 网 络 中 的 竞 换 机 制 ， 是 通过 ARP 协 议 实 现 
的 ，ARP 协 议 可 以 将 一 种 网 络 地 址 映射 成 另 一 种 网 络 地 址 。 每 种 网 络 要 
想 用 了 来 统一 ， 都 必须 运行 各 目的 ARP 协 议 ， 比 如 以 太 网 中 的 ARP 协 
议 ， 帧 中 继 网 络 中 的 ARP 协 议 等 。 


对 于 以 太 网 来 说 ， 卫 就 是 统一 货币 ，MAC 就 是 以 太 网 货币 。 另 外 ， 
还 有 各 种 各 样 其 他 类 型 的 货币 ， 比 如 主机 名 〈Hostname) 、 域 名 等 。 大 
家 在 访问 网 站 的 时 候 ， 其 实 就 是 和 提供 网 站 服务 的 服务 器 来 建立 通信 ， 
获取 它 的 网 页 和 其 他 服务 ， 在 下 浏览 器 中 输入 这 个 网 站 的 域名 之 后 ， 
DNS 兑换 程序 会 自动 向 DNS 服 务 器 查询 ， 获 得 这 个 域名 所 对 应 的 耳 地 
址 ， 然 后 用 IP 地 址 与 服务 器 通信 。 





数据 包 带 着 IP 地 址 到 了 服务 器 所 在 的 局 域 网 之 后 ， 会 通过 局 域 网 的 
路 由 器 发 出 ARP 请 求 ， 来 把 了 地 址 再 兑换 成 服务 器 所 在 局 域 网 络 的 地 
址 。 如 果 服 务 器 所 在 的 局 域 网 是 以 太 网 ， 则 对 应 成 MAC 地 址 ， 然 后 通 
过 以 太 网 交换 设备 ， 找 到 这 个 MAC 地 址 所 在 的 交换 机 端口 ， 将 数据 包 
发 问 这 个 端口 ， 从 而 被 服务 器 收 到 。 


为 什么 要 经 过 多 次 兑换 呢 ? 首先 把 卫 转 换 成 域名 ， 征 为 了 方便 记 


忆 ， 不 必 记 忆 那 些 复杂 的 卫 地 址 ; 其 次 把 MAC 和 转换 为 了， 是 为 了 天 下 统 
一 ， 相 互 流通 


其 实 如 果 所 有 人 都 用 以 太 网 联网 ， 那 么 就 可 以 完全 抛弃 IP 这 一 层 寻 
址 了 ， 但 是 实际 是 不 可 能 的 ， 以 太 网 现在 还 没有 一 统 天 下 ， 而 且 就 算 一 
统 天 下 了 ， 人 们 也 似乎 不 愿意 抛弃 卫 ， 就 像 在 同一 个 局 域 网 内 ， 还 是 用 
IP 来 直接 通信 ， 而 不 是 直接 用 MAC。TCP/IP 实 在 是 被 使 用 的 已 经 太 普 遍 
以 至 于 束 算 牺牲 一 点 性 能 ， 局 域 网 内 通信 也 普遍 使 用 IP。 而 实际 

上 ， 以 太 局 域 网 内 部 通信 和 的话，NetBEUI 协 议 的 性 能 比 TCP/IP 协 议 要 高 
许多 














其 实 整个 Internet 不 仅仅 都 是 以 太 网 ， 以 太 网 适合 局 域 网 联网 通信 ， 
但 是 不 适合 广域网 情况 ， 广 域 网 的 联网 协议 ， 比 如 PPP、HDLC、Frame 
Relay、x25、ATM 等 ， 也 像 以 太 网 一 样 各 有 各 的 寻 址 体系 。 在 一 个 
Internet 上 有 这 么 多 种 不 同 地 址 的 网 络 ， 它 们 之 间 知 要 相互 融合 、 寻 址 ， 
了 驶 必须 在 各 种 地 址 之 间 ， 相 互 翻 译 、 转 换 、 映 射 ， 数 据 包 每 经 过 一 种 网 
络 ， 就 转换 一 次 ， 这 样 非常 麻烦 。IP 地 址 的 出 现 使 得 所 有 联网 的 节点 ， 
不 管用 的 是 以 太 网 ， 还 是 Frame Relay， 统 统 都 分 配 一 个 IP 地 址 给 每 个 节 
点 ， 对 外 最 终 以 IP 地 址 作为 寻 址 地 址 ， 而 将 IP 地 址 再 映射 到 自己 所 在 网 
络 的 所 使 用 的 地 址 上 ， 比 如 IP 映 射 到 以 太 网 的 MAC， 或 者 IP 映 射 到 
Frame Relay 的 DLCI、 映 射 到 ATM 的 地 址 等 。 








用 来 进行 地 址 映射 的 程序 ， 称 为 Address Resolution Protocol， 即 
ARP。 很 多 人 听 到 ARP， 就 认为 是 以 太 网 ， 其 实 这 也 是 错误 的 ，ARP 不 
仅仅 代表 以 太 网 中 的 IP 地 址 和 MAC 地 址 的 映射 ， 它 代表 任何 种 类 地 址 之 
间 的 映射 对 应 关系 ， 从 这 一 点 来 说 ，DNS 协 议 也 应 该 归 入 广义 的 ARP 协 
议 中 。 


IP 统 治 了 OSI 的 第 三 层 ， 将 原来 占据 第 三 层 的 凑 乱 地 址 种 类 统一 
了 。 了 映射 到 《承载 于 ) 以 太 网 的 PP， 称 为 IPoE 〈IPoE 也 就 是 “基于 以 太 
网 的 TCP/IP”) ;映射 到 帧 中 继 的 了 PP， 称 为 IJpoFR; 映射 到 ATM 的 IP， 称 
为 IPoA 等 。 从 此 一 种 新 的 概念 诞生 了 : PoP， 即 Protocol over Protocol。 


3. IP 缺 乏 传 输 保障 功能 


IP 统 一 了 天 下 还 不 够 ,因为 IP 最 大 的 作用 就 是 寻 址 和 路 由 以 及 适 配 
链 路 层 MTU， 它 并 不 提供 其 他 功能 ， 而 作为 一 个 健全 的 网 络 传输 协 
议 ， 必 须 具 有 传输 保障 功能 。 而 以 太 网 是 一 个 面 同 无 连接 的 网 络 ， 它 不 
保障 数据 一 定 会 传送 的 对 方 ， 是 一 个 不 负责 任 的 网 络 ， 不 管 目的 端口 有 
没有 收 到 ， 源 端口 只 管 向 外 发 送 。 而 Frame Relay 协议 ， 其 前 身 x25 协 
议 ， 是 一 个 有 着 很 好 传输 保障 功能 的 协议 ， 在 TCP/IP 没 有 出 现 之 前 ， 
x25 的 传输 保障 机 制 做 得 非常 到 位 ， 因 为 x25 的 设计 初 囊 ， 就 是 为 了 运行 
到 极其 不 稳定 的 链 路 上 。 而 随 着 链 路 质量 的 不 断 提高 ，x25 的 做 法 显得 
越 来 越 因 嘻 废 食 了 ]， 上 所 以 其 改 展 版 本 Frame Relay， 就 逐渐 蔡 代 了 x25， 
FR 抛 弃 了 x25 中 很 多 无 谓 的 传输 保障 机 制 ， 而 仅仅 留 下 一 些 流 控 机 制 。 
相对 于 以 太 网 的 不 负责 任 ，EFR 起 码 在 链 路 层面 ， 实 现 了 比较 好 的 流 控 


音 施 。 


但 是 ,不管 是 以 太 网 ， 还 是 FR， 部 没有 实现 端 到 端的 传输 保障 。 
端 到 端 ， 和 是 相对 于 “过 路 ?来 说 的 。 过 路 是 指 在 两 个 终端 之 间 通 信 路 径 上 
的 网 络 设备 之 间 的 路 径 。 链 路 层 的 传输 保障 就 是 一 种 过 路 保障 ， 因 为 链 
路 层 只 保证 相连 的 两 个 设备 之 间 传 送 数据 正常 无 误 ， 但 是 不 能 保障 通信 
最 终端 接收 和 发 送 的 数据 正常 无 误 。 因 为 在 一 个 典型 的 包 交 换 网 络 中 ， 
数据 包 一 般 都 是 一 跳 一 跳 地 被 传送 的 ， 每 一 跳 两 端的 设备 用 链 路 层 协 议 
进行 传输 保障 。 




















但 是 最 终 目的 是 要 让 通信 的 最 终 两 端 无 误 地 收 到 数据 ， 才 能 算 作 真 
正 的 传输 保障 ， 即 端 到 端的 保障 。 而 FR 协 议 所 做 的 ， 只 是 在 过 路 的 时 
候 保 障 链 路 正确 传输 。 如 果 链 路 正确 传输 给 了 终端 ， 而 终端 到 最 终 上 层 
的 茶 个 环节 出 错 了 ， 那 么 数据 同样 也 是 错误 的 ， 所 以 ， 要 实现 病 到 端的 
传输 保障 ， 一 定 要 在 最 终 传输 终端 上 运行 一 个 侦 错 和 纠 错 逻 辑 ， 用 来 发 
现 链 路 层 所 发 现 不 了 的 错误 。 图 13-1 为 端 到 端 保障 与 过 路 保障 的 示意 
图 。 


























图 13-1 过 路 保障 与 端 到 端的 保障 运行 中 JP 及 其 下 层 链 路 层 协议 


4. TCP 保 芍 护 般 


为 了 实现 这 个 目的 ，TCP 出 现 了 。TCP 作 为 一 个 程序 运行 在 通信 的 
两 个 终点 ， 不 管 两 点 之 间 用 什么 样 的 链 路 连接 ， 经 过 了 多 少 网 络 设备 ， 
TCP 程 序 始终 运行 在 通信 终端 上 ， 监 控 终 端 最 终 发 送 和 接收 到 的 数据 包 
的 顺序 、 绥 存 区 、 校 验 等 信息 ， 检 查 是 否 出 现 丢 包 、 阻 塞 等 事件 ， 一 旦 
发 现 错误 ， 立 刻 纠正 重 发 数据 包 。 














TCP 不 是 运行 在 通信 路 径 上 的 ， 而 是 运行 在 通信 终点 的 两 端 设备 
上 。 即 使 过 路 链 路 保障 机 制 再 健全 ，TCP 也 是 有 必要 的 ， 因 为 数据 包 只 
有 被 终端 正确 接收 到 ， 才 能 算 真正 的 传输 保障 。 

所 以 ， 在 IP 之 上 ， 又 凌驾 了 一 层 TCP 逻 辑 ， 用 来 保障 端 到 端的 无 误 
传输 。 而 FR 等 链 路 层 协议 的 保障 机 制 ， 只 能 保障 本 段 链 路 传输 无 误 ， 
不 能 保障 端 到 端的 正确 收发 ， 所 以 只 能 沦 为 数据 链 路 层 协议 的 角色 了 ， 
用 来 承载 IP 和 TCP。 


我 们 可 以 体会 到 ， 协 议 之 间 也 是 在 互相 利用 ， 互 相 排 挤 、 否 并 及 融 





合 ， 以 适应 不 同 的 应 用 环境 ， 因 为 不 可 能 为 每 一 种 应 用 环境 都 设计 一 种 
协议 ， 协 议 之 间 互 相 利 用 、 融 合 ， 才 是 最 好 的 解决 办 法 。 


5. 最 佳 拍 档 一 一 TCP/IP 和 以 太 网 


现在 可 以 回答 上 面 没有 找到 答案 的 那个 问题 了 ， 为 什么 以 太 网 偏 要 
和 TCP/P 组 合成 一 对 呢 ? 因为 以 太 网 使 用 得 太 广泛 了 ， 而 OSI 的 第 三 
层 、 第 四 层 ， 也 几乎 被 IP、TCP 给 统一 了 ， 所 以 以 太 网 十 TCP/IP， 当 然 
就 成 了 一 对 好 搭档 了 。 


虽然 一 个 协议 可 能 实现 OSI 的 所 有 7 个 层次 ， 但 是 如 果 它 要 和 其 他 协 
议 合 作 ， 那 么 就 要 有 个 分 工 ， 而 不 能 越权 ， 比 如 IPoA、ATM 只 要 传输 
IP 包 到 目的 就 可 以 ， 而 不 管 数 据 是 否 出 错 、 乱 序 等 ， 虽 然 ATM 可 能 有 这 
个 功能 。 以 太 网 虽然 自己 可 以 寻 址 ， 但 是 它 还 是 配合 IP， 进 行 IP 到 MAC 
的 映 映 ， 统 一 使 用 P 寻 址 ， 它 默默 无 图 ， 所 有 光辉 都 被 TCP/IP 所 披挂 。 





13.3 网络 通 信 协 议 的 四 级 结构 


网 络 通 信 协 议 ， 一 般 可 以 分 成 Payload 层 、 信 息 表示 层 、 交 互 逻辑 
层 和 寻 址 屋 。 其 中 最 重要 的 是 交互 迎 辑 层 ， 它 是 一 个 协议 的 灵魂 。 








1. Payload 屋 


Payload 是 协议 所 承载 的 与 本 协议 逻辑 无 关 的 最 终 数 据 ， 是 通信 和 终 
端 通过 本 协议 最 终 需 要 传送 给 对 方 的 数据 。Payload 也 就 是 协议 所 运输 
的 货物 。Payload 层 中 的 数据 ， 既 可 以 是 最 终 应 用 产生 的 数据 ， 也 可 以 
是 男 一 种 协议 的 信息 表示 层 十 Payload 数 据 。 如 果 Payload 封 装 的 是 最 终 
应 用 产生 的 数据 ， 则 表示 这 个 协议 是 直接 被 上 层 应 用 程序 来 调用 ， 从 而 
完成 程序 之 间 的 远程 网 络 通信 的 。 








如 果 Payload 封 装 的 是 另 一 种 协议 的 信息 表示 层 十 Payload 数 据 ， 那 
么 就 证 明 这 个 协议 此 时 正在 承载 那个 协议 。 比 如 协议 A 封装 了 协议 B 的 
信息 表示 层 十 Payload， 则 就 可 以 说 协议 A 封装 了 协议 B， 或 者 协议 A 承 
载 了 协议 B， 或 者 说 协议 B is over 协议 A (BoA) 。 我 们 后 面 会 描述 一 种 
协议 被 Map 〈 上 映射 ) 到 另 一 种 协议 ， 而 不 是 被 封装 ， 这 种 融合 方式 称 为 
AmB， 是 彻底 的 协议 转换 ， 而 不 是 仅仅 做 隧道 封装 。 

















信息 表示 层 就 是 附加 在 Payload 数 据 之 外 的 一 段 数据 ， 也 称 作协 议 
开销 ， 因 为 这 段 数据 和 最 终 应 用 程序 无 天 ， 是 运行 在 通信 双方 的 通信 协 
议 用 来 交互 各 目的 状态 ， 从 而 使 双方 做 出 正确 动作 的 一 段 重要 数据 。 这 
段 数 据 可 以 想象 成 提货 单 或 者 信封 。 信 封 封装 了 信纸 ， 信 封 上 的 地 址 、 

















姓名 等 信息 ， 就 是 信息 表示 层 ， 它 可 以 让 对 方 检测 到 当前 通信 所 处 的 状 











这 一 层 其 实 就 是 运行 在 通信 双方 协议 系统 上 的 动作 程序 代码 过 辑 ， 
它 根 据 对 方 传送 过 来 的 信息 表示 层 数 据 来 做 出 相应 的 动作 逻辑 ， 再 生成 
目 己 的 信息 表示 层 及 送 给 对 方 ， 然 后 对 方 再 做 相同 的 处 理 判 断 动 作 ， 就 
这 样 完成 通信 双方 之 间 的 正确 动作 。 交 互 逻 辑 层 其 实 就 是 协议 的 设计 思 
想 。 交 互 逻辑 层 对 于 每 种 协议 部 不 相同 ， 但 是 很 多 都 类 似 ， 可 以 说 网 络 
通信 协议 基本 思想 是 类 似 的 ， 因 为 它们 所 实现 的 目的 都 十 一 样 的 ， 就 古 
将 数据 通过 网 络 传输 到 目的 地 。 

















正 因为 如 此 ， 各 种 协议 的 交互 逻辑 层 才 可 以 相互 融会 贯通 ， 将 一 种 
协议 的 逻辑 ， 映 射 翻译 到 男 一 种 协议 的 逻辑 ， 从 而 将 各 种 协议 的 优点 结 
合 起 来 ， 完 成 目标 。 协 议 逻 辑 层 一 般 都 是 运行 在 通信 双方 两 端的 ， 但 是 
像 耻 路 由 协议 等 ， 通 信 双 方 经 过 的 路 径 上 的 所 有 设备 ， 也 都 需要 运行 ， 
因为 卫 包 是 一 跳 一 路 被 接收 并 且 转 发 的 。 


4. 寻 址 层 


它 是 帮助 协议 来 找到 需要 通信 的 目标 的 一 套 编 址 和 寻 址 机 制 。 比 如 
IP 地 址 、MAC 地 址 、DLCI 地 址 、 电 话 号 码 等 。 如 果 是 点 对 点 传输 协 
议 ， 则 可 以 忽略 此 层 ， 因 为 不 需要 寻 址 。 而 且 不 同 协议 之 间 的 寻 址 层 ， 
可 以 互相 映射 翻译 。 





以 上 的 这 四 属 ， 是 任何 一 个 网 络 通信 协议 所 必须 具备 的 ， 不 管 多 么 
简单 或 者 多 么 复杂 的 协议 。 


5. 通信 协议 的 相似 性 


相似 性 是 通信 协议 之 间 相 互 融合 的 一 个 条 件 。 而 协议 之 间 相 互 融合 
的 妨 一 个 促成 因 系 ， 束 是 协议 使 用 广泛 程度 不 同 ， 有 时 如 果 要 完成 一 个 
目标 ， 不 得 不 借用 东 种 协议 。 





就 像 TCP/IP 协 议 ，TCP/IP 协 议 占 领 了 全 球 Internet 的 领地 。 如 果 有 一 
种 协议 想 跨 越 地 域 或 国家 来 进行 通信 ， 但 是 自己 又 无 能 为 力 ， 因 为 它 首 
先 没 有 专门 为 它 准备 的 物理 线路 ， 其 次 它 的 设计 ， 也 不 适合 大 范围 、 长 
距离 的 广域网 环境 ， 那 么 它 只 能 来 租用 TCP/IP 协 议 ， 将 自己 封装 到 IP 包 
中 传送 。 能 适合 Internet 规 模 的 网 络 通信 协议 ， 唯 TCP/ 耻 莫 属 ! 而 其 他 协 
议 想 要 完成 Internet 范 围 的 通信 ， 就 不 得 不 借助 TCP/ 了 了 ， 搭 TCP/PP 的 车 ， 
让 TCP/IP 来 承载 它们 。 它 们 是 怎么 搭 上 TCP/IP 的 快车 呢 ? 





我 们 不 妨 类 比 一 下 。 在 整理 本 章 的 时 候 ， 恰 着 大 连 刚刚 开通 了 一 稻 
新 的 火车 箱 滚 装 艇 。 我 想 用 这 个 例子 来 比喻 协议 融合 ， 再 适合 不 过 了 。 
从 山东 烟台 到 大 连 ， 最 近 的 路 径 就 是 走 渤 海湾 水 路 ， 如 果 搭 乘 陆路 火 
车 ， 则 需要 绕 一 大 团 ， 所 以 很 多 货运 汽车 ， 甚 至 火车 ， 部 选择 乘 船 到 大 
连 ， 下 船 后 ， 车 厢 用 火车 头 拉 走 ， 这 样 ， 在 增加 很 少 成 本 的 条 件 下 ， 症 
约 了 大 量 时 间 。 协 议 融 合同 样 遵循 这 个 原则 ， 只 要 能 使 总 体 拥有 成 本 降 
低 ， 性 价 比 提高 ， 任 何 协议 都 可 以 融合 。 





13.4 协议 融合 的 三 种 方式 
协议 和 协议 之 间 的 相互 作用 ， 有 三 种 基本 的 思想 。 


第 一 种 是 调用 《Use) ， 也 就 是 一 种 协议 完全 利用 另 一 种 协议 。 
第 二 种 是 隧道 封闭 (Tunnel) ， 一 种 协议 将 另 一 种 协议 的 完整 数 
气 包 全 打包 隧道 封装 到 新 协议 数据 包 中 。 

第 三 种 是 映射 “Map) ， 也 就 是 一 种 协议 对 妃 一 种 协议 进行 映射 
翻译 ， 只 将 原来 协议 的 Payload 层 数据 提取 出 来 ， 重 新 打包 到 新 
协议 数据 包 中 。 





1. 调用 关系 


所 谓 调用 ， 也 就 是 一 种 协议 自身 没有 某 些 功能 ， 需 要 使 用 另 一 种 协 
议 提供 的 功能 。 比 如 TCP 调 用 IP， 因 为 TCP 没 有 寻 址 功能 ， 所 以 它 利 用 
IP 来 寻 址 。 而 卫 又 可 以 调用 以 太 网 ， 因 为 了 只 有 寻 址 功能 ， 它 没有 链 路 
传输 的 功能 ， 所 以 它 利 用 以 太 网 提供 的 链 路 传输 (交换 机 、Hub 等 〉。 
IP 调 用 PPP 来 传输 等 ， 也 就 是 上 层 协 议 为 了 达到 通信 目的 ， 使 用 另 一 种 
协议 为 其 服务 。 这 种 关系 严格 来 说 ， 不 算是 融合 。 


2. 隧道 关系 


隧道 封装 ， 顾 名 思 义 ， 就 是 将 一 种 协议 的 完整 数据 包 〈 包 括 
Payload 和 协议 开销 ， 作 为 男 一 种 协议 的 Payload 来 进行 封 狼 ， 打 包 传 输 
到 目的 地 ， 然 后 解 开外 层 协 议 的 封装 信息 ， 露 出 内 部 被 封装 承载 的 协议 
完整 数据 包 ， 再 提交 给 内 层 协 议 处 理 逻 辑 模 块 进行 处 理 。 也 就 是 说 ， 进 
行 协议 转换 的 设备 根本 就 不 需要 去 理解 内 层 协议 到 奔 是 什么 东西 ， 到 底 





想 要 干什么 ， 只 要 将 数据 包 统统 打包 发 出 去 。Tunnel 的 出 现 ， 往 往 是 由 
于 被 Tunnel 的 协议 虽然 和 外 层 协议 都 在 某 一 方面 具有 相似 甚至 相同 的 功 
能 ， 但 是 在 某 些 特定 的 条 件 下 ， 被 Tunnel 协 议 不 比 外 层 协议 表现 得 优 
郁 ， 不 适合 某 种 特定 的 环境 ， 而 这 种 环境 ， 恰 恰 补 外 层 协议 所 适合 。 这 
就 像 用 船 来 装 火 车 箱 一 样 。Tunnel 的 男 一 个 目的 是 伪装 内 层 协 议 。 


3. 映射 关系 


Map 是 比 Tunnel 更 复杂 、 更 彻底 的 协议 融合 方式 。 所 谓 Map， 也 就 
是 映射 ， 就 是 将 内 层 协议 的 部 分 或 者 全 部 逻辑 ， 映 射 翻译 到 外 层 协议 对 
应 的 功能 相似 的 逻辑 上 ， 而 不 是 仅仅 做 简单 的 封装 。Map 相 对 于 
Tunnel， 是 内 外 层 协议 的 一 种 最 彻底 的 融合 ， 它 将 两 种 协议 的 优点 ， 融 
合 得 天 衣 无 颖 。 内 层 协议 的 Payload 层 在 Map 动 作 中 是 不 会 改动 的 ， 因 为 
Payload 层 的 数据 只 有 两 端 通信 的 应 用 程序 才能 理解 。 





13.5 “Tunnel 和 Map 融 合 方式 各 论 








例如 火车 、 汽 车 是 两 种 运输 工具 ， 它 们 看 似 有 太 多 的 不 同 ， 但 是 它 
们 的 功能 都 是 相同 的 ， 都 是 将 货物 运送 到 目的 地 。 而 火车 需要 在 铁道 上 
跑 ， 但 汽车 需要 在 公路 上 跑 《〈 物 理 层 不 同 ， 链 路 层 不 同 ) ; 火车 因为 铁 
轨 很 平 请 ， 需 要 用 钢铁 轮子 ， 而 汽车 因为 公路 很 匡 稻 ， 需 要 用 充气 轮 
胎 ; 火车 不 需要 红绿灯 来 制约 ， 而 汽车 在 公路 跑 上 ， 会 有 很 多 红绿灯 来 
制约 它 ， 火 车 由 于 跑 在 专用 的 铁轨 上 ， 所 以 它 能 达到 很 高 的 时 速 ， 而 汽 
车 由 于 在 共 吾 的 公路 上 跑 ， 它 能 ， 但 是 不 敢 达 到 太 高 的 时 速 ， 火车 只 能 
按照 它 的 轨道 来 运行 ， 而 汽车 几乎 随处 可 去 .……. 














以 上 列举 出 了 火车 和 汽车 的 种 种 特点 ， 相 应 地 飞机 、 轮 船 、 火 箭 等 
都 可 以 拿 来 对 比 ， 这 些 特点 就 像 各 种 通信 协议 自身 的 特点 一 样 。 同 样 都 
征 运 得 货物 ， 但 是 它们 都 适应 了 不 同 的 需要 。 只 不 过 网 络 通信 协议 运输 
的 不 是 货物 ， 而 是 一 串 0 和 1， 古 高 低 变化 的 电 平 ， 是 数据 ， 古 信息 。 不 
同 的 通信 协议 同样 也 是 为 了 满足 不 同 的 情况 、 不 同 的 需求 。TCP/IP 协 议 
满足 了 Internet 范 围 的 网 络 通信 ; FC 协议 满足 了 后 端 存储 的 专用 高 速 公 
路 这 个 环境 ， 二 者 都 各 目 占 有 目 己 的 领地 ， 谁 也 取代 不 了 谁 。 就 像 铁路 
不 可 能 为 了 和 民航 竞争 ， 而 把 轨道 往 天 上 修 ， 航 空 公司 也 不 可 能 为 了 和 
陆运 公司 竞争 ， 而 让 飞机 跑 在 公路 上 。 


























TCP/PP 天 合 整个 Internet 范 围 的 通信 ， 而 SCSI 协 议 不 适合 ， 所 以 如 
果 SCSI 协 议 需 要 跨越 大 范围 通信 ， 束 要 将 其 承载 到 TCP/IP 上 ， 也 就 形成 
了 iSCSI 协 议 ， 然 而 TCP/IP 根 本 就 不 关心 什么 是 SCSI， 更 不 知道 SCSI 是 
怎样 一 种 作用 逻辑 ， 它 只 是 负责 封装 并 传输 。 同 样 ， 因 为 以 太 网 是 个 面 
向 无 连接 的 网 络 ， 没 有 握手 过 程 ， 也 没有 必要 有 终端 认证 机 制 、 没 有 
NCP 机 制 〈PPP 协 议 中 用 来 协商 上 层 协议 参数 的 机 制 ) ， 而 PPP 却 有 这 


些 机 制 ， 它 非常 适合 ISP 用 来 对 接 入 终端 进行 认证 和 管理 ， 但 是 PPP 的 使 
用 程度 远 远 不 如 以 太 网 广泛 ， 怎 么 办 ? 融合 吧 ! 于 是 形成 了 PPPoE 协 
议 。 


13.5.1 Tunnel 方式 


ISCSI 和 PPPoE 这 两 个 协议 ， 是 典型 的 Tunnel 模 式 。 前 面 已 经 给 
Tunnel 下 过 定义 了 。 首 先 一 种 PoP 的 模式 被 定义 为 Tunnel 的 前 提 ， 就 是 
这 两 种 协议 对 某 一 特定 的 功能 均 有 自己 的 实现 。 如 果 一 种 协议 在 某 方面 
的 功能 ， 男 一 种 协议 没有 实现 ， 那 么 另 一 种 协议 就 是 “调用 ” 那 种 协议 ， 
而 不 是 被 Tunnel 到 那 种 协议 。 比 如 ，IPoE 就 是 典型 的 调用 ， 而 不 是 
Tunnel 或 者 Map， 因 为 卫 没 有 链 路 层 功 能 。 


注意 : ”IP 与 Ethemet 之 间 的 编 址 逻辑 是 映射 天 系 而 不 是 使 用 关 
系 ， 即 IP 地 址 与 MAC 地 址 的 相互 映射 。 


用 iSCSI 来 分 析 ，TCP/IP 可 以 实现 寻 址 和 传输 保障 ，SCSI 协 议 也 可 
以 实现 寻 址 和 传输 保障 ， 所 以 它们 具备 了 这 个 前 提 ; 同样 ，PPPoE 也 是 
一 种 Tunnel 方 式 的 融合 协议 ， 因 为 PPP 和 Ethemet 都 是 链 路 层 协议 。 


1. VPN 的 引入 


Tunnel 的 另 一 个 作用 ， 就 是 伪装 。 有 时 候 虽 然 两 种 协议 实现 的 功 
能 、 适 用 环境 都 相同 ， 但 还 是 将 其 中 一 种 Tunnel 到 男 一 种 之 上 ， 这 是 为 
什么 呢 ? 有 些 情 况 确 实 需要 这 种 实现 方式 。 比 如 了 协议 中 的 GRE， 通 用 
路 由 封装 ， 就 是 这 样 一 种 协议 。 它 将 下 协议 承载 到 耳 协 议 本 身 之 上 ， 目 
己 承 载 自己 ,再 封装 一 层 ， 这 样 束 可 以 使 得 一 些 不 能 在 公 网 路 由 的 IP 
包 ， 封 装 到 可 以 在 公 网 路 由 的 卫 包 之 中 ， 到 达 目 的 地 后 再 解 开 封装 ， 露 








出 原来 的 卫 包 ， 再 次 路 由 。 这 就 是 伪装 。 


利用 这 种 思想 ， 人 们 设计 出 了 VPN， 即 Virtual Private Network， 用 
来 将 相隔 千里 的 两 个 内 部 网 络 ， 通 过 Internet 连 接 起 来 ， 两 端 就 像 在 一 个 
内 网 一 样 ， 经 过 Internet 的 时 候 ， 使 用 公 网 地 址 封装 内 网 的 卫 包 。 这 是 最 
简单 的 VPN。 在 这 基础 上 ， 又 可 以 对 IP 包 进行 加 密 、 反 修改 等 ， 形 成 
IPSec 体 系 ， 将 其 和 原始 的 VPN 结 合 ， 形 成 了 带 加 密 和 反 修 改 的 IPSec 
VPN， 真 正 使 得 这 种 PoP 罕 越 外 层 协 议 的 时 候 ， 能 够 保障 数据 安全 。 





2. 例 解 Tunnel 


下 面 再 举 个 例子 来 说 明 ， 到 底 什 么 是 Tunnel。 


邮政 系统 ， 目 前 已 经 是 举步维艰 。21 世 纪 之 前 ， 网 络 还 不 很 普及 ， 
除了 电话 、 电 报 ， 写 信 似 乎 是 大 家 长 距离 通信 的 唯一 选择 。 寄 信人 将 自 
己 的 信件 〈 数 据 ，Payload) 装 入 信封 (协议 信息 表示 层 数 据 段 ，”， 填 
好 收 信 人 人 地址、 邮编 、 名 称 (通信 协议 的 信息 表示 层 、 寻 址 层 ) 等 ， 交 
给 邮局 《网 络 交 换 路 由 设备 ) ， 由 邮局 进行 层 层 路 由 转发 ， 最 终 到 达 目 
的 地 。 























IP 网 络 和 邮政 系统 极其 相似 。 而 为 什么 邮政 系统 目前 已 经 陷入 了 困 
境 呢 ?原因 就 是 苋 搜 。 








进入 21 世 纪 之 后 ， 物 流 业 快速 兴起 ， 它 们 借助 公路 、 水 路 、 航 路 、 
铁路 等 “ 链 路 层 "”， 加 上 自己 的 一 套 流 程 体系 (协议 交互 逻辑 ) ， 充 分 利 
用 这 些 资 源 达 到 物流 目的 。 以 前 只 有 邮政 一 种 方式 ， 而 现在 出 现 了 许多 
的 物流 公司 ， 每 个 公司 都 有 目 己 不 同 的 物流 体系 ， 但 是 基本 思想 大 同 小 
异 ， 都 是 要 将 用 户 的 货物 运送 到 目的 地 。 





21 世 纪 ， 虽 然 网 络 已 经 很 发 达 ， 但 是 网 络 只 能 走 信息 流 ， 走 不 了 实 
物流 。 所 以 物流 公司 还 是 能 占据 一 定 市 场 。 








提示 : ”我 们 来 看 看 21 世 纪 ， 用 户 是 怎么 来 寄 出 一 封 信件 或 者 
包 衷 的 。 同 样 寄 出 一 封 信 ， 如 果 还 是 用 古老 的 协议 ， 比 如 信封 
十 80 分 邮 枝 的 形式 ， 还 是 可 以 的 ， 大 街 上 现在 还 有 邮 简 。 但 是 
很 多 快递 公司 也 提供 信件 包 右 服务， 只 不 过 他 们 用 的 信封 ， 比 
普通 信封 大 、 结 实 ， 而 且 他 们 信封 上 的 标签 ， 所 包含 的 信息 更 
加 有 共 体 和 丰富 ， 比 如 增加 了 收 件 人 电话 、 发 件 日 期 、 受 理 人 签 
字 、 委 托 人 签字 等 。 邮 政信 封 具有 的 ， 快 递 信封 都 具有 。 








这 样 就 可 以 看 出 这 两 种 协议 的 不 同 之 处 了 。 用 户 可 以 把 信件 封装 到 
邮政 普通 信封 直接 发 送 ， 也 可 以 封装 到 快递 公司 信封 中 及 送 ， 也 就 是 选 
用 其 中 一 种 协议 。 





那么 如 果 用 户 先 把 信件 “最 终 数据 ) 封闭 到 普通 信封 中 ， 填 好 信封 
头 信息 《协议 信息 表示 层 和 寻 址 层 ) ， 然 后 将 封装 好 的 普通 信封 ， 再 封 
装 到 快递 公司 的 信封 中 ， 并 再 次 填 一 份 快递 公司 的 信封 头 信 息 ; 快递 公 
司 按照 这 些 信 息 ， 将 信件 送 到 目的 地 ， 目 的 收 到 之 后 ， 解 开外 层 信 封 ， 
然后 解读 内 层 信封 的 信息 头 ， 再 次 转发 ， 或 者 直接 打开 。 刚 才 描述 的 这 
种 情况 ， 就 是 一 个 典型 的 协议 Tunnel 方 式 的 相互 作用 ， 把 邮政 协议 
Tunnel 到 快递 公司 的 协议 ， 这 种 Tunnel 的 目的 ， 就 是 为 了 获得 快速 、 优 
质 的 服务 ， 因 为 普通 邮政 协议 提供 不 了 快速 高 效 的 服务 。 




















思考 : 我们 再 来 看 这 种 情况 ， 比 如 快递 公司 A， 在 北京 没有 自 
己 的 送 贷 机 构 ， 但 是 青鸟 有 人 需要 疝 北京 送 货 ， 怎 么 办 ? 











此 时 当然 要 考虑 借助 在 北京 有 送 货机 构 的 快递 公司 B， 让 他 们 代 


送 ， 将 信件 封 狼 到 快递 公司 A 的 信封 ， 然 后 再 将 A 的 信封 闭 入 快递 公司 B 
的 信封 ， 让 快递 公司 B 做 转发 ， 到 目的 地 之 后 ，B 的 送 货 员 和 剥 开外 层 信 
封 ， 最 终 用 户 会 收 到 一 个 快递 公司 A 的 信封 ， 客 户 就 认为 是 快递 公司 A 
全 程 护送 过 来 的 ， 其 实 不 是 。 这 样 就 很 好 地 伪装 了 信件 。 这 是 Tunnel 的 
有 人 下 上 网 





13.5.2 “Map 方式 


说 完了 Tunnel， 我 们 再 来 说 说 Map。Map 就 是 将 一 种 协议 的 逻辑 ， 
翻译 映射 成 另 一 种 协议 的 逻辑 ，Payload 数 据 完 全 不 变 ， 达 到 两 种 协议 


部 分 或 者 完全 融合 。 


还 是 快递 公司 的 例子 。 两 个 快递 公司 (两 种 协议 ) ， 快 递 公 司 A 在 
青岛 没有 自己 的 送 货 机 构 ， 但 是 BB 有。 所 以 A 和 B 达 成 协议 ，A 将 育 岛 地 
区 的 送 货 外 包 给 B， 凡 是 A 公 司 在 育 岛 的 业务 ， 都 由 B 来 运送 ， 但 是 表面 
上 必须 保持 A 的 原样 ， 这 种 方式 目前 实际 已 经 广泛 使 用 。 起 初 的 做 法 
是 : 移 将 客户 信件 装 入 A 信 封 ， 然 后 再 封装 一 层 B 信 封 ， 带 者 A 信 封 来 转 
发 ， 也 就 是 Tunnel。 后 来 ，B 公 司 嫌 这 种 方法 浪费 成 本 ， 因 为 额外 携 融 
了 一 个 A 信 封 ， 这 增加 了 信件 的 重量 和 信封 成 本 。 所 以 B 公 司 琢 麻 出 一 
套 方 法 : 




















先 让 B 公 司 的 取 件 人 了 解 寄 件 人 所 要 提供 的 信息 ， 此 时 取 件 人 担当 
A 公司 的 角色 ， 用 户 认 为 取 件 人 是 A 公司 的 ， 用 户 按 照 A 公 司 的 协议 ， 将 
言 封 头 信息 告诉 取 件 人 ;然后 取 件 人 此 时 并 没有 将 信件 装 入 A 公 司 信 
封 ， 而 是 直接 装 入 了 B 公 司 信封 ， 但 是 在 填写 B 公 司 信封 头 的 时 候 ， 取 
件 人 将 用 户 提供 的 针对 A 公 司 特有 的 信封 头 信 息 ， 转 换 翻 译 成 B 公 司 特 
有 的 信封 头 信息 ;经 过 B 公 司 转发 ， 到 达 目 的 地 之 后 ， 送 货 员 再 次 将 B 
公司 的 信封 头 信息 ， 转 换 翻 译 成 A 公 司 所 特有 的 信封 头 信 息 。 


























这 样 ， 两 端的 用 户 ， 同 样 也 丝 宫 感觉 不 出 中 间 环 节 其 实 是 B 公 司 完 
成 的 。 但 是 这 种 方式 相对 于 Tunnel 方 式 的 确 节约 了 B 公 司 的 成 本 ， 使 得 
开销 变 小 了 ， 提 高 了 转发 效率 。 这 种 方式 的 协议 之 间 的 相互 作用 ， 束 是 
Map 。 





1. IP 和 以 太 网 之 间 的 寻 址 关系 Map 


最 简单 的 Map 就 是 IP 和 以 太 网 之 间 的 寻 址 关系 Map。IP 地 址 必须 映 
射 到 MAC 地 址 ， 才 能 享受 以 太 网 的 服务 。 正 如 IP 和 以 太 网 之 间 的 Use 十 
Map 关 系 一 样 ， 实 际 上 ， 各 种 协议 之 间 的 相互 作用 ， 不 可 能 只 是 其 中 一 
种 作用 方式 : 寻 址 体系 之 间 一 定 需 要 Map 《〈 同 种 协议 自身 Tunnel 的 情况 
除外 ) ， 交 互 逻 辑 层 可 以 Tunnel， 也 可 以 Map，Payload 一 定 需 要 
Tunnel。 所 以 针对 协议 不 同 的 层次 ， 都 有 相对 应 的 相互 作用 方式 。 


2. 协议 交互 逻辑 的 Map 


协议 交互 逻辑 的 Map， 比 寻 址 层 的 Map 要 复杂 得 多 。 寻 址 层 的 Map 
只 要 维护 一 张 映射 表 就 可 以 ， 交 互 逻 辑 的 Map 则 需要 维护 一 个 代码 转换 








两 种 协议 的 状态 机 的 互相 融合 作用 是 很 复杂 的 。 比 如 TCP 的 流 控 机 
制 和 FC 协议 的 流 控 机 制 之 间 的 Map，TCP 是 靠 窗 口 机制 实 现 端 到 端的 流 
控 ，FC 靠 Buffer to Buffer〈 过 路 流 控 ) 和 End to End《〈 端 到 端 流 控 ) 两 
种 机 制 实现 流 控 。 如 果 把 FC 协议 承载 到 TCP/IP 协 议 之 上 ， 那 么 就 会 出 
现 Tunnel 模 式 和 和 Map 模式 ， 当 然 Tunnel 中 也 可 能 需要 Map，Map 中 也 同样 
需要 一 定 的 Tunnel 成 分 。 


我 们 不 妨 称 作 : 以 Tunnel 为 主 的 模式 和 以 Map 为 主 的 模式 。 


如 果 是 Tunne] 为 主 的 模式 ， 那 么 TCP/P 根 本 不 管 FC 协 议 的 交互 逻辑 
是 怎样 的 ，TCP 仅 仅 把 FC 当 成 Payload 来 封装 并 传送 。 


而 Map 模 式 中 ， 进 行 Map 操 作 的 设备 或 者 软件 ， 就 需要 既 了 解 
TCP/IP 协 议 的 交互 逻辑 ， 又 了 解 FC 协 议 的 交互 逻辑 ， 因 为 只 有 了 解 了 
双方 的 逻辑 ， 才 有 可 能 进行 Map。 比 如 ，FC 协 议 发 出 了 一 个 信号 ， 说 本 
方 缓存 将 满 ， 请 降低 发 送 速度 。Map 设 备 收 到 这 个 信号 之 后 ， 就 会 Map 
成 TCP/P 可 识别 的 信号 ， 即 本 方 处 理 受 阻 ， 窗 口 减 小 至 某 某 数值 ， 这 就 
是 FC 协议 到 TCP/IP 协 议 关 于 流 控 机 制 Map 的 一 个 方法 。 





如 果 在 Tunnel 模 式 中 ，FC 协 议 发 出 的 这 个 流 控 信号 ， 则 会 被 TCP/IP 
给 Tunnel 传 送 到 对 方 ， 然 后 再 由 对 方 的 FC 协议 模块 来 根据 这 个 信号 来 判 
断 流 控 机 制 应 该 做 出 的 动作 ， 动 态 调整 发 送 速 率 。 








注意 : “这 个 信号 是 直接 原封 不 动 地 被 传送 到 FC 协 议 的 对 端 处 
理 机 上 处 理 ， 而 不 是 像 Map 模 式 中 在 本 地 惑 终结 了 FC 逮 辑 。 
Tunnel 模 式 中 ，TCP/IP 不 参与 任何 FC 协议 内 部 的 逻辑 。 


除了 FC 流 控 逻辑 的 映射 ， 其 他 Flogin 登 录 机 制 、 连 接 机 制 等 映射 ， 
也 都 有 自己 的 实现 。 比 如 ，FC 发 起 一 个 Plogin 过 程 ， 那 么 Map 设 备 可 以 
Map 到 TCP/IP 的 一 个 握手 过 程 等 。 


提示 : ”Tunnel 和 Map 这 两 种 模式 ， 在 第 8 章 还 有 一 个 将 FC AL 
的 环 接 入 FC Fabric 中 的 例子 。 


13.6 FC 与 IP 协 议 之 则 的 融合 


哗啦 ..…..， 早晨 的 微风 把 IP 吹 醒 。 原 来 I[P 做 了 一 场 美梦 。 根 据 梦 中 
的 指示 ，IP 宛 使 神 差 地 将 FC 协议 映射 到 了 IP 上 。 并 做 了 两 种 模式 ， 一 种 
是 以 Tunnel 为 主 的 模式 ， 称 做 FCIP; 男 一 种 是 以 Map 为 主 的 模式 ， 称 做 
IFCP 。 


在 FCIP 模 式 中 ， 通 信 的 双方 各 增加 一 个 FCIP 网 关 ， 任 何 FC 协 议 的 
逻辑 ， 哪 怕 是 一 个 小 小 的 ACK 帧 ， 都 需要 封装 到 TCP/IP 协 议 中 传输 。 两 
端的 FC 协议 处 理 机 不 会 感知 到 中 间 TCP/IP 的 存在 ， 它 们 认为 对 方 就 是 
一 个 纯粹 的 FC 设备 。 


在 IFCP 模 式 中 ， 通 信 的 双方 各 增加 一 个 IFCP 网 关 ， 作 为 协议 转换 
设备 使 用 。IFCP ”GW 将 FC 协议 终止 在 本 地 ， 提 取 Payload 数 据 ， 对 外 以 
TCP/IP 设 备 的 形式 出 现 并 传输 数据 ， 到 达 对 方 之 后 ， 对 方 的 IFCP GW 再 
从 IP 包 中 提取 出 Payload， 然 后 将 其 封装 到 FC 帧 中 ， 对 其 内 部 以 FC 设备 
的 形式 出 现 。 通 信 双 方 中 间 的 TCP/IP 协 议 ， 将 大 部 分 或 者 全 部 FC 的 逻 
辑 都 映射 成 TCP/IP 的 逻辑 。 


比如 每 当 一 个 FC 设备 需要 和 远 端 的 FC 设备 通信 ， 发 起 Plogin， 那 么 
IFCP GW 束 同 对 方 建立 一 条 TCP 连 接 ， 用 多 条 TCP 连 接 和 不 同 的 IP 地 址 
来 区 分 不 同 的 FC 设备 。 此 外 ， 还 震 要 保存 一 个 TCP 端 口 或 者 IP 地 址 对 FC 
设备 24b 的 Fabric 地 址 的 映射 表 。 如 果 两 端的 FC 设备 的 DD 有 冲突 ， 这 个 
映射 表 还 需要 考虑 NAT， 将 地 址 翻译 成 其 他 ID。 相 对 于 IFCP，FCIP 协 
议 则 不 能 识别 FC 的 逻辑 ， 因 为 它 只 是 Tunnel， 如 果 两 端 Fabric 中 有 ID 冲 
突 的 ， 那 么 也 只 能 冲突 着 了 。 





至 此 ，FC 协 议 终 于 可 以 享受 TCP/IP 带 来 的 扩展 性 了 ，FC 搭 上 了 
TCP/IP 的 车 ， 远 隔 千 里 都 可 以 跑 上 FC 协议 了 。IP 大 获 成 功 ! IP 和 FC 从 
此 握手 言 和 ! 


伟大 的 SCSI 协 议 


可 以 说 整个 网 络 存储 系统 ， 都 起 源 于 一 个 协议 体系 ， 这 个 协议 体系 
就 是 SCSI 协 议 。 网 络 存 储 的 任何 内 容 ， 最 终 都 是 为 了 将 这 个 协议 体系 发 
扬 光 大 。 人 们 将 这 个 协议 强行 划分 解体 成 了 多 个 层次 ， 然 后 把 它 的 最 上 
面 的 几 层 ， 与 男 一 个 协议 体系 Fabre ”Channel 协 议 的 下 几 层 进行 融 
合 ， 形 成 了 FCP 协 议 ， 这 种 协议 目前 运行 在 各 个 厂家 的 高 端 磁盘 阵列 
上 上。 曾经 一 度 时间 ， 以 太 网 甚至 也 看 好 了 SCSI 协 议 ， 想 与 其 融合 成 所 谓 
的 下 SCSI” 协 议 ， 但 结果 没有 成 功 。 以 太 网 失败 之 后 ， 它 的 好 兄 第 IP 接 
大 跟 上 ， 最 终 成 功 地 与 SCSI 协 议 进 行 了 融合 ， 生 成 了 ISCSI 协 议 ， 目 前 
也 被 广泛 应 用 于 一 些 低 端 盘 阵 。 














为 何不 是 IATA 或 者 FATA 呢 ? 原因 就 是 因为 SCSI 协 议 体 系 本 身 就 比 
ATA 苏 议 体 系 高 效 并 且 功 能 强大 ， 此 外 ，SCSI 的 硬盘 性 能 也 普遍 比 
ATA 硬 盘 转速 快 ， 性 能 高 ， 用 于 服务 器 系统 ， 所 以 SCSI 当 然 是 首选 了 。 
另外 ， 一 个 巴 擎 拍 不 啊 ，SCSI 协 议 本 身 就 想 把 自己 给 “ 嫁 ? 出 去 ， 因 为 它 
很 早 就 已 经 迫不及待 地 将 自己 分 成 了 很 多 层次 ， 来 吸引 其 他 协议 。 








协议 融合 的 结果 ， 就 形成 了 目前 形形色色 的 网 络 存 储 世 界 ， 各 种 融 
合 协 议 、 各 种 产品 、 各 种 解决 方案 ， 好 不 热闹 ! 而 原本 的 SCSI 协 议 ， 除 
了 一 些 磁带 机 以 及 主机 本 机 硬盘 外 ， 已 经 不 再 使 用 。SCSI 融 合 入 了 各 种 
协议 中 ， 它 无 处 人 不在， 虽然 它 的 园 体 已 经 是 七 零 八 沙 ， 但 是 它 的 精深 思 
想 ， 以 及 为 技术 而 献 吴 的 精神 ， 将 在 形形色色 的 技术 中 永 放 光 芳 ! 





13.7 无 处 不 在 的 协议 融合 


之 所 以 提出 “协议 融合 ”这 个 名 词 ， 而 不 是 “协议 映 冉 ”或 者 “协议 隧 
道 "， 是 因为 “融合 ”这 个 词 更 加 通俗 易 懂 ; 另外 ， 也 更 加 具有 生物 学 色 
彩 。 计 算 机 就 是 人 类 所 创造 的 另 一 种 形式 的 “生物 *， 人 类 就 是 计算 机 的 
和 








1. 协议 融合 和 基因 融合 





分 子 生物 学 家 们 将 不 同 功 能 的 基因 上段 整 合 到 一 起 ， 再 用 核糖 体重 白 
机 絮 读 取 其 代码 ， 表 达成 肽 链 ， 然 后 折 印 成 三 维 结构 的 新 功能 乍 日 质 分 
子 ， 比 如 抗 冻 小 麦 、 发 光 的 白鼠 等 。 这 就 是 基因 融合 。 这 个 过 程 与 协议 
融合 类 似 。 











协议 融合 是 无 处 不 在 的 ， 正 如 不 同 快递 公司 之 间 的 合作 一 样 。 甚 至 
连 苑 动 合同 方面 都 出 现 了 融合 ， 玫 务 派遣 公司 与 开动 者 签订 合同 ， 然 后 
将 劳动 者 输送 到 用 工 单位 工作 ， 用 工 单位 不 必 维 护 人 事 系统 ， 将 人 事 系 
统 外 包 给 画 务 派 站 公司 。 


2. 航空 公司 的 协议 融合 


目前 ， 国 际 上 大 多 数 的 大 型 航空 公司 都 利用 IBM 或 者 Unisys 的 大 型 
机 系统 作为 订 票 和 离 港 系统 的 处 理 机 。 世 界 各 地 的 售票 和 离 港 终端 都 通 
过 某 种 网 络 系 统 与 大 型 机 连接 并 且 通 信 。 航 空 业 的 大 型 机 与 终端 通信 协 
议 也 经 历 了 纯 种 和 融合 阶段 。 





IBM 利 用 ALC 协 议 与 其 终端 通信 ，Unisys 主 机 则 通过 UTS 协 议 与 其 


终端 通信 。 但 是 随 着 IP 网 络 的 成 本 不 断 降低 ， 质 量 不 断 提 高 ，UTS 和 
ALC 这 两 种 古老 的 纯 种 协议 ， 不 得 不 考虑 将 自己 尹 给 IP 网 络 ， 从 而 出 现 
了 MATIP 协 议 ， 也 就 是 将 这 些 协 议 承载 于 IP 之 上 。Cisco 公 司 也 为 航空 
业 专 门 开 发 了 这 种 融合 协议 ， 称 为 ALPS 协 议 。 然 而 ALPS 最 终 没有 成 为 
RFC 标 准 ， 而 MATIP 协 议 ， 却 最 终 登 上 了 REFC 宝 座 。MATIP 协 议 的 文本 
可 以 查看 RFC2153。 


13.8 ”交叉 融合 


提示 : ”在 本 书写 作 之 时 ，FCoE 这 个 由 FCP 与 以 太 网 结 姻 所 产 
生 的 融合 协议 ， 正 在 被 一 些 广 商 炒作 得 沸沸扬扬 。FC 协 议 与 
SCSI 协 议 融 合 之 后 形成 FCP 协 议 ， 而 FCP 协 议 又 与 Ethernet 融 合 
形成 FCoE 协 议 。 


如 图 13-2 所 示 为 协议 融合 树 。 


从 图 13-2 可 以 看 到 ，FCP 协 议 与 耳 协议 融合 的 后 代 是 双胞胎 。 各 种 
协议 之 间 相 互 融合 ， 甚 至 产生 了 交叉 ， 但 是 一 切 融合 都 是 为 了 更 好 地 适 
合 市 场 需求 。 











图 13-2 ”协议 融合 树 


提示 : 另外 ， 由 于 耳 网 络 的 大 肆 普 及 ， 众 多 的 协议 动 辑 驶 要 非 
IP 不 退 ， 而 卫 和 以 太 网 绝对 是 铁 哥 们 儿 ， 所 以 以 太 网 也 借 卫 的 
光 ， 就 赁 着 自己 仅仅 1Gb/s 的 带 客 到 处 招摇 撞 骗 ， 这 不 ， 成 功 
地 把 比 它 多 3Gb/s 带 宽 的 FCP 协 议 给 忽悠 过 来 了 。 不 过 以 太 网 也 
在 潜心 修炼 ， 等 练 成 出 关 之 后 ， 其 10Gb/s 的 速率 ， 将 会 让 人 望 
而 生长 ， 但 愿 那 时 候 以 太 网 统一 天 下 ! 








13.9 IFCP 和 FCIP 的 具体 实现 


上 面 说 到 耳根 据 网 络 通信 协议 之 间 的 相互 作用 ， 成 功 地 将 FC 协 议和 
TCP/P 协 议 进行 了 融合 ， 生 成 了 一 种 FCIP 的 Tunnel 协 议和 一 种 IFCP 的 
Map 协 议 。 


蓝图 有 了 ， 那 么 具体 怎么 来 将 其 实现 呢 ? 我 们 知道 ， 不 管 是 FCIP 的 
简单 Tunnel 模 式 ， 还 是 IFCP 的 复杂 Map 模 式 ， 进 行 这 种 PoP 操 作 的 角 
色 ， 一 定 是 一 端面 对 FC 协 议 的 网 络 ， 另 一 端面 对 TCP/PP 协 议 的 网 络 。 


1. 协议 转换 器 





同时 面 对 多 种 协议 ， 并 在 多 种 协议 之 间 实 现 相互 融合 、 相 互 转换 的 
设备 ， 就 称 做 协议 转换 器 。 如 果 这 个 转换 器 只 是 起 到 一 个 桥 联 的 作用 ， 
只 在 一 条 链 路 上 串联 ， 那 么 就 称 其 为 协议 桥接 右 。 如 条 这 种 转换 堪 ， 不 
但 要 实现 单条 链 路 上 的 协议 转换 工作 ， 而 且 还 需要 实现 一 些 转发 动作 ， 
即 在 多 条 链 路 、 多 个 网 络 之 间 互 相 转 发 数据 ， 则 可 以 称 其 为 协议 路 由 转 
换 器 。 如 果 某 种 协议 路 由 器 可 以 实现 多 于 两 种 协议 的 网 络 互联 ， 则 称 其 
为 多 协议 路 由 转换 器 ， 因 为 它 能 在 多 种 协议 之 间 互 相 转 换 并 做 路 由 转 
发 。 











SAN 要 想 获 得 扩展 性 ， 即 要 想 将 相隔 两 地 很 远 的 两 个 SAN 网 络 通过 
IFCP 或 者 FCIP 连 接 起 来 ， 就 必须 在 双方 的 SAN 系 统 前 端 各 增加 一 个 协 
议 转 换 设备 ， 这 个 设备 后 端 连 接 各 上 自 的 SAN， 前 问 连 接 卫 网络， 在 广 域 
网 络 上 运行 FCIP 或 者 IFCP 协 议 通 信 ， 达 到 协议 转换 的 目的 。 


两 个 独立 的 系统 连接 起 来 ， 就 涉及 了 两 种 情况 。 


第 一 种 :两 个 系统 连接 之 后 ， 在 逻辑 上 还 是 独立 的 ， 即 一 个 系统 
不 影响 妨 一 个 系统 ， 但 是 它们 之 间 可 以 通过 协议 转换 设备 来 通 
信 。 

第 二 种 : 两 个 系统 融合 成 一 个 大 的 系统 ， 逻 辑 上 是 一 体 的 ， 只 不 
过 相处 两 地 ， 之 间 用 协议 转换 设备 连接 。 就 像 以 太 网 络 一 样 ， 如 
采用 光线 将 两 地 的 两 个 局 域 网 直接 连接 起 来 ， 两 地 的 系统 同 在 一 
个 广播 域 中 ， 这 样 束 相当 于 把 两 个 系统 融合 起 来 了 。 








但 是 如 果 两 地 各 目 接 一 个 IP 路 由 器， 广域网 链 路 上 承载 的 是 基于 广 
域 链 路 协议 之 上 的 卫 包 ， 那 么 两 地 的 局 域 网 就 没有 被 融合 ， 只 是 可 以 相 
互通 信和 而 已 。 





提示 : “有 的 时 候 ， 两 地 的 系统 必须 融合 ， 而 有 的 时 候 ， 不 需 
要 融合 。 是 否 融合 ， 需 要 看 最 终 的 需求 。 所 以 协议 转换 设备 也 
必须 能 够 处 理 这 两 种 情况 。 对 于 需要 融合 的 情况 ， 协 议 转换 设 
备 不 需 对 两 端的 SAN 逻 辑 做 任何 附加 人 处理， 而 只 需要 将 两 端的 
逻辑 Tunnel 或 者 Map 到 广域网 协议 上 就 可 以 了 ; 而 对 于 不 需要 
融合 的 情况 ， 协 议 转换 设备 就 需要 对 两 端 系统 的 多 辑 做 一 系列 
的 处 理 、 屏 蔽 、 虚 拟 和 其 允 了 。 














2.TCP/IP 和 以 太 网 络 实例 解析 


我 们 不 妨 拿 TCP/IP 和 以 太 网 络 来 做 一 个 例子 。 





假如 一 个 公司 ， 在 a 地 和 b 地 ， 分 别 有 一 个 办 事 处 ， en 
台 以 太 网 交换 机 ， 上 面 各 连接 了 几 人 台 终 端 。 现 在 为 了 业务 资源 共享 ， 
司 决定 将 两 地 的 网 络 融 合 起 来 。 Re 
《当然 也 可 以 申请 Internet 线 路 ， 两 端 都 接 入 Internet， 然 后 做 L2VPN 或 


者 L3VPN ) 。 


公司 有 两 种 选择 方案 。 





一 种 是 直接 用 这 条 专线 把 两 地 的 交换 机 连接 起 来 ， 在 这 条 线路 上 下 
接 承 载 以 太 网 帧 。 





另 一 种 选择 就 是 两 问 各 加 一 个 路 由 器 ， 隔 离 两 边 的 局 域 网 ， 但 是 保 
持 它 们 之 间 的 通信 。 





这 个 公司 最 终 选择 了 后 一 种 方案 ， 原 因 就 是 为 了 保持 双方 的 独 并 

性 ， 同 时 保证 性 能 。 因 为 毕竟 是 两 个 办 事 处 ， 如 果 彻 底 进 行 融 合 ， 不 但 
不 安全 ， 也 不 利于 扩展 ， 而 且 容 易 造成 广域网 流量 太 大 ， 因 为 彻底 融合 
之 后 ， 以 太 网 广播 就 要 器 广域网 来 互相 传递 ， 这 无 疑 是 浪费 资源 的 。 在 
隔离 的 基础 上 ， 同 样 能 够 保持 双方 无 障 但 的 相互 通信 ， 只 古 不 能 像 在 一 
个 局 域 网 内 那样 直接 利用 MAC 来 点 对 点 通信 。 如 果 a 地 某 个 节点 需要 和 
b 地 东 个 节点 通信 ，a 地 的 这 个 节点 需要 先 把 数据 发 给 a 地 的 路 由 器 ， 也 
就 是 网 关 设 备 ， 然 后 让 网 关 来 转发 给 b 地 。 虽 然 增 加 了 一 层 操 作 ， 但 是 
这 样 做 的 可 扩展 性 、 可 管理 性 都 增强 了 。 在 路 由 需 上 可 以 做 访问 控制 、 
地 址 转换 、QOS、 策 略 路 由 等 基于 IP 其 全 TCP 层 次 的 个 性 化 动作 。 如 果 
是 直接 局 域 网 融合 ， 则 这 些 特性 都 不 能 实现 。 














3. SAN 系 统 实例 解析 


再 来 看 SAN 的 情况 。 还 是 这 个 公司 ，a 地 和 b 地 各 有 一 个 SAN 系 统 。 
为 了 实现 存储 资源 直接 共享 ， 公 司 决 定 将 这 两 个 SAN 联 通 起 来 。 同 样 也 
存在 两 种 情况 ， 即 彻底 融合 或 者 相对 独立 的 连通 。 


如 果 是 彻底 融合 的 话 ， 那 么 广域网 链 路 惑 完全 相当 于 一 条 ISL 链 


路 ， 只 不 过 通信 协议 可 能 是 FCIP 或 者 IFCP 协 议 。 


对 于 FCIP， 任 何 FC 帧 都 将 被 透明 地 传递 。 对 于 IFCP， 一 部 分 FC 帧 
会 被 屏蔽 或 者 MAP。 但 是 这 些 被 屏蔽 或 者 MAP 的 帧 ， 都 是 和 底层 通信 
有 关 的 ， 而 上 层 逻 辑 性 质 的 帧 ，IFCP 也 需要 透 传 到 对 端 。 


这 些 业 务 逻 辑 性 质 的 帧 ， 比 如 RSCN 帧 ， 用 来 传递 Fabric 网 络 中 的 重 
要 变化 信息 给 已 经 注册 了 这 项 服务 的 节点 ;再 比如 Plogin、Process 
Login 等 这 些 都 是 业务 逻辑 性 质 的 ， 和 底层 通信 无 关 。 





彻底 融合 之 后 ， 两 个 SAN 系 统 就 融合 为 了 一 个 系统 ， 那 么 这 个 系统 
就 会 有 一 个 主 交 换 机 。 主 交换 机 为 系统 中 其 他 交换 机 分 配 域 ID， 并 且 两 
个 交换 机 之 间 需 要 运行 FSPF 路 由 协议 ， 不 停 地 发 送 一 些 路 由 控制 帧 ， 
再 加 上 主 交 换 机 选举 时 产生 的 帧 ， 主 交换 机 失败 时 ， 整 个 Fabric 的 重建 
过 程 中 每 个 交换 机 发 出 的 各 种 帧 都 需要 经 过 广域网 链 路 进行 传送 。 


不 但 这 些 帧 要 占用 广域网 带宽 ， 而 且 一 旦 主 交 换 机 发 生 故 障 ， 那 么 
对 方 的 SAN 系 统 会 进行 Rebuild， 包 括 重新 选举 主 交 换 机 、 重 新 建立 路 由 
表 等 ， 这 个 过 程 中 ，IO 就 会 暂时 中 断 。 


注意 : “由 于 广域网 链 路 速度 相对 慢 ， 稳 定性 相对 兰 ， 所 以 一 
旦 这 条 链 路 发 生 不 稳定 的 振 沪 ， 那 么 就 会 造成 主 交 换 机 重新 选 
举 。 如 果 链 路 频繁 内 断 的话 ， 那 么 两 端的 SAN 系 统 根本 无 法 正 
常 工作 。 


所 以 说 ， 两 地 SAN 系 统 彻底 融合 的 话 ， 一 旦 某 地 的 系统 故障 ， 就 会 
影响 到 为 一 个 系统 的 正常 运行 ， 而 且 要 占用 额外 多 的 宝贵 的 广域网 资 
源 。 由 于 访问 存储 资源 对 性 能 和 延迟 要 求 较 高 ， 所 以 彻底 融合 两 个 
SAN， 最 好 只 在 局 域 网 内 进行 ， 区 换 机 间 的 链 路 最 好 是 和 裸 光线 或 者 高 速 














链 路 ， 人 否则 最 好 采用 另外 一 种 融合 方式 ， 即 逻辑 独立 、 全 局 连通 的 融合 





13.10 ”局 部 隔离 /全 局 共享 的 存储 网 络 

将 SAN 系 统 彻底 融合 ， 扩 展 性 差 、 管 理性 差 ， 而 且 耗 费 广域网 链 路 
资源 。 所 以 这 个 公司 同样 也 选择 了 相对 独立 的 连通 方式 。 下 面 来 看 一 下 
相对 独立 的 融合 到 底 是 个 什么 概念 ， 它 的 作用 机 制 是 怎样 的 。 





“a 地 的 SAN 交 换 机 (E 端 口 ) 一 a 地 协议 转换 器 一 广域网 链 路 一 b 地 
协议 转换 器 一 〈E 端 口 ) b 地 SAN 交 换 机 ?这 种 拓扑 不 管 是 彻底 融合 ， 还 
是 独立 融合 都 一 样 ， 只 不 过 协议 转换 器 在 两 种 方式 下 所 做 的 工作 不 一 
样 。 彻 底 融 合 方案 中 ， 协 议 转换 指 Tunnel 或 者 Map 通 信和 底层 的 协议 逻 
辑 ， 而 不 管 上 层 业 务 逻 辑 ， 也 就 是 只 要 从 E 端 口 收 到 了 帧 ， 协 转台 将 其 
Tunnel 或 者 Map 到 IP 协 议 中 发 送 给 对 端 。 而 相对 独立 的 融合 ， 不 但 要 
Tunnel 或 者 Map 故 层 协 议 人 逻辑 帧 ， 它 还 要 理解 FC 的 上 层 逻 辑 ， 做 到 “ 报 
喜 不 报 忧 ”。 





独立 融合 /全 局 共享 


所 谓 独立 融合 ， 就 是 说 两 端的 SAN 系 统 都 可 以 独立 运作 ， 而 不 依靠 
另 一 方 ， 或 者 受 另 一 方 的 影响 。 这 样 就 不 能 像 彻 底 融 合 那样 一 端 为 主 交 
换 机 ， 一 端 为 非 主 交换 机 ， 而 要 让 两 端 独 立 起 来 。 由 于 两 端的 Fabric 中 
都 各 上 自 只 有 一 台 SAN 交 换 机 ， 所 以 两 端的 SAN 交 换 机 都 是 主 交 换 机 ， 各 
自 为 政 。 





既然 这 样 ， 怎 样 和 对 方 的 SAN 进 行 通信 呢 ? 协议 路 由 器 和 目 有 其 招 
数 。 协 议 路 由 器 与 AN 交换机 之 间 通 过 EE 端口 连接 ， 它 欺骗 两 六 SAN 交 
换 机 ， 让 交换 机 认为 它 正 在 连接 着 男 一 台 交 换 机 ， 而 这 个 由 协议 转换 器 
虚拟 出 来 的 交换 机 级 别 比 它 低 ， 所 以 它 自 己 认为 自己 就 是 主 交 换 机 。 虚 














拟 交 换 机 和 SAN 交 换 机 之 间 运 行 FSPF 路 由 协议 ， 所 以 这 个 虚拟 交换 机 
就 获得 了 SAN 交 换 机 下 面 所 有 连接 的 终 问 市 点 信 息 。 


获得 这 些 信息 之 后 ，a 地 的 协 转 通过 广域网 链 路 将 这 些 信息 通告 给 b 
地 的 协议 转换 器 。b 地 的 协议 转换 器 同样 和 b 地 的 SAN 交 换 机 之 间 运 行 着 
FSPF 路 由 协议 ， 同 样 也 欺骗 了 b 地 交换 机 。b 地 协议 转换 器 收 到 了 a 地 协 
议 转换 器 发 来 的 天 于 a 地 SAN 交 换 机 上 所 连接 的 所 有 节点 信息 之 后 ， 器 
利用 和 b 的 SAN 交 换 机 之 间 的 FSPF 路 由 协议 ， 将 这 些 节点 信息 通告 给 b 
地 SAN 交 换 机 ， 所 以 b 交 换 机 就 有 了 a 交 换 机 上 节点 的 信息 ， 同 样 a 交 换 
机 也 会 拥有 b 交 换 机 上 节点 的 信息 ， 这 样 ，a 和 b 交 换 机 之 间 就 可 以 通信 
了 ， 其 实 它 们 都 不 知道 中 途 有 两 个 中 介 在 骗 它 们 。 




















如 有 果 其 中 一 个 SAN 系 统 发 生 故 障 ， 那 么 这 个 系统 中 的 协 转 设备 ， 会 
将 这 个 重大 消息 屏蔽 ， 不 告诉 对 端的 SAN 系 统 。 因 为 一 旦 被 对 方 系统 得 
知 ， 便 会 发 生 Fabric 的 重建 过 程 ， 影 响 本 端 SAN 系 统 的 IO。 有 了 SAN 路 
由 器 ， 远 端 SAN 访 问 的 超时 ， 并 不 会 影响 本 地 SAN 的 访问 。 此 即 所 请 
“报喜 不 报 忧 "。 同 样 ， 一 个 SAN 系 统 中 的 诸如 RSCN 等 广播 类 的 帧 ， 也 
会 被 协 转 设备 根据 策略 而 终结 在 本 地 ， 不 会 跨越 广域网 链 路 通告 给 对 
方 。 协 转 设备 还 应 该 具有 访问 控制 功能 。 





这 种 方 宁 被 称 做 “SAN 路 由 *， 因 为 它 具 有 与 IP 路 由 类 似 的 功能 和 染 
构 。 


13.11 多 协议 混杂 的 存储 网 络 


多 协议 混杂 的 存储 网 络 如 图 13-3 所 示 ， 其 中 的 中 枢 引 擎 是 两 个 互相 
连接 的 多 协议 路 由 右 。 这 个 多 协议 处 理 机 ， 束 像 一 台 计 算 机 的 CPU， 
Fabric 和 以 太 网 络 就 像 计算 机 的 IO 总 线 ， 磁 盘 便 是 计算 机 的 外 设 和 输入 
设备 ， 各 种 存储 控制 器 便 可 以 理解 为 计算 机 上 的 各 种 IO 控制 器 ， 前 端的 
Fabric 和 以 太 网 便 是 前 端的 IO 总 线 ， 主 机 服务 器 则 是 输出 设备 。 即 磁盘 
上 的 数据 ， 经 过 输入 总 线 输 入 CPU 进行 运算 ， 然 后 通过 输出 总 线 ， 输 出 
给 主机 服务 器 。 这 又 是 一 个 轮回 ， 不 折 不 扣 的 轮回 ， 循 环 巷 套 ， 永 无 止 
境 。 








图 13-3 多 协议 混杂 的 存储 网 络 


图 13-3 所 示 的 拓扑 ， 可 以 说 是 一 个 大 的 统一 的 拓扑 。 存 储 网 络 不 外 
乎 就 是 图 13-3 中 列 出 的 元 素 。 磁 盘 经 过 一 层 层 的 IN 和 OUT， 一 层 层 的 虚 
拟 化 或 者 桥接 透 传 ， 最 终 被 主机 看 作 是 一 个 LUN 或 者 目录 。 不 妨 将 其 抽 
象 ， 隐 去 复杂 的 部 分 ， 就 形成 了 图 13-4 的 拓扑 。 











图 13-4 一 次 抽象 后 的 系统 架构 





再 抽象 一 下 ， 得 到 如 图 13-5 所 示 的 模型 。 





图 13-5 ”本质 模型 


13.12 IP Over FC 


FC 可 以 为 了 提高 扩展 性 而 与 1P 合 作 ， 同 样 ，IP 也 可 以 Over 到 FC 上 
来 搭 个 快车 过 把 闻 。 难 道 可 以 给 每 个 FC 口 设置 一 个 IP 地 址 甚至 多 个 IP 地 
址 ， 然 后 上 层 的 应 用 程序 就 像 使 用 一 块 网 卡 一 样 使 用 FC 卡 么 ? 当然 可 
以 ，FC 本 来 就 是 一 块 网 卡 ， 只 需要 在 链 路 层 之 上 封装 一 层 PoP 人 逻辑 即 
可 。 比 如 ， 给 FC 卡 上 的 每 个 接口 配置 一 个 IP 地 址 和 掩 码 ， 甚 至 网 关 ， 然 
后 对 目标 耳 地 址 发 起 Ping 操 作 ，OS 接 收 到 Ping 操 作 指令 后 ， 随 即 调用 到 
ICMP 协 议 层 ， 然 后 下 到 TCP/IP 层 ，TCP/IP 层 的 下 位 就 是 FC 卡 的 驱动 程 
序 层 了 ，PoP 逻 辑 正 是 生效 于 此 层 。 这 个 特殊 的 驱动 程序 首先 检查 目标 
IP 地 址 ， 并 查找 它 所 维护 的 IP-WWPN 地 址 映射 表 〈( 这 张 表 可 以 手动 编 
辑 ， 也 可 以 使 用 ARP 协 议 来 自动 发 现 和 维护 ， 基 于 FC 网 络 的 ARP 协 议 在 
IETF 协 议 规范 中 可 以 找到 〉， 找 出 这 个 IP 地 址 在 网 络 中 对 应 的 FC 网 络 
地 址 ; 找到 之 后 ， 如 果 尚 未 发 起 Plogin 过 程 则 发 起 ， 否 则 直接 将 ICMP 数 
据 包 打包 入 FC 帧 传送 到 对 应 的 FC Target。FC Target 收 到 数据 包 之 后 便 
依次 向 上 层 传递 ， 当 传递 到 驱动 程序 时 ， 驱 动 程序 解析 数据 包 中 的 高 层 
协议 并 向 对 应 的 上 层 调 用 程序 ， 即 TCP/P 发 送 ，TCP/P 层 处 理 后 将 其 转 
发 到 调用 应 用 程序 层 ， 即 ICMP 协 议 层 。ICMP 协 议 处 理 之 后 会 做 出 相应 
反应 ， 比 如 生成 一 个 Echo Reply 数 据 包 ， 发 送 到 请 求 端 ， 发 送 过 程 与 之 
前 类 似 。 




















哮 ...... 叉 吹 ， 做 梦 呢 吧 ? 我 清醒 着 呢 ， 虽 然 现 在 快 午夜 12 点 了 ， 但 
是 我 依然 保持 文 如 果 涌 。Qlogic 公 司 早已 发 布 了 这 种 IP Over FC 的 驱动 
程序 。 目 前 ， 其 QLE2464 型 号 的 4 端口 4GB/s 的 FC 适 配器 《〈 如 图 13-6 所 
示 ) 在 Windows 系 统 中 己 经 可 以 在 这 球 驱 动 程序 下 实现 IP Over FC 功 
能 ， 安 装 这 个 驱动 之 后 ， 系 统 会 在 网 络 适配器 列表 中 生成 一 个 特殊 的 网 








络 设备 ， 其 使 用 与 普通 以 太 网 卡 类 似 ， 而 且 可 以 对 其 配置 IP 地 址 等 参 
数 。 





图 13-6 ”QLE2464 适 配 卡 


有 了 这 样 的 设计 ， 就 可 以 在 FC 的 链 路 层 上 透明 地 使 用 iSCSI 或 者 
NAS 协 议 来 访问 数据 了 。 这 样 做 的 目的 只 有 一 个 : 速度 ! 让 iSCSI 和 
NEFS/CIFS 也 可 以 享用 FC 带 来 的 4GB/s 甚 至 8GB/s 的 速度 ， 搭 上 快车 兜 区 
的 感觉 ， 来 ! 


话 锋 回 转 。FC 为 了 O 到 IP 上 ， 整 出 了 一 对 双胞胎 协议 。 然 而 ，IFCP 
或 者 FCIP 协 议 都 需要 一 个 外 部 人 硬件 协议 转换 器 来 实现 ， 为 何不 能 像 
IPoFC 一 样 搞 法 呢 ? FC 虽 然 也 可 以 按照 OSI 模型 分 层 ， 但 是 其 链 路 层 和 
网 络 层 甚至 更 高 层 一 般 都 是 运行 在 FC 卡 上 的 ， 要 实现 PoP 逻 辑 ， 被 承载 
协议 逻辑 必须 运行 在 承载 协议 逻辑 的 上 层 。 所 以 要 将 FC 承载 于 IP 之 上 ， 
就 要 求 FC 的 网 络 层 及 以 上 的 所 有 层次 必须 作为 软件 运行 在 主机 上 而 不 
是 FC 卡 上 ， 然 后 主机 再 将 封装 映射 好 的 数据 包 通 过 TCP/AP 及 以 太 网 卡 
发 送出 去 。 目 前 ， 有 一 些 低 端 的 FC 卡 的 网 络 层 及 以 上 逻辑 确实 运行 在 
主机 上 ， 也 就 是 运行 于 FC 卡 的 驱动 程序 中 ， 而 FC 适 配 卡 上 的 芯片 只 负 
责 实现 FC 的 物理 层 和 链 路 层 功 能 〈 这 种 低 端 软 FC 卡 其 需要 利用 主机 
CPU 来 实现 FC 的 上 层 逻 辑 ， 所 以 CPU 占用 率 会 比 纯 硬 FC 卡 ， 在 主机 
CPU 负载 比较 高 的 时 候 ， 就 会 影响 底层 驱动 程序 的 效率 造成 IO 性 能 受到 
一 定 影 响 ) 。 如 果 将 FC 卡 变 为 以 太 网 卡 ， 而 保留 原 有 FC 卡 驱动 中 的 FC 
上 层 逻 辑 处 理 层 ， 即 FC 网 络 层 及 以 上 的 处 理 逻 辑 ， 然 后 在 以 太 网 卡 和 
FC 处 理 逻 辑 之 间 插 入 TCP/IP 协 议 栈 ， 之 上 再 插入 一 层 PoP 逻 辑 ，PoP 你 
辑 生成 虚拟 的 WWPN 地 址 来 欺骗 上 位 的 FC 处 理 层 ， 利 用 ARP 协 议 来 获 
取 和 维护 网 络 中 的 地 址 映射 ， 这 样 做 理论 上 可 以 达到 单纯 的 FCoIP 的 效 
果 。 但 是 回头 想 一 想 ， 这 是 没有 任何 意义 的 ! 























仔细 想 一 下 ，FC 为 何 要 O 到 IP 上 呢 ? 就 是 因为 卫 可 扩展 能 力 强 ， 那 
么 如 今 我 们 在 一 个 没有 FC 任何 硬件 参与 的 情况 下 ， 强 行 在 TCP/IP 协 议 
之 上 增加 了 一 层 额 外 的 与 TCP/IP 功 能 类 似 的 网 络 协议 ， 然 后 再 在 二 者 之 
间 插 入 映射 翻译 层 ， 这 不 是 没事 找事 么 ?没有 FC 硬件 参与 ， 以 太 网 络 
人 硬件 之 上 的 TCP/IP 之 上 的 软 FC 上 层 逻 辑 ， 这 简直 就 是 一 个 累 痪 。 我 们 
直接 用 iSCSI 或 者 NFS/CIFS 不 就 得 了 么 ? 干 嘛 非 要 在 其 上 安插 一 个 累 效 
呢 ? 


同 为 FCoIP 的 实现 方式 ， 那 为 何 IFCP 和 FCIP 就 不 是 累 歼 呢 ?” 因 为 
IFCP 和 FCIP 是 为 了 将 一 个 现存 的 、 由 众多 FC 适配器 和 FC 网 络 交 换 设 备 
组 成 的 Fabric 网 络 与 另 一 个 Fabric 相 互 连 通 而 连通 用 的 网 络 传输 协议 为 
IP。 所 以 ， 如 果 想 让 两 个 以 太 网 之 间 互 相连 接 而 互联 通道 使 用 高 速 的 FC 
连接 ， 这 便 是 有 意义 的 。 


哦 ， 那 么 刚才 说 的 IPoFC， 以 此 类 推 是 不 是 也 可 以 被 定义 为 没有 任 
何 意 义 了 呢 ?” 这 就 需要 从 男 一 个 角度 看 了 。 因 为 TCP/IP 已 经 普 衣 使 用 ， 
基于 TCP/IP 的 存储 协议 也 很 多 ， 比 如 iSCSI、NFS、CIFS、FTP 甚 至 
HTTP 等 ， 而 基于 FC 的 存储 协议 昵 ? 只 有 FCP。 而 为 了 让 这 些 开放 存储 
协议 运行 在 比 以 太 网 更 加 高 速 的 网 络 上 ， 将 它们 0 到 FC 上 当然 是 有 意义 
的 。 有 人 又 说 了 ， 哦 ..…... 那 么 说 如 果 FC 也 像 TCP/IP 一 样 有 很 多 基于 它 
的 开放 协议 被 广泛 使 用 ， 那 么 很 有 可 能 也 有 人 开发 单纯 FCoIP 了 么 ?这 
又 得 从 男 外 一 个 角度 考虑 ， 即 使 FC 哪 天 达到 像 TCP/IP 一 样 了 ， 那 么 将 
高 速 的 FC 链 路 变 为 当前 的 1Gbps 的 以 太 网 链 路 ， 就 为 了 单纯 的 FCoIP， 
你 干 么 ?除非 给 它 O 到 10Gbps 的 以 太 网 上 ， 这 也 就 是 FCoE 的 做 法 了 。 


图 13-7 和 图 13-8 示 出 了 FCoIP 和 IPoFC 的 区 别 。 





图 13-7 IPoFC 示 意 图 13-8 ”FCoIP 示 意图 





13.13 上 COE 
13.13.1 FCoE 的 由 来 


以 太 网 的 速率 从 1Gb/s 直 接 跳 跃 到 10Gb/s， 今 后 还 会 再 跳 到 40Gb/s、 
100Gb/s。FC 了 呢 ， 从 1Gb/s 跳 到 2Gb/s 再 跳 到 4Gb/s 和 8Gb/s， 将 来 的 规划 还 
是 乘 2， 也 就 是 下 一 步 是 16Gb/s。FC 总 是 想 搭 顺 风车 ， 前 几 年 以 太 网 只 
普及 到 1Gb/s， 它 看 好 了 IP 的 扩展 性 ， 结 果 O 了 IP ( IFCP 和 FCIP 双 胞 
台 )。 结 果 这 俩 后 代 不 争气 ， 用 的 很 少 。O 完 了 IP 不 过 疗 ， 看 到 以 太 网 
迅速 强大 ， 自 己 却 步履 蹦 咒 ， 打 算 直 接 O 到 Ethernet 上 和 苟 延 残 吴 ， 也 束 有 
了 FCoE。 如 图 13-9 所 示 ， 传 统 FC 底 层 速 率 的 发 展 已 经 明显 落后 于 以 太 
网 了 。 


图 13-9 FCoE、FC 的 路 标 对 比 
13.13.2 ”FcoE 的 设计 框架 


然而 ， 并 不 像 你 所 想象 的 那样 ， 比 如 ，iSCSI 直 接 就 是 在 主机 端 操 
作 系 统 中 的 TCP 协 议 栈 之 上 加 一 层 逻 辑 ， 直 接 利 用 现 有 的 人 P 网 络 ， 那 么 
FCoE 是 不 是 也 类 似 ， 直 接 在 主机 端 安装 一 个 FCoE 协 议 栈 ， 直 接 将 其 承 
载 到 以 太 网 上 呢 ? 如 果真 的 是 这 样 ，FCoE 与 iSCSI 就 没有 什么 本 质 上 的 
大 区 别 了 ， 也 就 无 法 体现 其 价值 所 在 了 。 那 么 FCoE 到 底 是 一 种 什么 形 
态 呢 ? 我 们 知道 ， 传 统 FC 环 境 下 在 主机 端 原本 是 靠 一 块 FC HBA 来 实现 
FC 网 络 接 入 的 ， 全 部 FC 逻 辑 都 运行 在 这 块 卡 上 《〈SCSI 逻 辑 运 行 在 主机 
端 OS 内 核 中 ) ， 这 样 做 可 以 充分 降低 主机 资源 消耗 。 如 果 现 在 要 将 FC 
的 上 层 逻 辑 全 部 拿 来 主机 端 协 议 栈 中 运行 ， 那 么 效率 势必 要 打折 扣 ， 对 
主机 CPU 资源 的 消耗 也 必 将 增加 。 那 么 iSCSI 就 不 消耗 主机 资源 么 ? 当 








然 消 耗 ， 那 为 何 iCSI 可 以 存在 ， 束 不 允许 FC 的 软 协议 栈 存 在 呢 ? 要 知 
道 ，1Gbps 的 以 太 网 环境 下 ，iSCSI 软 协议 栈 不 会 消耗 主机 端 太 多 资源 
(根据 实测 一 颗 单 核 Intel 至 强 CPU 约 可 承载 300MB/s 的 大 块 连续 IO 的 
iSCSI 流量 ， 此 时 CPU 已 经 满载 ， 如 果 是 IO 密集 型 流量 ，CPU 会 更 快 满 
载 ) ， 但 是 在 10Gbps 以 太 网 的 环境 下 ，iSCSI 软 协议 栈 对 主机 CPU 的 消 
耗 就 不 可 同日 而 语 了 ， 有 数据 表明 ，10Gbps 下 的 软 iSCSI initiator 对 主机 
CPU 的 占用 率 在 30%~~60% 之 间 ， 这 已 经 不 可 容忍 了 。 所 以 ，10Gb/s 以 
大 网 承载 的 iSCSI 协议 ， 氨 切 需要 运行 在 硬 iCSI HBA 上， 这 才 是 可 以 同 
企业 级 用 户 所 交付 的 合适 形态 。 至 于 前 期 微软 与 Intel 合 作 进行 的 iSCSI 
百 万 IOPS 测 试 结果 ( 见 之 前 章节 ) ， 只 是 一 个 测试 而 已 ， 恐 怕 其 CPU 利 
用 率 已 经 达到 很 高 的 程度 了 ， 这 种 测试 不 具备 实用 性 价值 ， 况 且 Inte] 是 
做 CPU 的 ， 这 种 测试 的 目的 大 家 都 明白 。 所 以 同样 ，FCoE 也 需要 运行 
在 一 块 便 的 HBA 上 。 











13.13.3 FcoF 卡 


好 ， 明 日 了 这 一 点 ， 我 们 再 往 下 走 一 层 。 我 们 知道 传统 以 太 网 并 不 
提供 链 路 层 保障 功能 ， 而 FC 的 传输 保障 在 链 路 层 与 传输 层 都 有 实现 ， 
两 者 是 紧密 结合 的 。 如 果 要 将 FC over 到 Ethemet 上 ， 那 么 势必 要 砍 掉 FC 
的 链 路 层 而 用 以 太 网 链 路 层 蔡 代 ， 但 是 这 样 over 之 后 ， 新 协议 就 没有 链 
路 层 保 障 机 制 了 ， 不 能 与 FC 传输 层 保障 机 制 进行 互相 配合 。 为 此 ， 必 
须 给 以 太 网 增加 链 路 层 传输 保障 机 制 ， 所 以 新 的 标准 出 现 了 ， 这 就 是 
CEE (Converged Enhanced Ethernet) ， 即 增强 型 以 太 网 协议 ，Cisco 称 
之 为 DCE (Data Center Ethernet) 。 这 样 ，FC 就 可 以 没有 后 顾 之 忧 地 使 
用 以 太 网 作为 传输 链 路 了 。 


我 们 再 往 下 走 一 层 。 以 太 网 亲自 出 号 改变 目 喘 来 迎合 FC 的 大 各， 





这 个 举动 可 谓 是 兴 师 动 众 了 ， 由 于 已 经 对 链 路 层 进 行 了 改变 ， 所 以 传统 
的 以 太 网 卡 不 可 能 符合 要 求 ， 以 太 网 交换 机 也 是 一 样 。 这 样 的 话 ， 就 得 
开发 专门 的 以 太 网 卡 和 以 太 网 交换 机 来 文 持 CEE 了 ， 确 实 是 的 。 我 们 先 
来 看 一 下 以 太 网 卡 ， 前 面 说 过 ，FCoE 必 须 做 成 一 个 硬件 HBA， 而 现在 

以 太 网 卡 也 需要 重新 做 ， 所 以 ， 一 块 类 似 1SCSI 人 硬 HBA 的 人 硬 FCoE 卡 也 就 
水 到 渠 成 地 出 炉 了 : CNA 卡 ，Converged Network Adapter， 将 FC 卡 与 增 
强 型 以 太 网 卡 结合 的 产物 ，FC 卡 把 其 上 层 的 FC 逻辑 处 理 部 分 拿 出 来 融 

合 到 增强 型 以 太 网 卡 中 ， 然 后 再 在 这 片 卡 件 中 增加 一 个 FCoE 协 议 处 理 

模块 ， 在 数据 帧 中 增加 一 个 FCoE 协 议 表 示 层 区 段 〈 这 个 概念 见 本 章 之 

前 部 分 ) 用 以 执行 协议 转换 控制 任务 ， 所 有 的 逻辑 都 集成 到 一 块 ASIC 

芯片 中 以 达到 很 高 的 执行 效率 。 图 13-10 所 示 为 Brocade 生 产 的 某 型 号 的 
CNA/FCoE 卡 的 实物 图 ， 出 口 为 两 个 10Gbps 的 以 太 光 口 。 








图 13-10 ”CNA/FCoE 卡 实物 图 


iSCSI 便 HBA 只 能 用 作 承 载 iSCSI 协议 ， 而 不 能 作为 承载 卫 的 以 太 网 
卡 使 用 了 。 但 是 FCoE 卡 却 可 以 同时 承载 FCoE 流 量 和 承载 I1P 的 以 太 网 流 
量 ， 也 就 是 说 可 以 把 一 块 FCoE 卡 同时 当做 FC 卡 与 以 太 网 卡 使 用 ， 互 不 


影响 。 





FCoE 卡 相 比 于 FC 卡 来 讲 ， 除 了 在 操作 系统 驱动 层面 有 所 变化 之 
外 ， 上 层 的 协议 栈 比如 SCSI 层 之 类 并 没有 大 的 变化 。 


13.13.4 FEFCoE 交 换 机 


好 ， 我 们 接着 往 下 走 ， 再 来 看 看 以 太 网 交换 机 的 改变 。 除 了 在 交换 
机 端 对 应 地 增加 对 CEE 的 支持 之 外 ， 以 太 网 交换 机 还 需要 做 一 项 重大 的 
改变 。 我 们 知道 FC 交换 机 是 整个 Fabric 的 核心 ， 任 何 一 个 通过 FC 接 入 


Fabric 的 节点 都 要 首先 获得 一 个 Fabric ID 然后 执行 Fabric _ Login 过程， 这 
些 过 程 都 需要 FC 交换 机 来 参与 执行 。 而 以 太 网 交换 机 并 没有 提供 任何 
这 些 Fabric 服 务 ， 这 样 的 话 ， 通 过 以 太 网 链 路 传 入 的 地 址 请 求 以 及 Fabric 
Login 的 巾 ， 就 没有 人 来 应 答 和 处 理 了 。 所 以 ， 以 太 网 交换 机 上 ， 必 须 
增加 对 应 的 Fabric 模 拟 程序 ， 将 其 做 到 ASIC 必 片 中 。 











看 到 这 里 也 许 你 已 经 完全 糊涂 了 ， 不 就 是 要 利用 起 以 太 网 么 ? 
iSCSI 对 以 太 网 没有 任何 改变 ， 而 为 何 FC 一 来 ， 就 要 兴 师 动 众 ， 改 完了 
协议 改 网 卡 ， 改 完了 网 卡 还 得 改 交 换 机 ， 这 么 做 到 底 值 不 值得 ?请 各 位 
带 着 这 个 问题 继续 阅读 。 

















此 时 别 筷 了 另外 一 个 问题 : 原 有 的 传统 FC 设 备 ， 如 何 与 FCoE 融 
合 ? 既然 叫做 FC over Ethernet， 那 么 就 得 拿 出 点 样子 看 看 ， 得 将 原 有 的 
传统 FC 网 络 融 合 进来 才 是 。 图 13-11 所 示 为 一 台 Brocade 8000 FCoE 交 换 
机 的 逻辑 架构 图 与 实物 图 。 














图 13-11 FCoE 交 换 机 逻辑 图 与 实物 图 





大 家 可 以 看 到 ， 这 台 交 换 机 同时 包含 传统 的 FC 交换 模块 及 接口 和 
新 的 CEE 增 强 型 以 太 网 接口 ， 这 就 意味 着 ， 传 统 的 FC 设备 以 及 使 用 
CNA 卡 的 FCoE 设 备 可 以 同时 连接 到 这 人 台 交 换 机 上 而 且 实 现 互相 通信 。 
交换 机 内 部 有 一 个 FCoE 处 理 模 块 实现 将 CEE 的 流量 桥接 到 FC 交 换 模 块 
中 ， 反 疝 过 程 也 类 似 ，FCoE 模 块 的 角色 就 是 一 个 协议 映射 封装 与 解 封 
装 模 块 ， 另 外 还 负责 对 Fabric 大 部 分 逻辑 的 模拟 。 实 际 中 FCoE 功 能 的 定 
价 可 以 使 用 License 控 制 ， 可 以 选择 购买 FCoE 功 能 或 者 不 购买 。 





这 台 交 换 机 还 同时 可 以 作为 传统 以 太 网 交换 机 使 用 ， 所 以 此 设备 是 
一 台 传 统 FC 交 换 机 、FCoE 交 换 机 、 以 太 网 交换 机 的 超级 融合 体 。 图 13- 


12 所 显示 的 是 在 这 种 超级 融合 环境 下 的 数据 流 拓 扑 图 ， 可 以 看 到 这 种 设 
备 实现 了 双 网 融合 的 作用 。 


图 13-12” FCoE 环境 拓扑 图 


在 网 络 没 有 融合 之 前 ， 你 需要 投入 的 是 : 以 太 网卡 十 FC 卡 十 FC 交 
换 机 十 以 太 网 交换 机 十 FC 线 缆 十 以 太 网 线 缆 ， 而 融合 之 后 ， 你 需要 投 
入 的 是 : CNA 卡 十 FCoE 交 换 机 十 以 太 网 线 缆 ， 可 见 减 少 了 投资 ， 简 化 
了 布线 ， 降 低 了 耗 电 ， 最 终 也 就 降低 了 成 本 ， 同 时 还 充分 融合 原 有 传统 
FC 的 环境 。 





然而 ， 是 否 会 降低 成 本 也 是 相对 的 。FCoE 目 前 实际 主要 应 用 于 大 
型 运营 商 、 大 型 数据 中 心 ， 准 备 同 时 投入 高 容量 高 速 以 太 网 与 存储 网 络 
的 ， 则 可 以 在 适配器 、 布 线 、 交 换 机 方面 节省 成 本 。 但 是 FCoE 离 行业 
市 场 客户 还 差 很 远 。16 口 8Gbps FC 交 换 机 也 就 两 万 元 多 一 台 ， 一 台 同 样 
口 数 的 10Gbps 的 FCoE 交 换 机 ， 则 贯 得 多 。 但 是 对 于 运营 商 那 种 大 型 模 
块 化 交换 机 来 讲 ，FCoE 交 换 机 由 于 融合 了 两 种 网 络 ， 反 而 比 单独 为 每 
种 网 络 都 配 一 台大 型 模块 化 交换 机 要 便宜 多 了 。 


























如 果 使 用 纯 以 太 网 环境 跑 iSCSI 则 不 可 能 融合 原 有 传统 FC 环 境 了 ， 
势必 又 形成 了 珀 品 。FCoE 达 到 了 两 者 的 折 中 ， 提 供 了 一 个 过 渡 解 决 方 
案 ， 融 合 了 FC 的 思想 和 以 太 网 的 躯体 ， 还 融合 了 传统 FC 环 境 ， 可 以 说 
这 是 将 单纯 iSCSI 击 退 的 一 个 必 杀 技 。 一 张 FCoE 卡 可 以 同时 承载 普通 IP 
以 太 网 流量 、FCoE 流 量 以 及 iSCSI 流量 〈 使 用 软 Initiator) 。 








目前 尚未 有 厂商 推出 集 硬 FCoE、CEE 10GbE 以 太 网 、 硬 iSCSI 为 一 
身 的 纯 硬 HBA 卡 ，Emulex 公 司 有 硬 FCoE 卡 以 及 硬 10GbE iSCSI 卡 ， 两 种 
卡 的 设计 、 芯 片 等 大 致 相同 ， 有 集成 的 潜质 ， 但 是 考虑 到 成 本 、 人 性 能 、 





心 厂 等 多 种 问题 ， 目 前 这 种 卡 可 能 还 只 是 个 假想 物 。 最 终 庶 死 谁 手 还 有 
待 观望。 





到 了 这 里 ， 对 之 前 所 提出 的 那个 疑惑 是 不 是 可 以 有 所 领悟 呢 ? 
13.13.5 ”解剖 FEFCoE 交 换 机 


经 过 上 述 介绍 之 后 ， 理 解 FCoE 交 换 机 的 逻辑 部 件 就 不 难 了 。 无 非 
就 是 三 大 主要 模块 : FC ”PHY 芯片 组 ， 以 太 网 PHY 蕊 片 组 、 中 央 交 换算 
阵 、 桥 接 逻 辑 处 理 芯 片 组 ， 再 加 上 一 堆 辅 助 的 芯片 和 器 件 。 整 体 上 是 操 
作 系 统 十 专用 人 硬件 芯片 组 的 设计 模式 。 图 13-13 是 某 FCoE 交 换 机 的 主板 
器 件 布局 示意 图 。 图 13-14 则 给 出 了 FC 与 FCoF 流 量 的 处 理 路 径 示 意图 。 














图 13-13” 某 FCoE 交 换 机 主板 器 件 示意 图 





图 13-14” 菜 FCoE 交 换 机 数据 流 示意 图 





图 13-15 与 图 13-16 所 示 的 是 另外 某 广 商 的 某 FCoE 交 换 机 的 逻辑 与 实 
物 图 ， 板 载 20 个 CEE 10GbE 接 口 ，FCoE 有 还 辑 在 Crossbar Switch 中 实现 。 
每 个 Unified Port Controller 下 面 挂 接 多 个 10GbE PHY。 男 外 还 有 一 个 专 
门 用 于 控制 扩展 板 上 的 接口 的 Port Controller。 








图 13-15” 某 FCoE 交 换 机 主板 器 件 布 局 图 





图 13-16 ” 某 FCoE 交 换 机 主板 器 件 示意 图 与 数据 流 示意 图 


图 13-17 所 示 为 此 交换 机 提供 的 6 口 8Gb FC 接口 扩展 板 ， 利 用 这 个 扩 
展板 即 可 将 FCoE 与 传统 FC 网 络 相 融合 了 。 


图 13-17 ” 某 FCoE 交 换 机 的 6 口 8Gb FC 扩展 接口 板 实物 图 





13.13.6 ”存储 阵列 设备 端的 改动 


与 主机 相同 ， 存 储 阵列 也 需要 插 上 CNA 卡 来 实现 FCoE。 目 前 
Qlogic、Emulex、Brocade 等 主流 HBA 广 商都 已 经 有 成 熟 的 FCoE 卡 出 
售 ， 阵 列 厂 商 的 CNA 卡 也 都 是 从 这 些 HBA 广 商 获 取 。 阵 列 端的 CNA 卡 
可 以 同时 承载 FCoE 流 量 与 iSCSI 流量 ， 也 算是 一 种 Combo 卡 。 


13.13.7 FECoE 与 iSCSI 


同样 是 oE，iSCSI 如 此 便利 ， 而 FCoE 和 赁 什么 能 够 兴风作浪 ? 主要 原 
因 有 两 个 : 第 一 是 为 了 融合 原 有 的 传统 FC 网 络 和 FC 卡 件 、 阵 列 等 ， 得 
有 个 过 渡 期 ， 第 三 则 是 FC 协议 在 上 层 思 想 上 确实 效率 要 高 于 TCP/IP 协 
议 ， 也 就 是 高 于 iSCSI。 但 是 FCoE 一 样 还 是 出 不 去 ， 因 为 FC 的 思想 已 经 
完全 凝固 了 ， 注 定 了 它 走 不 出 去 。 而 iSCSI 则 可 以 随 着 互联 网 带宽 的 迅 
速 增加 而 顺利 地 扩张 到 整个 互联 网 范围 。FCoE 与 iSCSI， 谁 O 不 是 0? 区 
别 束 是 一 个 上 层 是 TCP/IP， 一 个 则 是 FC。iSCSI 可 扩展 性 强 ， 但 是 目前 
来 讲 做 硬 卡 的 不 多 ‘Emulex 和 Broadcom 有 10Gb 的 1SCSI 硬 卡 〉; FCoE 
则 高 效 ， 做 硬 卡 的 多 (几乎 所 有 做 HBA 的 厂商 都 有 FCoFE 卡 产品 )， 但 
是 可 扩展 性 依然 不 行 ， 因 为 FCoE， 像 FC 一 样 ， 很 牙 门 ， 要 求 交 换 机 配 
合 ， 交 换 机 里 必须 灌 入 相应 的 Firmware 模 块 来 处 理 这 些 Fabric 协 议 逻 
辑 。FCoE 交 换 机 除了 需要 处 理 Fabric 逻 辑 ， 还 需要 处 理 Fabric 到 以 太 网 
的 转换 翻译 逻辑 ， 不 但 增加 了 复杂 度 和 故障 点 ， 而 且 势 必 又 会 在 多 个 三 
商 之 间 产 生 兼 容 性 问题 ， 这 个 如 ′ 怕 会 成 为 它 称霸 的 一 个 昧 效 。 所 以 我 个 
人 还 是 偏向 于 看 好 iSCSI 的 称霸 。 























FCoE 和 iSCSI 只 有 可 能 是 多 家 不 可 能 是 有 朋友， 不 可 能 被 融合 ， 那 么 
随 着 时 间 的 推移 ， 到 底 谁 能 够 一 统 天 下 ? 或 者 两 者 各 自 占据 自己 的 应 用 
场景 ， 还 真 不 好 说 ， 拭 目 以 待 吧 。 








13.13.8 FEFcoE 的 前 景 


a 相对 于 iSCSI，FCoE 能 够 将 传统 的 FC 网 络 融合 ， 充 分 利用 。 
a 首先 被 大 型 运营 商 大 型 数据 中 心 采 用 ， 双 网 融合 ， 降 低 成 本 。 
a 传统 FC 硬件 逐渐 被 侵蚀 殖 尽 。 

a 以太 网 一 统 天 下 ， 将 来 SCSIoE、ATAoE 等 都 有 可 能 商业 化 。 
a 传统 FC 一 一 抛弃 躯体 ， 保 留 思 想 一 一 FCOoE。 








13.13.9 Open 上 CoE 


上 文 所 述 的 所 谓 “ 软 FCoE” 协 议 ， 确 实 有 这 东西 。Intel 某 高 级 软件 工 
程 师 主 导 开 发 了 它 。 可 以 访问 http:/www.open-fcoe.org 这 个 网 站 来 获取 
更 多 信息 。 这 个 Open FCoE 协 议 底层 可 以 文 持 普通 以 太 网 卡 ， 但 是 要 求 
以 太 网 卡 文 持 802.3x Pause 帧 。 安 装 了 软 FCoE initiator 的 服务 器 可 以 使 用 
其 以 太 网 卡 连接 到 FCoE 交 换 机 上 ， 从 而 被 接 入 到 传统 的 FC “SAN 中 。 
Open FCoE 也 提供 Target 端 。 目 前 Open FCoE 从 Linux kernel 2.6.29 开 始 被 
正式 纳入 。 可 想 而 知 软 FCoE 协 议 栈 会 对 服务 器 CPU 造成 多 少 负 载 增 
加 ， 但 是 别 态 了 它 的 发 起 人 是 Intel。 





观点 : 经 过 上 文 对 FCoE 的 分 析 来 看 ，FCoFE 像 FC 一 样 不 开放 ， 
喘 体 变 了 ， 思 想 依 然 没 变 ， 而 且 还 要 求 映 体 跟着 脑袋 变 一 变 
(CEE/DCE) 。 本 来 承载 到 以 太 网 上 ， 指 望 着 开放 一 些 ， 现 在 
看 来 ， 只 是 改朝换代 而 不 是 革命 。 所 以 ， 这 里 面 的 猫腻 就 看 出 
来 了 ，FCoE 是 当初 Cisco 主 推 的 ，Cisco 称 霸 了 以 太 网 ， 他 当然 
名望 存储 网 络 全 都 转 到 以 太 网 ， 但 是 传统 FC 根深 带 固 ， 所 以 
弄 出 个 FCoE 来 ， 以 太 网 宁愿 在 FC 的 光辉 思想 下 对 自 映 的 一 

些 “ 正 疲 ? 进 行 修 改 。FCoE 作 为 Cisco 称 霸 存 储 网 络 的 一 张 王 
牌 ， 其 目的 束 是 为 了 称霸 存储 网 络 ， 进 一 步 称 霸 数 据 中 心 ， 











Cisco 同 样 拥有 自己 的 服务 器 ， 他 只 是 没有 自己 的 存储 ， 所 以 
他 选择 与 别人 结盟 。 从 VCE、VCN 联 盟 就 看 出 来 了 。 

而 Intel 的 Openfcoe， 显 然 希 望 大 家 都 用 软 Initiator， 靠 强大 的 
CPU 来 执行 而 不 是 专用 ASIC 从 而 带动 CPU 的 销量 和 发 展 。 
那么 iSCSI 与 FCoE 到 底 谁 能 成 为 主流 呢 ? 现状 是 ，iSCSI 硬 卡 只 
有 Emulex 和 了 Broadcom (尚未 发 布 只 是 公开 〉 的 CNA 卡 支持 ， 
后 续 可 能 会 有 更 多 的 厂商 推出 万 兆 iSCSI 硬 卡 。 如 果 用 软 iSCSI 
initiator 的 话 ， 一 个 10G 口 子 会 耗 挥 30% 左 右 其 至 更 高 的 CPU， 
就 算 用 最 新 的 Intel CPU 也 是 这 样 ， 所 以 基本 上 4 个 10G 口 就 会 
耗 死 一 台 阵 列 。 但 是 FC 卡 就 不 会 有 这 种 情况 ，FCoE 同 样 也 不 
会 。 退 一 步 讲 ， 如 果 10G 的 FCoE 与 硬 10G iSCSI 比 的 话 ， 卡 件 
与 协议 本 身 来 讲 都 差不多 ， 成 本 也 差不多 ， 所 以 就 要 看 外 围 辅 
助 设 备 的 成 本 ， 一 台 FCoE 交 换 机 目前 来 讲 还 是 远 贵 于 10G 以 太 
交换机 ， 上 所 以 要 是 小 规模 部 普 ， 甚 至 不 如 用 8G FC 交换 机 划算 
了 。 其 次 是 看 看 场景 ，FCoE 更 适合 想 融 合 之 前 已 经 部 署 的 FC 
与 新 部 署 的 以 太 网 的 场景 ， 也 就 是 大 型 久 建 的 数据 中 心 。 对 于 
新 建 数据 中 心 ， 这 个 趋势 还 不 明 衣 ， 笔 者 之 前 和 Emulex 的 一 名 
员工 交流 过 ， 他 的 意思 是 新 建 数据 中 心 他 们 推荐 使 用 iSCSI 人 硬 
卡 ， 但 是 我 估计 这 种 说 法 是 含有 水 分 的 ， 毕 竟 Emulex 是 目前 仅 
有 的 一 家 提供 硬 iSCSI 卡 成 品 的 公司 ， 他 们 推荐 iSCSI 可 能 有 一 
定 市 场 目的 。 但 是 我 个 人 看 法 ，FCoE 目前 Qlogic、Brocade 和 
Emulex 都 有 产品 了 ， 为 何 10G 的 iSCSI 硬 卡 只 有 Emulex 一 家 产 
品 ， 证 明 FCoE 今 后 可 能 会 有 一 波 行情 。 FCoE 和 iSCSI， 谁 O 不 
是 0? 区 别 就 是 一 个 是 FC， 一 个 是 TCPAIP， 抛 开 以 太 网 ， 单 看 
FC 和 TCP/IP， 前 者 高 效 但 是 扩展 性 差 ， 后 者 效率 稍 低 但 是 扩 
展 性 很 好 ， 其 实 这 已 经 与 以 太 网 无 天 了 ， 最 后 到 底 是 认同 FC 
还 是 认同 TCP/IP 的 问题 。 我 的 看 法 是 ，FCoE 会 弄 出 一 波 行 

















情 ， 但 是 FC “Fabric 这 个 协议 很 那 门 ， 它 要 求 交 换 机 也 要 参与 
Fabric 的 建立 ， 而 且 交 换 机 起 到 至 关 重 要 的 作用 ， 这 增加 了 复 
杂 度 并 且 降 低 了 兼容 性 ， 这 是 与 开 基 础 架构 发 展 背 道 而 驰 的 ; 
而 iSCSI 却 不 要 求 交 换 机 有 什么 上 层 协议 智能 ， 兼 容 性 、 开 放 
性 及 扩展 性 更 好 。 笔 者 个 人 认为 最 后 iSCSI 很 有 可 能 会 蔡 代 
FCoE。 但 是 目前 来 讲 FCoFE 与 iSCSI， 厂 商 也 尚未 看 清 ， 谁 也 不 
敢 冒 然 选 择 。 





第 14 间 ”变幻 莫 测 一 一 虚拟 化 

a 虚拟 化 

mn In Band 

四 Out Band 

“计算 机 科学 中 的 任何 问题 ， 都 可 以 通过 加 上 一 层 逻辑 来 解决 。” 
一 ”计算 机 科学 家 David Wheeler 


目前 形形色色 的 软件 层出不穷 ， 可 是 它们 都 脱离 不 了 一 个 基础 ， 那 
就 是 计算 机 硬件 系统 。 如 CPU、 内 存 和 各 种 IO 接 口 ， 以 及 连接 它们 ， 使 
它们 之 间 相互 通信 的 总 线 。 


CPU 内 部 是 大 量 的 集成 逻辑 电路 ，CPU 不 断 受到 一 种 电信 号 的 “ 刺 
油 *"， 这 种 刺激 经 过 CPU 内 部 的 逻辑 电路 的 一 层 层 的 传递 转换 ， 最 终 输 
出 为 一 种 电信 号 。 这 种 输入 、 输 出 动作 ， 是 有 一 定 逻 辑 的 。 通 过 编写 汇 
编 代码 ， 可 以 实现 对 CPU 内 部 逻辑 电路 的 刺激 ， 并 引起 一 系列 的 逻辑 输 
出 。 将 这 些 逻 辑 映射 到 人 们 所 能 理解 的 知识 上 ， 比 如 输出 1 代表 对 ， 输 
出 0 代表 错误 ， 或 者 如 果 输 出 1 则 继续 刺激 ， 输 出 0 则 停止 刺激 和 等， 这样 
就 构成 了 从 基本 的 逻辑 电路 到 复杂 的 思维 逻辑 的 映射 ， 由 简单 逻辑 的 层 
层 蕨 套 ， 构 成 了 复杂 逻辑 。 将 汇编 语言 ， 用 人 类 容易 理解 的 语言 抽象 出 
来 ， 束 形成 了 局 级 语言 。 将 高 级 语言 的 意思 ， 转 换 成 低级 语言 的 过 程 ， 
就 是 编译 。 比 如 说 : 冬瓜 ， 用 低级 语言 表示 冬瓜 这 个 意思 ， 就 是 “ 搬 ， 
横 折 ， 探 ， 乓 ， 扩 ， 撤 .…...”。 








虚拟 化 过 程 其 实 是 一 个 由 阴阳 县 加 而 产生 的 一 系列 过 程 和 相 态 。 


14.1 操作 系统 对 硬件 的 虚拟 化 


我 们 知道 ， 早 期 的 计算 机 系统 ， 其 实 是 没有 操作 系统 的 ， 因 为 操作 
系统 本 刁 也 是 靠 计 算 机 硬件 执行 的 一 种 程序 。 操 作 系 统 就 是 一 种 可 以 提 
供给 其 他 程序 方便 编写 并 运行 的 程序 。 由 程序 来 运行 程序 ， 而 不 是 由 程 
序 上 自己 来 运行 ， 这 是 操作 系统 提供 的 一 种 虚拟 化 表现 。 























1. 早期 计算 机 单 任务 模式 


对 于 早期 计算 机 来 说 ， 只 能 允许 执行 一 个 任务 ， 整 个 计算 机 只 能 被 
这 个 程序 独占 。 比 如 开机 ， 从 软盘 或 者 其 他 介质 上 执行 程序 ， 直 到 执行 
完毕 或 者 人 为 中 断 。 执 行 完 后 拿 出 介质 ， 再 插入 另 一 张 介 质 ， 重 新 载 入 
执行 另 一 个 新 的 程序 。 在 执行 程序 的 过 程 中 ， 一 旦 意外 终止 ， 就 要 重新 


运行 。 


如 果 有 10 个 人 要 用 一 台 计 算 机 来 执行 程序 ， 第 一 个 人 拿 着 他 的 软 
盘 ， 上 面 有 一 个 数学 题 计 算 程序 ， 他 插入 软盘 ， 然 后 重启 机 器 ， 机 器 从 
软盘 特定 的 而 区 载 入 程序 代码 执行 ， 结 果 显 示 在 显示 器 上 ， 比 如 这 个 程 
序 2 个 小 时 运行 完毕 ， 第 一 个 人 从 显示 器 上 抄 下 结果 ， 走 了 。 后 面 有 9 个 
人 在 排队 等 待 用 计算 机 。 然 后 第 二 个 人 同样 拿 着 他 的 软盘 ， 插 入 软驱 ， 
重启 .……. 每 次 更 换 程 序 ， 都 需要 重新 启动 机 器 ， 简 直 就 是 梦 魔 。 再 者 ， 
如 有 果菜 个 程序 运行 期 间 ， 会 有 空闲 状态 ， 则 其 他 程序 也 仍然 需要 等 竺 ， 
CPU 只 能 在 那里 空 振荡 。 














2. 操作 系统 的 多 任务 模式 





操作 系统 的 出 现 解 决 了 这 两 个 问题 。 操 作 系 统 本 号 也 是 一 段 程序 ， 


计算 机 加 电 之 后 ， 首 先 运行 操作 系统 ， 随 时 可 以 载 入 其 他 程序 执行 ， 也 
就 是 说 ， 它 可 以 随时 从 软盘 上 该 取 其 他 程序 的 代码 ， 并 切换 到 这 段 代码 
上 让 CPU 执行 ， 执 行 完毕 后 则 立即 切换 回 操 作 系统 本 身 。 但 是 每 次 也 总 
征 要 等 竺 这 个 程序 执行 完毕 ， 才 能 接着 载 入 下 一 个 程序 执行 。 当 被 载 入 
的 程序 执行 的 时 候 ， 不 能 做 任何 其 他 的 事情 ， 包 括 操作 系统 本 身 的 程序 
模块 ， 任 何 产生 中 断 的 事件 ， 都 会 中 断 正 在 运行 的 程序 。 





程序 执行 完毕 之 后 ， 会 将 CPU 使 用 权 归 还 操作 系统 ， 从 而 继续 操作 
系统 本 喘 的 运行 。 这 种 操作 系统 称 为 单 任务 操作 系统 ， 典 型 代表 就 是 
DO9 。 


一 旦 在 DOS 中 载 入 一 个 程序 执行 ， 如 果 没 有 任何 中 断 事件 发 生 ， 则 
这 个 程序 就 独占 CPU， 执 行 完毕 之 后 ， 回 到 DOS 操 作 系 统 ， 接 着 可 以 继 
续 执行 另外 一 个 程序 。 经 过 这 样 的 解决 ， 执 行 多 个 程序 ， 期 间 就 再 也 不 
用 重新 启动 机 器 了 。 





在 这 个 基础 上 ， 操 作 系统 又 将 多 个 程序 一 个 接 一 个 地 排列 起 来 ， 成 
批 地 执行 ， 中 途 省 把 了 人 为 载 入 程序 的 过 程 ， 这 叫做 批 处 理 。 批 处 理 操 
作 系 统 ， 相 对 于 单 任务 操作 系统 来 说 ， 可 以 顺序 地 、 无 顷 人 工 干 预 地 批 
量 执行 程序 ， 比 简单 的 单 任务 操作 系统 又 进 了 一 步 ， 但 是 其 本 质 还 是 单 
任务 性 ， 即 一 段 时 间 之 内 ， 仍 然 只 会 观察 到 一 个 应 用 程序 在 运行 ， 仍 然 
只 是 一 个 程序 独占 资源 。 





再 后 来 ， 操 作 系统 针对 系统 时 钟 中 断 ， 开 发 了 专门 的 中 断 服务 程 
序 ， 也 就 是 多 任务 操作 系统 中 的 调度 程序 。 时 钟 中 断 到 来 的 时 候 ，CPU 
根据 中 断 向 量 表 的 内 容 ， 指 同调 度 程 序 所 在 的 内 存 地 址 入 口 ， 执 行 调度 
程序 的 代码 ， 调 度 程序 所 做 的 就 是 将 CPU 的 执行 跳 转 到 各 个 应 用 程序 所 
在 的 内 存 地 址 入 口 。 每 次 中 断 ， 调 度 程 友 以 一 定 的 优先 级 ， 指 癌 不 同 程 




















序 的 入 口 。 这 样 惑 能 做 到 极 细 粒 上 度 的 应 用 程序 入 口 切换 ， 如 采 遇 到 某 个 
程序 还 没有 执行 完毕 就 被 切 出 了 ， 则 操作 系统 会 目 动 将 这 个 程序 的 运行 
状态 保存 起 来 ， 竺 下 次 轮 到 的 时 候 ， 提 取出 来 继续 执行 。 比 如 每 10ms 中 
断 一 次 ， 那 么 也 就 是 说 每 个 应 用 程序 ， 可 以 运行 10ms 的 时 间 ， 然 后 CPU 
运行 下 一 个 程序 ， 这 样 依次 轮回 。 微 观 上 ， 每 个 程序 运行 的 时 候 ， 还 是 
独占 CPU， 但 是 这 个 独占 的 时 间 非 常 小 ， 通 第 为 10ms， 那 么 一 秒 就 可 以 
在 宏观 上 “同时 ”运行 100 个 程序 。 这 就 是 多 任务 操作 系统 。 多 任务 操作 
系统 的 关键 ， 就 是 具有 多 任务 调度 程序 。 

















通过 这 样 的 虚拟 化 ， 运 行 在 操作 系统 之 上 的 所 有 程序 都 会 认为 目 己 
征 独 占 一 台 计 算 机 的 硬件 运行 。 


3. 虚拟 化 的 好 处 
上 面 介 绍 了 计算 机 硬件 以 及 操作 系统 ， 其 实 计算 机 系统 从 诞生 的 那 


一 天 开始 ， 就 在 不 断 地 进行 着 虚拟 化 过 程 ， 时 至 今日 ， 计 算 机 虚拟 化 进 
程 依然 在 飞快 及 展 着 。 





人 硬件 逻辑 被 虚拟 化 成 汇编 语句 ， 汇 编 语句 再 次 被 封 滚 ， 虚 拟 化 成 高 
级 语言 的 语句 。 高 级 语言 的 语句 ， 再 次 被 封闭， 形成 一 个 特定 目的 的 程 
序 ， 或 者 称 为 函数 ， 然 后 这 些 函 数 ， 再 通 过 互相 调用 ， 生 成 更 复 茶 的 函 
数 ， 再 将 这 些 函数 组 合 起 来 ， 束 形成 了 最 终 的 应 用 程序 。 程 序 再 被 操作 
系统 虚拟 成 一 个 可 执行 文件 。 其 实 这 个 文件 代表 了 什么 呢 ? 到 了 底层 ， 
其 实 就 是 一 次 一 次 的 对 CPU 的 电路 信号 刺激 。 也 就 是 说 ， 便 件 电路 好 
辑 ， 一 层 层 地 被 虚拟 化 ， 最 终 虚 拟 成 一 个 程序 。 程 序 就 是 对 压 层 电路 上 
下 文 逻 辑 的 另 一 种 表达 形式 。 














虚拟 化 的 好 处 显而易见 ， 虚 拟 化 将 下 层 的 复杂 逻辑 转变 为 上 层 的 简 





单 逻辑 ， 方 便 人 类 读 懂 ， 也 就 是 说 科技， 以人为本。 任何 拉 术 ， 痢 是 
为 了 将 上 层 逻 辑 变 得 更 加 简单 ， 而 不 是 越 变 越 复杂 ， 当 然 使 上 层 越 简 
单 ， 下 层 束 要 做 更 多 的 工作 ， 整 越 复 森 。 





整个 计算 机 技术 ， 从 开始 到 现在 ， 葡 是 一 个 不 断 地 抽象 、 封 装 、 虚 
拟 、 了 映射 的 过 程 ， 一 直到 现在 还 在 不 断 抽 象 封装 独 ， 比 如 Java 等 比 C 抽 
象 封装 度 更 高 的 高 级 语言 ， 当 然 使 用 起 来 也 比 C 方 便 和 简单 多 了 ， 但 是 
随 之 而 来 的 ， 其 下 层 就 要 复杂 一 些 ， 所 以 Java 代 码 一 般 运 行 速度 慢 ， 耗 
费 资源 也 大 ， 但 是 对 于 现在 飞速 发 展 的 硬件 能 力 ， 是 不 成 问题 的 。 





同样 ，CPU 也 不 仅仅 只 是 一 味 地 增加 晶体 管 数 量 这 么 简单 。CPU 制 
造 者 也 在 想 尽 办 法 将 一 些 功 能 封装 到 CPU 的 逻辑 电路 中 ， 从 而 出 现 了 更 
多 的 指令 集 ， 这 些 指令 集 就 像 程序 函 数 一 样 ， 不 必 理 解 它 内 部 到 底 怎 么 
实现 的 ， 只 需要 发 给 CPU，CPU 就 会 启动 逻辑 电路 计算 。 到 目前 为 止 ， 
Intel 的 CPU 已 经 发 展 到 了 酷睿 多 核 。 主 频 1.6GHz 的 酷睿 四 核 CPU， 人 性 能 
毫 无 悬念 地 比 主 频 3GHz 甚 至 超频 到 4GHz 的 奔腾 4 代 CPU 还 高 。 所 以 CPU 
的 设计 除了 提高 主 频 之 外 ， 更 重要 的 是 内 部 逻辑 的 优化 ， 集 成 度 的 提 
高 ， 更 多 的 抽象 和 封装 。 








提示 : ”虚拟 化 的 思想 在 计算 机 的 各 个 方面 都 是 存在 的 ， 比 如 
经 典 的 OSI 模型 ， 吏 是 一 个 不 折 不 扣 的 抽象 虚拟 模型 。 尤 其 是 
TCP/P 协 议 给 上 层 抽象 出 来 的 Socket 接 口 ， 即 “插座 接口 ”， 也 
可 以 理解 为 ， 只 要 将 插头 接 上 这 个 插座 ， 束 会 和 网 络 接 通 ， 而 
不 必 富 它 是 怎么 实现 的 ， 束 像 将 交流 电 插 头 插入 市 电 插座 一 

样 ， 插 上 就 获得 了 电压 ， 而 不 用 管 市 电 电网 的 拓扑 ， 更 不 用 关 
心 国家 总 电网 的 拓扑 了 。 





14.2 计算 机 存储 子 系统 的 虚拟 化 


上 面 介绍 了 很 多 关于 汇编 和 操作 系统 的 虚拟 抽象 ， 下 面 将 介绍 计算 
机 系统 中 的 存储 子 系统 中 的 虚拟 化 。 





存储 子 系统 的 元 又 包括 磁盘 、 磁 盘 控 制 器 、 存 储 网 络 、 磁 盘 阵 列 、 
卷 管 理 层 、 目 录 虚 拟 层 及 文件 系统 虚拟 层 。 下 面 从 下 到 上 ， 一 一 描述 这 
几 个 元 素 ， 看 看 存储 子 系统 是 怎么 抽象 虚拟 的 。 











1， 和 磁盘 控制 露 











磁盘 控制 器 的 工作 就 是 根据 驱动 程序 发 来 的 磁盘 读 写 信 息 ， 向 磁盘 
发 送 SCSI 指 令 和 数据 。 这 个 部 件 看 似 没 有 什么 可 抽象 虚拟 的 东西 ， 其 实 
磁盘 控制 器 完全 可 以 对 其 驱动 程序 隐藏 其 下 挂 的 物理 磁盘 ， 而 虚拟 出 一 
个 或 者 多 个 虚拟 磁盘 。 由 控制 器 来 完成 虚拟 磁盘 和 物理 磁盘 的 映射 和 抽 
象 虚拟 。RAID 就 是 一 个 典型 代表 ， 控 制 器 将 物理 磁盘 组 成 RAID 
Group， 然 后 在 RG 的 基础 上 ， 虚 拟 出 多 个 LUN， 通 告 给 主机 驱动 。 





2. 存储 网 络 


早期 的 存储 子 系统 ， 没 有 网 络 化 ; 而 目前 的 存储 系统 ， 网 络 化 已 经 
非常 彻底 。 从 磁盘 到 磁盘 阵列 控制 器 ， 从 磁盘 阵 控制 器 到 主机 总 线 适 配 
器 ， 都 已 经 谋 入 了 网 络 化 元 素 。 比 如 使 用 FC 协 议 ， 或 者 TCP/IP 协 议 、 
SAS 协 议 、Infiniband 协 议 等 。 那 么 在 这 一 层 上 ， 有 什么 可 以 抽象 的 吗 ? 
网 络 化 只 是 为 部 件 之 间 提 供 了 一 种 可 扩展 的 传输 通路 而 已 ， 貌 似 在 这 个 
层面 上 不 能 做 出 什么 大 文章 来 。 








实则 不 然 ， 这 一 层 也 是 有 所 深究 的 。 在 交换 式 SAN 中 ， 不 管 是 基于 
TCP/IP 协 议 的 还 是 基于 FC 协议 的 SAAN， 网 络 中 的 任何 节点 ， 都 是 通过 
交换 设备 来 互相 通信 ， 这 是 节点 间 通 信 的 必 经 之 路 。 如 果 在 交换 设备 上 
做 点 手脚 ， 就 完全 可 以 达到 虚拟 化 的 效果 。 


要 抽象 一 种 逻辑 ， 那 么 一 定 要 理解 这 种 逻辑 ， 所 以 我 们 可 以 在 FC 
交换 机 或 者 以 太 网 交换 机 上 ， 租 入 SCSI 协 议 感知 模块 。 比 如 某 个 N 节 点 
癌 另 一 个 N 节 点 Report LUN 的 时 候 ， 交 换 机 收 到 这 个 Fr ame， 则 可 以 感 
知 这 个 N 节 点 的 LUN 人 信息。 如 果 此 时 网 络 中 还 有 男 一 个 节点 的 LUN 信 
轧 ， 则 可 以 在 交换 机 这 一 层 到 达 这 两 个 节点 的 LUN 的 镜像 。 也 就 是 说 ， 
SCSI 及 起 设备 同 目 标 设备 传输 的 数据 ， 经 由 交换 机 的 时 候 ， 交 换 机 内 蔡 
的 虚拟 化 模块 ， 会 主动 复制 对 应 的 帧 到 另 一 个 节点 的 LUN 上 ， 让 这 两 个 
LUN 形 成 镜像 ， 当 其 中 一 个 布点 故障 的 时 候 ， 交 换 机 因为 知道 此 时 还 有 
一 个 备份 镜像 LUN 存 在 ， 所 以 并 不 会 癌 发 起 者 通告 失败 ， 而 是 默默 地 将 
发 起 者 的 数据 重 定向 到 这 个 镜像 的 LUN， 发 起 设备 并 不 会 感知 ， 这 样 ， 
就 达到 了 基于 网 络 层 的 虚拟 化 抽象 。 














当然 ， 网 络 层 的 虚拟 化 并 不 只 是 镜像 ， 是 将 东 些 N 节 点 的 LUN 合 并 
成 一 个 地 ， 然 后 动态 地 从 这 个 池 中 再 划分 出 虚拟 LUN， 回 发 起 者 报告 
等 。 基 于 这 些 思 想 ， 己 经 开发 出 了 智能 FC 交换 机 。 





3， 磁 盘 阵 列 


磁盘 阵列 可 以 说 本 身 就 是 一 个 小 计算 机 系统 (JBOD 除 外 ) ， 这 个 
系统 五 脏 俱 全 ， 是 对 存储 子 系统 的 抽象 虚拟 化 最 佳 的 表现 。 磁 盘 阵列 ， 
简要 地 说 ， 就 是 将 大 量 磁盘 进行 组 织 管理 ， 抽 象 虚 拟 ， 最 终 形 成 虚拟 的 
逻辑 磁盘 ， 最 后 通过 和 主机 适配器 通信 ， 将 这 些 罗 辑 磁盘 呈现 给 主机 。 
这 个 功能 和 前 面 提 到 的 磁盘 控制 器 的 功能 类 似 ， 但 是 磁盘 阵列 能 比 狭 义 








的 磁盘 控制 器 提供 更 多 的 特色 功能 ， 况 且 简 单 地 插 在 主机 IO 总 线 上 的 那 
种 RAID 磁 盘 控 制 器 ， 其 接 入 磁盘 数量 有 限 ， 功 能 也 有 限 。 


大 型 磁盘 阵列 ， 有 自己 的 控制 器 ， 有 的 利用 组 入 式 技术 ， 将 特别 定 
制 的 操作 系统 及 其 核心 管理 软件 蔡 入 芯片 中 ， 来 管理 整个 控制 器 并 实现 
其 功能 ， 有 的 则 干脆 利用 现成 的 主机 来 充当 盘 阵 控制 器 的 和 角色， 比如 
IBM 的 DS8000 系 列 盘 阵 ， 内 部 就 是 用 的 两 台 IBM P 系 列 小 型 机 作为 其 组 
织 管 理 磁盘 的 控制 器 ， 其 上 运行 AIX 操 作 系统 和 相应 的 存储 管理 软件 。 





不 管 是 嵌入 式 ， 还 是 主机 式 的 ， 盘 阵 控 制 器 所 担任 的 角色 都 是 类 似 
的 。 这 个 中 心 控制 器 ， 不 直接 参与 连接 每 块 磁盘 ， 而 是 利用 后 端 适 配 需 
来 管理 下 挂 的 磁盘 ， 由 后 端 适 配器 向 其 上 级 汇报 。 





这 些 适 配器 ， 就 是 由 中 心 控制 器 驱动 的 二 级 磁盘 控制 器 ， 这 些 磁盘 
控制 器 作为 中 心 CPU 的 IO 适配器 ， 直 接 控制 和 管理 物理 磁盘 ， 然 后 由 中 
心 控 制 器 统一 实现 RAID、 卷 等 高 级 功能 〈 有 些 盘 阵 则 可 以 将 简单 的 
RAID 功 能 直接 下 放 给 二 级 控制 器 来 做 ) 。 后 端 适配器 与 中 心 控制 器 
CPU 之 间 通 过 某 种 总 线 技 术 连 接 ， 如 PCIX、PCIE 总 线 等 。 中 心 控制 器 
对 这 些 磁盘 进行 虚拟 抽象 之 后 ， 通 过 前 端的 接口 ， 向 最 终 使 用 它 的 主机 
进行 通告 。 中 心 控 制 器 不 但 可 以 实现 最 基本 的 RAID 功 能 ， 而 且 可 以 实 
现 很 多 高 级 功能 ， 如 LUN 镜 像 、 快 照 、 远 程 复制 、CDP 数 据 保护 、LUN 
再 分 配 等 。 在 磁盘 阵列 上 实现 虚拟 化 ， 是 目前 最 广泛 的 一 种 存储 系统 虚 
拟 化 形式 。 








有 些 产 品 甚至 学 成 了 借 花 献 佛 的 本 领 。 比 如 NetApp 公 司 V 系 列 NAS 
网 关 、HDS 公 司 的 某 些 存储 设备 以 及 IBM 公 司 的 SVC。 这 些 设备 面 对 后 
端 存 储 时 ， 它 就 是 主机 ， 而 面 对 前 端 主机 的 时 候 ， 它 们 就 是 存储 ， 如 赂 
14-1 所 示 。 

















图 14-1 ” 借 花 献 佛 





提示 : 在 一 感觉 这 台 虚 拟 化 设备 也 真 够 无 赖 的 ， 明 明 上 自己 没 
有 磁盘 却 能 躁 着 别人 的 脚 回 外 提供 LUN， 明 明 束 是 自己 癌 别 人 
租赁 来 的 然后 又 装修 了 一 把 ， 转 租 出 去 。 但 是 我 们 非常 需要 这 
种 设备 ， 因 为 它 帮 了 大 忙 。 


假如 ， 图 14-1 中 磁盘 阵列 1 的 容量 为 ITB， 和 磁盘 阵 列 2 的 容量 关 
1TB， 而 某 台 主机 需要 一 个 容量 为 2TB 大 小 的 LUN， 这 怎么 办 呢 ? 我 们 
可 以 在 主机 上 安装 卷 管理 软件 ， 让 VM 把 这 两 个 1TB 的 LUN 合 并 成 一 个 
2TB 的 卷 即 可 。 但 是 这 么 做 需要 耗费 主机 资源 ， 且 虚拟 好 的 新 LUN 只 能 
给 这 人 台 主 机 使 用 。 而 一 些 旧 的 低 端 设备 ， 由 于 其 容量 和 性 能 等 已 经 不 能 
满足 要 求 ， 如 果 可 以 将 这 些 设 备 挂 到 这 人 台 虚 拟 化 设备 上 ， 作 为 一 个 二 线 
存储 资源 ， 这 样 就 将 所 有 的 存储 资源 整合 到 了 一 起 ， 统 一 管理 和 分 配 。 





要 想 获得 足够 的 性 能 和 灵活 性 ， 就 需要 图 14-1 所 示 的 虚拟 化 设备 
了 。 


这 个 设备 在 盘 阵 端 〈 后 端 ) 的 FC HBA 卡 处 于 FC Initiaor 模 式 ， 即 在 
后 端 ， 这 台 设 备 以 主机 模式 出 现 。 而 在 前 端 〈 主 机 端 ) ， 这 人 台 设 备 的 
FC HBA 卡 为 FC Target 模 式 ， 即 它 以 盘 阵 的 角色 出 现 。 这 样 ， 这 人 台 设 备 
就 可 以 从 其 后 端 掌管 LUN， 然 后 将 这 些 LUN 合 并 并 再 次 灵活 分 制 ， 呈 区 
给 其 前 端的 多 台 主 机 使 用 。 除 了 简单 的 合并 再 分 割 LUN 之 外 ， 这 人 台 设 备 
还 可 以 做 许多 其 他 数据 管理 操作 ， 比 如 将 两 个 LUN 镜 像 、 快 照 、CDP 


看 


4. 卷 管 理 层 


卷 管理 层 是 指 运行 在 应 用 主机 上 的 功能 模块 。 它 负责 底层 物理 磁盘 
或 者 LUN 的 收集 和 再 分 配 。 经 过 盘 阵 控 制 器 虚拟 化 之 后 生成 的 LUN 提 区 
给 主机 使 用 ， 主 机 可 以 对 这 些 LUN 进 行 再 次 抽象 和 虚拟 ， 也 就 是 重复 虚 
拟 化 ， 比 如 对 其 中 两 个 LUN 进 行 镜 像 处 理 ， 或 者 对 其 中 的 多 个 LUN， 做 
成 一 个 软 RAID 系 统 。 再 或 者 将 所 有 LUN 合 并 ， 形 成 一 个 大 的 资源 池 ， 
然后 像 往 面团 一 样 隆 成 多 个 卷 ， 这 个 过 程 和 磁盘 控制 器 、 盘 阵 控制 器 所 
做 的 虚拟 化 动作 类 似 ， 但 是 这 个 动作 是 在 主机 上 实现 的 。 典 型 的 卷 管理 
软件 有 LVM， 或 者 第 三 方 的 软件 ， 比 如 Veritas 公 司 的 VxVM。 





5. 文件 系统 





数据 只 是 存储 到 磁盘 上 就 完了 吗 ? 显然 不 是 。 打 个 比方 ， 有 位 记者 
早晨 出 去 采访 ， 手 中 拿 了 一 操 纸 ， 他 每 看 到 一 件 事 就 记录 下 来 。 对 
于 “怎么 将 字 写 在 纸 上 ” 这 个 问题 ， 他 是 这 么 解决 的 ， 他 用 笔 在 格子 上 写 
字 ， 写 满 一 行 再 写 下 一 行 ， 还 不 够 就 换 一 张 纸 。 对 于 “怎么 让 自己 在 纸 
上 写字 ”这 个 问题 ， 是 他 自己 通过 大 脑 《〈 控 制 器 ) ， 通 过 神经 网 络 
(SCSI 线 统 ) ， 操 纵 目 己 的 手指 (磁头 臂 ) ， 拿 着 笔 《〈 磁 头 ) ， 看 见 有 
格子 ， 就 向 里 写 。 这 两 个 问题 都 解决 了 。 可 是 这 一 天 下 来 ， 他 回去 想 看 
看 一 天 都 发 生 了 什么 ， 他 拿 出 记录 纸 ， 却 发 现 ， 信 息 都 是 零散 的 ， 根 本 
无 法 阅读 ， 有 时 候 恋 到 一 半 ， 束 断 了 ， 显 然 当 时 是 因为 格子 不 够 用 了 ， 
写 到 其 他 地 方 了 ， 造 成 了 信息 记录 的 不 连续 ， 有 的 地 方 还 有 删除 线 ， 证 
明 这 一 块 作 废 了 ， 那 么 有 效 的 记录 到 底 在 哪里 昵 ? 记者 方寸 大 乱 ， 数 据 
虽然 都 完好 地 记录 在 纸 上 ， 但 是 它们 都 是 不 连续 的 、 凌 乱 的 ， 当 时 是 都 
记 下 来 了 ， 但 是 事后 想 要 读 取 时 却 没 统 了 。 


























磁盘 记录 也 一 样 ， 只 解决 磁盘 怎么 记录 数据 和 怎么 让 磁盘 记录 数 
据 ， 是 远 远 不 够 的 ， 还 应 该 考虑 “怎么 组 织 磁盘 上 的 数据 ?。 





还 是 用 这 个 记者 的 例子 来 说 明 。 我 们 都 能 想到 ， 将 竣 乱 的 记录 组 织 
成 完整 的 一 个 记录 ， 只 需要 在 相应 的 地 方 做 一 下 标记 ， 比 如 “此 文章 下 
一 段位 于 茶 茶 页 ， 第 几 行 "， 就 像 路 标 一 样 ， 一 次 一 次 地 指引 你 最 终 找 
出 这 个 完整 的 数据 ， 这 个 思想 称 为 “链表 ”。 











如 果 将 这 个 链表 单独 地 做 成 一 个 记录 ， 存 放 到 固定 位 置 ， 每 次 只 要 
参考 这 个 表 ， 就 能 找 出 一 条 数据 在 磁盘 上 的 完整 分 布 情况 。 利 用 这 种 思 
想 做 出 来 的 文件 系统 ， 比 如 FAT 文 件 系 统 ， 它 把 每 个 完整 的 数据 称 为 文 
件 。 文 件 可 以 在 磁盘 上 不 连续 地 存放 ， 由 单独 的 数据 结构 来 描述 这 个 文 
件 在 磁盘 上 的 分 布 ， 这 个 数据 结构 就 是 文件 分 配 表 。File Allocate 
Table， 也 就 是 FAT 的 由 来 。 或 者 用 男 一 种 思想 来 组 织 不 连续 的 数据 ， 比 
如 NTFS， 它 是 直接 给 出 了 一 个 文件 在 磁盘 上 的 具体 而 区 ， 开 始 一 结 
束 ， 开 始 一 结束 ， 用 这 样 的 结构 来 描述 文件 的 分 布 情况 。 





文件 系统 将 磁盘 抽象 成 了 文件 柜 ， 同 一 份 文件 可 能 存放 在 一 个 柜子 
的 不 同 抽 居 中， 利用 一 份 特别 的 文件 来 记录 “文件 一 对 应 抽 居 ”的 分 布 情 
况 ， 这 些 用 来 描述 其 他 文件 分 布 情况 及 其 属性 的 文件 ， 称 为 元 文件 
CMetadata) 。 元 文件 一 般 情 况 下 要 存放 在 磁盘 的 固定 位 置 ， 而 不 能 将 
其 分 散 ， 因 为 最 终 要 有 一 个 绝对 参考 系统 。 但 是 有 些 文件 系统 ， 甚 至 将 
元 文件 也 可 以 像 普通 文件 一 样 ， 在 磁盘 上 不 连续 地 分 布 。 前 面 还 说 过 一 
定 要 有 一 个 绝对 参考 系统 ， 也 就 是 固定 的 入 口 ， 所 以 这 些 特殊 的 文件 系 
统 ， 其 实 最 上 层 还 是 有 一 个 绝对 参考 点 的 ， 这 个 参考 点 将 生成 元 文件 / 
在 磁盘 上 的 分 布 情况 记录 ， 从 而 定位 元 文件 ， 再 根据 元 文件 ， 定 位 数据 
文件 ， 这 样 一 层 一 层 地 磐 僚 ， 最 终 形 成 文件 系统 。 














最 终 一 句 话 ， 文 件 系统 是 对 磁盘 块 的 虚拟 、 抽 象 、 组 织 和 管理 。 用 
尸 只 要 访问 一 个 个 的 “文件 ”"， 殊 等 于 访问 了 磁盘 山区 。 而 访问 文件 ， 这 
个 动作 是 非常 容易 理解 的 ， 也 是 很 简单 的 ， 用 户 不 必 了 解 这 个 文件 最 终 











在 磁盘 上 是 存放 到 哪里 ， 怎 么 存放 的 ， 怎 么 访问 磁盘 来 存放 这 个 文件 ， 
这 些 统统 都 是 由 文件 系统 和 磁盘 控制 器 驱动 程序 来 做 。 


6. 目录 虚拟 层 


不 管 是 Windows 系 统 、UNIX 系 统 ， 还 是 Linux 系 统 ， 其 内 部 都 有 一 
个 虚拟 的 目录 结构 。 在 Linux 中 叫做 VFS， 即 Virtual File System 。 





虚拟 文件 系统 ， 顾 名 思 义 也 就 是 说 这 个 文件 系统 目录 并 不 是 真实 
的 ， 而 是 虚拟 的 。 任 何 实际 文件 系统 ， 都 可 以 挂 载 到 这 个 目录 下 ， 真 实 
FS 中 的 真实 目录 ， 被 挂 载 到 这 个 虚拟 目录 下 之 后 ， 惑 成 为 了 这 个 虚拟 目 
录 的 子 目 录 。 这 样 做 的 好 处 是 增强 灵活 性 。 其 次 ， 操 作 系统 目前 处 理 外 
部 设备 ， 一 般 都 将 其 虚拟 成 一 个 虚拟 文件 的 方式 ， 比 如 一 个 卷 ， 在 
Linux 中 就 是 /devhda 这 种 文件 。 对 这 个 文件 进行 读 写 ， 就 等 于 直接 对 设 
备 进行 了 读 写 。 








存储 子 系统 的 虚拟 化 ， 可 以 在 “磁盘 一 盘 阵 控制 器 一 存储 网 络 一 主 
机 总 线 适 配器 一 卷 管 理 层 一 文件 系统 层 一 虚拟 目录 层 和 了 节 终 应 用 层 ? 各 
个 环 市 虚拟 抽象 地 工作 ， 使 得 最 终 应 用 软件 ， 只 要 通过 文件 系统 访问 文 
件 ， 就 可 以 做 到 访问 最 底层 的 磁盘 一 样 的 效果 。 有 了 时候 还 可 以 重复 虚拟 
化 。 





14.3 ”市 内 虚拟 化 和 市 外 虚拟 化 


所 谓 带 内 即 m Band， 是 指控 制 信 令 和 数据 走 的 是 同一 条 路 线 。 上 所谓 
控制 信 令 ， 残 是 说 用 来 控制 实际 数据 流向 和 行为 的 数据 。 上 典型 的 控制 信 
令 ， 比 如 也 网络 中 的 各 种 IP 路 由 协议 所 产生 的 数据 包 ， 它 们 利用 实际 数 
所 线路 进行 传输 ， 从 而 达到 各 个 设备 之 间 的 路 由 统一 ， 这 就 是 带 内 的 概 


人 O 


带 外 即 Out Band， 是 指控 制 信 令 和 实际 数据 走 的 不 是 同一 条 路 ， 控 
制 信 令 走 单独 的 通路 ， 受 到 “优待 ”。 





带 内 和 带 外 ， 只 是 一 种 叫 法 而 已 ， 在 电话 信 令 中 ， 带 内 和 带 外 是 
用 “ 共 路 ”和 ”“ 随 路 ?这 两 个 词 来 描述 的 。 共 路 信 令 指 的 是 控制 信 令 和 实际 
数据 走 相 同 的 线路 ， 随 路 信 令 则 指 二 者 走 不 同 的 线路 ， 信 令 单 独 走 一 条 
线路 。 随 路 又 可 以 称 作 “ 旁 路 "”， 因 为 它 是 单独 一 条 路 。 


明白 了 上 面 这 些 概 念 ， 用 户 束 可 以 理解 所 谓 “ 带 内 虚拟 化 "和 “之 外 
虚拟 化 ”的 概念 了 。 





市 内 虚拟 化 ， 就 是 说 进行 虚拟 化 动作 的 设备 ， 是 直接 横 插 在 发 起 者 
和 目标 路 径 之 间 的 ， 斩 断 了 二 者 之 间 的 通路 ， 执 行 中 介 操 作 ， 发 起 者 看 
不 到 目标 ， 而 只 能 看 到 经 过 虚拟 化 的 虚拟 目标 。 所 以 在 带 内 虚拟 化 方式 
下 ， 数 据 流 一 定 会 经 过 路 径 上 的 所 有 设备 ， 即 所 有 设备 是 串联 在 同一 条 
路 径 上 的 ， 虚 拟 化 设备 插入 这 条 路 笃 中 ， 作 为 一 个 “ 穴 ”"， 经 过 它 的 时 候 
就 被 虚拟 化 了 。 








市 外 虚拟 化 ， 则 是 在 这 个 路 径 劳 男 起 一 条 路 笃 ， 也 就 是 所 谓 劳 路 。 
用 这 条 路 径 来 走 控制 信号 ， 而 实际 数据 还 是 由 发 起 者 直接 走 疝 目标 。 但 





征 这 些 数据 流 是 受 控 制 信 令 所 控制 的 ， 也 束 是 发 起 者 必须 先 “ 咨 询 ? 劳 路 
上 的 虚拟 化 设备 ， 经 过 “提示 ”或 者 “授权 ”之 后 ， 才 可 以 根据 虚拟 化 设备 
发 来 的 “指示 ”直接 向 目标 请 求 数据 。 带 外 虚拟 化 方式 中 ， 数 据 通路 和 信 
令 通路 是 并 联 的 。 








带 内 虚拟 化 的 例子 非常 多 ， 目 前 的 虚拟 化 引擎 几乎 都 是 带 内 虚拟 
化 。IBM 的 SVC (San Volume Controller) 、Netapp 的 V-series、HDS 公 
司 的 USP 系 列 等 ， 它 们 都 是 带 内 虚拟 化 引擎 。 


1. 市 外 虚拟 化 系统 SanFS 


带 外 虚拟 化 的 一 个 典型 的 例子 ， 是 IBM 公 司 的 SanFS 系 统 。 图 14-2 
显示 了 SanFS 的 基本 架构 。 





图 14-2 IBM 公司 的 SanFS 架 构 示意 图 














SanFS 其 实 根 本 没有 什么 高 深 的 地 方 ， 说 白 了 ，SanFS 就 是 一 个 网 
络 上 的 文件 系统 ， 也 就 是 说 ， 常 规 的 文件 系统 都 是 运行 在 主机 服务 器 上 
的 ， 而 SanFS 将 它 搬 到 了 网 络 上 ， 用 一 台 专 门 的 设备 来 处 理 文件 系统 逻 
人 


然而 ， 这 个 “网 络 上 的 文件 系统 ” 却 绝 对 不 是 “网 络 文件 系统 "。 网 络 
文件 系统 是 典型 的 融 内 虚拟 化 方式 ， 因 为 网 络 文件 系统 对 上 层 屏 责 了 底 
层 卷 ， 只 给 上 层 提供 一 个 目录 访问 接口 ， 上 层 看 不 到 网 络 文 件 系 统 底层 
的 卷 ， 只 能 看 到 目录 。 而 SanFS 架 构 中 ， 上 层 既 能 看 到 文件 系统 目录 ， 
又 能 看 到 底层 卷 (LUN) ， 如 图 14-3 所 示 。 














图 14-3 ”SanFS 架 构 示 意图 





图 14-3 中 ， 左 边 的 服务 器 是 一 台 普 通 的 服务 器 ， 右 边 是 一 台 使 用 
SanFS 文 件 系统 的 服务 器 。 直流 的 服务 路上 的 文件 系统 已 经 被 搬 到 了 外 
面 ， 即 运行 在 一 台 SanFS 控 制 器 上 ， 这 个 控制 器 与 服务 器 都 接 入 一 台 以 
太 网 交换 机 。 当 虚拟 目录 层 需要 与 文件 系统 层 通 信 的 时 候 ， 通 信 路 径 不 
再 是 内 存 ， 而 是 以 太 网 了 。 由 于 文件 系统 已 经 被 搬 出 主机 ， 上 所 以 任何 与 
文件 系统 的 通信 都 要 被 重 定向 到 外 部 ， 并 且 需 要 用 特定 的 格式 ， 将 请 求 
通过 以 太 网 发 送 到 SanFS 控 制 器 ， 以 及 从 控制 右 接 受 相 应 的 回应 ， 所 以 
在 使 用 SanFS 的 服务 器 主机 上 ， 必 须 安 装 SanFS 管 理 软件 〈 或 者 叫做 
SanFS 代 理 ) 。 











下 面 用 几 个 实例 来 说 明 SanFS 是 如 何 作 用 的 。 
实例 1 


服务 器 运行 Windows 2003 操 作 系 统 ， 使 用 SanFS 作 为 文件 系统 的 卷 
的 盘 符 为 “S” 盘 。 在 Windows 中 双击 盘 符 5， 此 时 VFS 虚 拟 目录 层 便 会 发 
起 与 SanFS 控 制 器 的 通信 ， 因 为 需要 获取 盘 符 S 根 目录 下 的 文件 和 目录 列 
表 。 所 以 VFS 调 用 SanFS 代 理 程序 ， 通 过 以 太 网 络 向 SanFS 控 制 器 发 送 请 
求 ， 请 求 $ 根 目录 的 文件 列表 ，SanFS 控 制 器 收 到 请 求 之 后 ， 将 列表 通过 
以 太 网 发 送 给 SanFS 代 理 ， 代 理 再 传递 给 VFS， 随 即 就 可 以 在 窗口 中 看 
到 文件 和 目录 列表 了 。 














实例 2 








某 时 刻 ， 某 应 用 程序 要 癌 S 盘 根 目 录 下 写 入 一 个 大 小 为 1MB 的 文 
件 。VEFS 收 到 这 个 请 求 之 后 ， 立 即 网 SanFS 控 制 器 发 送 请 求 ，SanFS 控 制 
器 收 到 请 求 之 后 ， 计 算出 应 该 使 用 卷 上 的 哪些 空闲 块 ， 将 这 些 空 闲 块 的 
LBA 号 人 码 列 表 以 及 一 些 其 他 必要 信息 通过 以 太 网 传送 到 服务 器 。 服 务 器 


上 的 SanFS 收 到 这 些 信息 后 ， 便 调用 操作 系统 相关 模块 ， 将 应 用 的 数据 
从 服务 器 的 内 存 中 直接 回 下 写 入 对 应 卷 的 LBA 地 址 上 。 





SanFS 系 统 是 一 个 典型 的 带 外 虚拟 化 系统 ， 服 务 器 主机 虽然 可 以 看 
到 底层 卷 ， 但 是 管理 这 个 卷 的 文件 系统 ， 却 没有 运行 在 主机 上 ， 而 是 运 
行 在 主机 之 外 。 主 机 与 这 个 文件 系统 之 间 通 过 前 端 以 太 网 通信 ， 收 到 文 
件 系统 的 指示 之 后 ， 主 机 才 按 照 指示 将 数据 直接 写 入 郑 。 




















SanFS 究 竟 有 何 意义 呢 ? SanFS 是 不 是 有 点 多 此 一 举 昵 ? 放 着 主机 
内 存 这 么 好 的 风水 宝地 不 用 ， 却 自己 跑 出 去 单独 运行 ， 和 别人 通信 还 得 
忍受 以 太 网 的 低速 度 〈 相 对 内 存 来 说 ) ， 这 是 何苦 呢 ? 煞费苦心 的 
SanFS 当 然 有 自己 的 算盘 ， 这 么 做 的 原因 如 下 。 





将 文件 系统 逻辑 从 主机 中 和 剥离 出 来 ， 降 低 主 机 的 负担 。 


既然 将 文件 系统 从 主机 剥离 出 来 ， 为 何不 干脆 做 成 NAS 呢 ?NAS 同 
样 也 是 将 文件 系统 搬移 出 主机 。 管 案 是 因为 加 NAS 传 输 数 据 ， 走 的 是 以 
太 网 ， 速 度 相对 FC SAN 要 慢 。 所 以 SanFS 的 设计 是 只 有 元 数据 的 数据 流 
走 以 太 网 ， 实 际 数据 依然 由 主机 自行 通过 SAN 网 络 写 入 盘 阵 等 存储 设 
备 。 这 样 就 加 快 了 数据 的 传输 速度 ， 比 NAS 有 优势 。 











其 实 SanFS 一 个 最 大 的 特点 ， 就 是 支持 多 台 主 机 共享 同一 个 卷 ， 即 
同一 时 刻 可 以 由 多 台 主 机 共同 读 写 〈 注 意 是 读 写 ) 同一 个 SanFS 卷 。 这 
也 是 SanFS 最 大 的 卖点 。 共 享 同 一 个 LUN 的 所 有 主机 ， 都 与 SanFS 控 制 
器 通信 以 获得 访问 权限 ， 所 以 SanFS 干 脆 就 自己 单独 占用 一 台 专 用 设 
备 ， 放 在 网 络 上 ， 也 就 是 SanFS 控 制 器 ， 这 样 可 以 让 所 有 主机 方便 地 与 


2. SanFS 与 NAS 的 异同 





SanFSs 与 网 络 文件 系统 究竟 有 何不 同 呢 ， 如 图 14-4 所 示 。 


图 14-4 ”SanFS 与 NAS 的 异同 





显然 ，NAS (网 络 文件 系统 ) 与 SanFS 是 截然 不 同 的 。 主 机 向 NAS 
写 入 数据 ， 其 实 要 经 历 两 次 写 的 过 程 ， 第 一 次 写 是 主机 将 数据 通过 以 太 
网 发 送 给 NAS 的 时 候 ， 第 二 次 写 是 NAS 将 收 到 的 数据 写 入 自己 的 硬盘 
(本 地 磁盘 或 者 SAN 上 的 LUN 卷 ) 。 而 SanFS 只 写 入 一 次 数据 ， 而 且 是 
通过 FC SAN， 而 不 是 相对 慢 速 的 以 太 网 。 





3. 轮回 和 构 套 虚拟 化 


以 太 网 在 传统 上 是 用 来 承载 IP 的 ， 但 是 有 一 些 技术 是 将 以 太 网 承载 
到 IP 之 上 的 ， 比 如 VPLS。VPLS 属 于 一 种 极端 变态 的 协议 林 交 方式 。 它 
幅 套 了 多 次 ， 也 轮回 了 多 次 。 


VPLS 可 以 说 是 对 以 太 网 YLAN 技 术 的 一 种 上 层 扩 展 。 传 统 VLAN 使 
用 VLAN 标 签 来 区 分 不 同 的 域 ，VPLS 则 可 以 直接 通过 用 不 同 的 IP 来 封装 
以 太 网 头 来 区 分 各 个 以 太 网 域 。 


这 个 技术 也 从 一 个 侧面 表明 了 TCP/IP 在 当今 网 络 通 信和 领域 所 不 可 动 
摇 的 绝对 地 位 。 


14.4 硬 网 络 与 软 网 络 
1. 硬件 网 络 设备 


所 谓 人 硬件 网 络 设备 ， 其 功能 终 完 还 是 靠 软 件 来 实现 的 。 很 多 网 络 硬 
件 设备 ， 尤 其 是 路 由 设备 ， 本 质 上 就 是 一 台 PC 或 者 PC ”Server。 其 上 运 
行 着 专门 处 理 网 络 数据 包 的 程序 。 就 这 样 ， 若 干 底层 网 络 设备 互相 连 
接 ， 组 成 了 整个 基础 网 络 ， 也 就 是 硬件 网 络 环境 。 


在 硬件 网 络 环境 的 基础 上 ， 知 干 PC 接 入 硬件 网 络 ， 实 现 相 互通 
信 。 也 就 是 说 ， 用 一 部 分 PC 充当 网 络 硬件 设备 ， 其 他 PC 利用 这 些 充 当 
网 络 设备 的 PC 实现 通信 。 这 就 是 一 种 藤 套 的 表现 ， 也 就 是 “网 中 有 网 ”。 





2. 软件 网 络 程序 


Message Queue (MQ) 和 Message Broker (MB ) 在 硬件 网 络 设备 的 
基础 上 ， 模 拟 出 一 个 纯 软 件 的 网 络 转 发 引擎 。 这 就 是 一 种 轮回 的 表现 。 





MGQ 是 一 种 消息 转发 软件 引擎 。 这 个 引擎 运行 在 主机 操作 系统 之 
上 。 其 功能 就 是 充当 一 个 消息 转发 占 。 客 户 端 通过 TCP/IP 与 这 个 转发 器 
相连 ， 将 消息 传送 到 这 个 转发 器 上 ， 然 后 转发 器 根据 策略 ， 将 消息 转发 
到 其 他 客户 端 上 。 这 种 消息 转发 器 ， 也 就 类 似 于 网 络 交 换 机 。 只 不 过 
MQ 的 链 路 层 由 TCP/IP 来 充当 。 








MB 是 一 种 应 用 你 | nL ee 
的 ， 但 是 它 不 仅仅 是 底层 转发 ， 还 能 做 到 应 用 层次 的 转发 。 这 类 似 于 邮 
件 服务 器 ， 只 不 过 











14.5 用 多 人 台独 立 的 计算 机 模拟 成 一 台 虚 拟 计 算 机 
1. HPC 坏 境 


扩 组 成 线 ， 线 组 成 面 ， 面 组 成 体 ， 体 与 体 之 间 组 成 网 ， 然 后 就 是 进 
化 。 同 样 ，HPC 环 境 也 是 这 种 模式 。 在 一 个 典型 的 HPC 环 境 中 ， 包 含 众 
多 的 计算 机 ， 这 些 计算 机 各 有 分 工 。 总 体 来 说 ，HPC 环 境 中 的 计算 机 可 
以 分 为 两 大 类 : 一 种 是 专门 用 来 计算 数据 的 ， 为 CPU 密 集运 算 ; 为 一 种 
是 专门 用 于 存储 计算 过 程 中 ， 所 主要 提取 或 者 存放 数据 的 ， 为 IO 密 集运 
算 。 前 者 称 为 计算 节点 ， 后 者 称 为 存储 节点 。 而 为 了 最 大 利用 硬件 资 
源 ， 有 些 HPC 环 境 中 会 存储 节点 ， 也 兼 用 来 做 计算 市 反 。 








可 以 将 一 个 HPC 环 境 中 的 所 有 计算 节点 看 作 一 台大 的 虚拟 计算 机 的 
CPU 和 内 存 ， 而 将 所 有 存储 节点 看 作 虚拟 计算 机 的 硬盘 。 虚 拟 计 算 机 的 
CPU 和 内 存 〈 计 算 节 点 ) ， 通 过 某 种 连接 链 路 向 虚拟 计算 机 的 硬盘 〈 存 
储 节 点 ) 读 写 数据 ， 从 而 计算 出 结果 。 对 于 一 台 单 独 的 物理 计算 机 来 
说 ，CPU 内 存 与 存储 设备 之 间 的 连接 为 高 速 IO 总 线 ， 比 如 PCIE。 但 是 对 
于 由 多 人 台独 立 节 点 组 成 的 HPC 系 统 来 说 ， 虚 拟 CPU 与 虚拟 存储 设备 之 间 
的 连 线 就 不 可 能 是 内 部 IO 总 线 了 ， 而 是 一 种 外 部 的 高 速 网 络 传输 方式 。 
有 些 HPC 利 用 Infiniband 网 络 作为 计算 节点 与 存储 节点 之 间 的 连接 方式 ， 
有 些 则 干脆 使 用 以 太 网 。 前 者 一 般 用 于 IO 密 集 型 的 运算 ; 后 者 一 般 用 于 
CPU 密集 型 运算 ， 也 就 是 说 ， 运 算 过 程 中 需要 读 写 的 数据 不 多 。 








2. 典型 的 Web 十 APP 十 DB 架构 


这 种 架构 是 一 种 典型 的 全 染 构 。 客 户 问 通过 Web 服 务 器 获取 一 个 图 
形 化 显示 网 页 ， 应 用 逻辑 由 APP (Application) 服务 器 处 理 ， 并 将 结果 


通过 Web 服 务 器 显示 到 客户 端的 网 页 上 ，APP 服 务 器 需要 的 数据 则 通过 
访问 数据 库 服务 器 来 获得 。 


也 可 以 将 Web 服 务 器 看 作 一 台 显 示 终 端 ， 将 APP 服 务 器 看 作 CPU 和 
内 存 ， 将 DB 服务 器 看 作 硬 盘 。 这 样 ， 一 个 由 Web 十 APP 十 DB 服务 器 所 
组 成 的 虚拟 计算 机 便 诞 生 了 。 





14.6 ”用 一 全 独立 的 计算 机 模拟 出 多 人 台 虚 拟 计 算 机 
1. VMware 虚拟 机 软件 


VMware 通过 模拟 一 套 便 件 系统 ， 将 程序 对 这 个 硬件 系统 CPU 发 送 
的 指令 经 过 一 定 的 处 理 之 后 ， 并 加 以 虚拟 传 到 物理 CPU 上 执行 。 利 用 这 
种 方式 ， 可 以 在 一 台 物 理 计 算 机 上 虚拟 出 多 个 虚拟 机 。 


目前 Windows Server 2008 操 作 系 统 已 经 目 带 了 HyperV 虚 拟 化 引擎 。 
类 似 VMware 的 ESX。 目 前 很 多 操作 系统 都 集成 了 Native 的 虚拟 化 引擎 。 


2. 世界 本 喘 束 是 一 个 轮回 谍 套 的 虚拟 化 系统 





不 但 在 计算 机 领域 中 有 虚拟 化 ， 在 其 他 学 科 中 同样 有 虚拟 化 。 在 化 
学 领域 中 ， 科 学 家 把 观察 到 的 现象 和 计算 出 来 的 公式 ， 虚 拟 化 成 原子 和 


入 


> 
局 


总 之 ， 一 切 都 是 虚拟 化 的 结果 ， 我 们 观察 到 的 世界 其 实 就 是 我 们 利 
用 基本 数学 公式 虚拟 出 来 的 。 人 们 首先 在 大 脑 中 演绎 出 数学 ， 然 后 虚拟 
化 出 了 物理 学 ， 然 后 再 用 数学 和 物理 学 虚拟 化 出 化 学 等 其 他 各 种 学 科 。 
这 就 像 用 汇编 语言 来 抽象 数字 电路 逻辑 ， 再 用 局 级 语言 来 抽象 汇编 语 
言 ， 然 后 将 现实 中 的 逻辑 用 计算 机 高 级 语言 表达 出 来 ， 让 计算 机 来 模拟 
出 现实 逻辑 。 











14.7 ”用 磁盘 阵列 来 虚拟 磁带 库 


VTL， 即 Virtual Tape Library， 虚 拟 磁 带 库 。 传 统 的 物理 磁带 库 为 
全 机 械 操 作 ， 比 如 机 械 手 、 驱 动 器 、 磁 带 等 。 其 速度 相对 磁盘 来 说 要 慢 
很 多 ， 如 有 果 需 要 备份 的 数据 量 非常 大 ， 而 备份 窗口 又 很 小 ， 那 么 只 能 通 
过 提高 磁带 库 的 速度 来 解决 。 但 是 要 提高 磁带 库 的 速度 ， 只 能 同时 用 多 
个 驱动 右 同 时 操作 ， 需 要 成 本 高 ， 不 方便 。 虚 拟人 磁带 库 的 出 现 为 的 就 是 
解决 上 述 这 些 问题 。VTL 使 用 磁盘 来 存储 数据 而 不 是 磁带 ， 并 虚拟 出 机 
械 手 、 人 磁带 有 驱动器、 磁带 这 三 样 在 物理 上 都 不 存在 的 东西 。 在 备份 软件 
等 使 用 磁带 库 的 应 用 程序 ， 不 会 发 现 物理 设备 到 底 是 盘 阵 还 是 真实 的 磁 
带 库 。 而 虚拟 化 之 后 ， 前 端的 程序 接口 不 变 ， 后 端的 速度 和 灵活 性 却 大 
大 增加 了 。 

















图 14-5 是 一 台 物 理 磁带 库 的 正视 图 。 图 14-6 显 示 了 仓 门 打开 后 其 内 
部 构件 示意 图 ， 可 以 看 到 一 根 竖 直 的 柱子 ， 这 个 柱子 就 是 机 械 手 的 滑 
轨 。 机 械 手 可 以 沿 着 柱子 上 下 滑动 并 且 可 以 左右 转动 ， 以 抓 取 右 侧 磁 带 
权 中 的 磁带 。 图 14-7 所 示 是 物理 磁带 库 的 两 个 驱动 器 和 电源 后 视图 。 在 
图 14-8 中 可 以 看 到 为 一 种 设计 的 机 械 手 和 驱动 器 。 



































图 14-5 ”物理 磁带 库 的 正视 图 图 14-6 ”物理 磁带 库 的 内 视图 















































I 物理 磁带 库 后 视图 (驱动 器 和 电 图 14-8 ”为 一 种 设计 方式 的 磁带 库 机 械 手 
源 ) 





NetApp VTL700 配 置 使 用 实例 


比如 有 NetApp VTL700 系 列 虚拟 磁带 库 一 台 ， 机 头 连接 了 两 个 扩展 


柜 。 共 28 块 500GB 的 SATA 人 磁盘 。 


(1) 第 一 步 : 创建 RAID 组 ， 为 虚拟 磁 市 创建 底层 存储 空间 。 





破 盘 阵列 必须 做 RAID， 这 是 任何 情况 下 都 要 保证 的 。RAID 不 仅仅 
可 以 提高 速度 ， 更 重要 的 是 为 了 保护 数据 ， 因 为 任何 一 块 硬盘 损坏 ， 如 
果 没 有 RAID， 都 会 造成 数据 丢失 。VTL 使 用 的 磁盘 阵列 也 不 例外 。 





VTL700 可 以 利用 Web 界 面 来 管理 ， 管 理 主 界面 如 图 14-9 所 示 。 

















图 14-9 ”VTL700 管 理 主 界面 




















查看 当前 系统 的 虚拟 磁带 容量 等 信息 ， 如 图 14-10 所 示 。 由 于 还 没 
有 配置 完成 ， 所 以 图 14-10 中 没有 给 出 任何 虚拟 之 后 的 容量 等 信息 
(RAID 组 和 虚拟 磁带 总 容量 都 为 0.00Gb)。 


图 14-10 ”系统 配置 容量 信息 





从 页 面 左 侧 栏 中 选择 RAID Groups 标 签 ， 右 侧 会 显示 出 当前 系统 中 
所 配置 的 RAID 组 ， 如 图 14-11 所 示 。 由 于 当前 还 没有 配置 任何 RAID 
组 ， 所 以 两 台 扩 展柜 中 的 所 有 磁盘 均 显示 为 灰色 ( 空 帮 状态) ， 蓝 色 的 
人 厂 盘 为 Spare 盘 。 





图 14-11 系统 当前 RAID 组 信息 


选中 图 14-11 上 方 的 Create Raid Group 复 选 框 ， 出 现 如 图 14-12 所 示 








图 14-12 ”创建 RAID 组 页 面 

















、 图 14-13 ”创建 RAID 组 规则 
单 击 图 14-12 中 的 Automatically 


Create RAID Group 按钮 ， 系 统 上 自动 创建 RAID 组 。 随 后 出 现 如 图 14-13 所 
示 的 窗口 ， 提 示 用 户 创 建 RAID 组 的 规则 。 





单 击 Apply 按 钮 ， 出 现 如 图 14-14 所 示 的 页 面 ， 可 以 看 到 系统 已 经 创 
建 好 了 一 系列 的 RAID 组 ， 且 每 个 RAID 组 用 不 同 颜色 表示 。 





图 14-14 ”系统 自动 创建 的 6 个 RAID 组 





单 击 Drop RAID Group 标签 ， 进 入 删除 RAID 组 页 面 ， 可 以 删除 已 经 
创建 好 的 RAID 组 ， 如 图 14-15 所 示 。 








图 14-15 ”删除 RAID 组 页 面 











单 击 Drop 按 钮 ， 删 除 对 应 的 RAID 组 。 删 除 之 后 也 可 以 再 次 手动 或 
者 自动 创建 RAID 组 。 图 14-16 所 示 为 手动 创建 的 7 个 RAID 组 。 








图 14-16 ”手动 创建 的 7 个 RAID 组 


回 到 Monitor 页 面 ， 查 看 系统 当前 的 配置 容量 信息 ，RAID Group 栏 
目 中 己 经 显示 出 了 系统 当前 的 可 用 磁盘 容量 ， 如 图 14-17 所 示 。 








图 14-17 ” RAID 组 配置 完 后 的 系统 容量 信息 








(2) 第 二 步 : 创建 虚拟 磁 市 库 和 虚拟 人 磁带。 





创建 完 RAID 组 之 后 ， 就 为 系统 提供 了 基本 的 存储 空间 。 在 这 个 存 
储 空间 之 上 ， 还 需要 创建 一 台 或 者 多 台 虚 拟 带 库 ， 然 后 创建 虚拟 磁带 。 


创建 虚拟 磁带 库 。 如 图 14-18 所 示 创 建 一 台 名 为 lib1 的 虚拟 带 库 ， 带 
库 的 厂家 信息 为 NetApp。 虚 拟人 磁 市 驱动 器 类 型 为 IBM LTIO1， 这 个 类 型 
必须 对 应 一 款 物 理 磁带 驱动 器 ， 下 拉 列 表 框 中 有 多 种 支持 的 物理 驱动 器 


可 选 。Slot Count 即 磁带 槽 位， 这 里 定 为 8。Drive Count 即 驱动 器 数量 ， 

这 里 定 为 2。Assigned to Port 表 示 将 这 个 虚拟 磁带 库 在 哪个 前 端 端 口 “ 提 
交 ” 出 去 ， 即 主机 端 可 以 从 VTL 上 的 哪个 前 端 端口 识别 到 这 台 虚 拟 磁 市 

库 。Fully Loaded with Virtual Tapes 表 示 是 人 否 自 动 创 建 对 应 的 虚拟 磁 训 并 
插 满 磁带 槽 〈 磁 融 槽 和 厂 带 都 是 虚拟 的 ) 。Start Tape Label 表 示 起 始 标 
签名 称 。 物 理 磁 带 库 中 ， 每 盘 磁 带 都 有 各 自 的 标签 ， 机 械 手 通过 这 些 标 
签 来 识别 每 一 盘 人 磁带 ， 虽 然 VIL 不 需要 用 标签 来 识别 每 个 虚拟 磁带 ， 但 
是 备份 软件 等 程序 需要 知道 这 些 标签 ， 所 以 VTL 还 是 要 给 每 个 虚拟 磁带 
分 配 标签 。 这 里 用 写 1” 来 起 始 ， 这 样 ， 第 二 盘 虚 拟 磁带 系统 就 会 目 动 为 
其 分 配 “L2” 的 标签 ， 依 此 类 推 。 





图 14-18 ”创建 虚拟 磁带 库 








单 击 Apply 按 钮 之 后 ， 一 台 虚 拟 磁带 库 就 创建 完 并 可 以 使 用 了 。 此 
外 ， 还 可 以 创建 更 多 的 虚拟 磁带 ， 如 图 14-19 所 示 。 单 击 左 侧 栏 中 的 
Virtual Tapes 标签 ， 右 侧 页 中 可 以 选择 新 磁带 归属 于 哪个 虚拟 带 库 。 这 
里 选择 刚刚 创建 的 lb1， 然 后 起 始 标签 设 为 M1， 数 量 为 8 盘 ， 单 击 Apply 
按钮 。 这 样 就 问 lib1 这 台 虚 拟 带 库 中 增加 了 8 盘 磁 带 ， 加 上 原 有 的 一 共 16 
盘 。 








图 14-19 ”增加 虚拟 磁带 











单 击 左 侧 栏 中 的 Virtual Libraries 标 签 ， 右 侧 会 出 现 一 张 虚拟 磁带 库 
拓扑 图 。 如 图 14-20 所 示 ， 右 侧 机 柜 中 有 8 个 磁 囊 槽 和 2 个 驱动 器， 与 创 
建 带 库 时 的 选项 一 一 对 应 。 左 边 的 推 车 上 还 有 8 盘 磁 带 ， 这 是 刚才 追加 
的 8 盘 磁 带 ， 而 虚拟 带 库 中 的 磁带 槽 放 不 开 ， 所 以 束 放 到 了 虚拟 推 车 
上 。 推 车 上 方 是 一 个 存储 箱 ， 可 以 用 鼠标 把 任意 一 盘 磁带 拖 动 到 推 车 、 
磁 市 横 或 者 驱动 器 中 。 如 果 拖 动 到 存储 箱 中 ， 则 这 盘 虚 拟 磁 带 便 被 删除 


了 “如 图 14-21 所 示 ) 。 





图 14-20 ”当前 虚拟 磁带 库 的 示意 图 页 面 图 14-21 ”删除 虚拟 磁带 











返回 到 Monitor 页 面 中 可 以 看 到 当前 系统 中 的 虚拟 带 库 信息 ， 如 图 
14-22 所 示 。 





图 14-22 ”当前 系统 的 虚拟 带 库 信息 








创建 第 二 台 虚 拟 带 库 。 再 次 创建 一 台 名 为 lib2 的 虚拟 带 库 。 这 里 选 
择 驱 动 器 类 型 为 HP LTO1，16 槽 位，4 驱 动 器 ， 如 图 14-23 所 示 。 图 14-24 
显示 了 lib2 的 拓扑 图 ， 可 以 和 lib1 的 图 对 比 一 下 。 














图 14-23 ”创建 lib2 虚 拟 带 库 图 14-24 ”lib2 虚 拟 带 库 拓扑 图 

















单 击 左 侧 栏 中 的 Virtual ” Tapes 标签， 在 右 侧 页 面 中 可 以 查看 虚拟 磁 
带 的 信息 ， 修 改 虚 拟 磁带 的 属性 ， 在 多 台 虚 拟 带 库 中 移动 磁带 ， 删 除 虚 
拟 磁 带 ， 如 图 14-25 一 图 14-28 所 示 。 





图 14-25 “显示 虚拟 磁带 信息 图 14-26 ”修改 虚拟 磁带 的 读 写 属性 





图 14-27 ”在 多 人 台 虚 拟 带 库 之 间 移 动 磁带 图 14-28 删除 虚拟 磁带 


返回 Monitor 页 面 可 查看 系统 中 的 信息 ， 此 时 出 现 另 一 台 虚 拟 带 
库 ， 如 图 14-29 所 示 。 


图 14-29 ”系统 中 的 两 台 虚 拟 带 库 





手动 将 磁带 放 入 驱动 器 。 如 图 14-30 所 示 ， 可 以 在 拓扑 图 中 拖 动 任 


何 一 盘 人 磁带 进入 驱动 器 。 这 个 动作 就 好 比 在 物理 带 库 中 ， 由 机 械 手 将 磁 
带 从 磁带 槽 中 抓 出 ， 并 推 入 磁带 驱动 器 。 当 然 ， 备 份 软件 可 以 发 送 指令 
让 带 库 自动 做 这 个 动作 ， 当 然 也 可 以 手动 做 这 个 动作 。 和 磁带 放 入 驱动 右 
之 后 ，Monitor 页 面 中 会 显示 出 当前 之 库 的 驱动 器 中 所 包含 的 磁 市 ， 如 
图 14-31 所 示 。 























图 14-30 “手动 将 磁带 放 入 驱动 器 图 14-31 _ Monitor 页 面 中 显示 的 驱动 器 状态 


(3) 第 三 步 : 在 客户 端 使 用 虚拟 磁带 库 。 





客户 端 对 VIL 的 使 用 与 使 用 一 台 纯 物理 磁带 库 没 有 任何 区 别 。 我 们 
用 一 台 NetApp 的 FAS3050 磁 盘 阵 列 来 识别 这 台 VTL， 看 看 效果 。 在 
FAS3050 命 令 行 中 输入 sysconfig -a 来 查看 当前 系统 中 的 所 有 设备 ， 可 以 
看 到 在 FC 通道 0c 上 已 经 识别 到 了 两 个 IBM 的 驱动 右 和 4 个 HP 的 驱动 器 ， 
这 和 VTL700 上 的 配置 完全 一 样 ， 如 图 14-32 所 示 。 输 入 storage show tape 
命令 可 以 查看 更 详细 的 磁带 驱动 器 信息 ， 如 图 14-33 所 示 。 输 入 storage 
Show ”mc 命令 可 以 查看 识别 到 的 机 械 手 信息 (机 械 手 是 VIL 虚 拟 出 来 
的 ) ， 如 图 14-34 所 示 。 输 入 sysconfig -t 命 令 可 以 查看 系统 识别 到 的 所 有 
磁带 ， 如 图 14-35 所 示 。 











图 14-32 ”客户 端 所 识别 到 的 磁带 设备 14-34 ”查看 机 械 手 信息 





























图 14-33 ”详细 的 驱动 占 信 息 图 图 14-35 ”系统 所 识别 到 的 所 有 磁带 








至此， 这 人 台 VTL 虚 拟 出 了 两 台 融 库 ， 当 然 还 可 以 虚拟 更 多 的 带 库 ， 
将 它们 分 配 到 另外 的 FC 端 口 。 更 加 灵活 的 是 ，VTL 还 可 以 自身 连接 物理 
磁带 库 ， 然 后 将 这 些 物 理 资 源 透 传 到 主机 端 ， 这 样 即使 原来 存在 的 物理 


币 库 也 没有 浪费 ， 一 起 整合 了 进来 。 





各 个 厂家 的 VTL 产品 的 设计 都 是 大 同 小 异 ， 几 平 都 是 用 各 自己 经 成 
形 的 盘 阵 产品 ， 将 其 上 运行 的 程序 换 一 下 ， 就 变 成 了 VTL。 图 14-36 是 
EMC 公 司 的 VIL 产品 的 配置 界面 。 可 以 看 到 各 个 厂家 的 设计 都 大 同 小 
异 ， 本 质 都 是 一 样 的 。 








图 14-36 ”EMC 公司 的 VTL 产品 配置 界面 














14.8 用 控制 右 来 虚拟 其 他 破 盘 阵列 


现在 存储 行业 内 常 说 的 “存储 虚拟 化 ”， 或 者 “虚拟 化 ”， 一 般 情 况 下 
都 是 指 把 多 个 相同 或 者 不 同 厂商 的 磁盘 阵列 整合 之 后 再 分 配 的 虚拟 化 方 
式 。 其 实 这 种 虚拟 化 只 是 冰山 一 角 ， 而 且 纯 技术 架构 设计 方面 的 含量 也 
不 是 很 高 ， 这 么 说 并 不 是 我 在 夸 口 ， 而 是 事实 。 实 现 这 种 虚拟 化 存储 控 
制 器 的 关键 难点 在 于 如 何 与 后 端 不 同 广 商 的 设备 之 间 兼 容 ， 包 括 SCSI 
Reservation 的 兼容 等 ， 以 及 如 何 发 挥 出 后 端 存储 设备 的 性 能 。 所 有 不 同 
厂商 的 设备 虽然 其 内 部 设计 等 都 不 同 ， 但 是 它们 绝对 需要 相同 的 是 前 端 
的 接口 、 包 括 物理 接口 、 数 据 接口 和 逻辑 接口 。 比 如 ， 它 们 至 少 都 支持 
主机 端 Linux 系 统 ， 包 括 文 持 Linux 下 的 文件 系统 起 始 地 址 的 对 齐 等 。 如 
果 用 一 台 Linux 服 务 器 来 连接 不 同 广 商 的 设备 ， 那 么 这 人 台 Linux 服 务 器 就 
可 以 识别 到 所 有 的 LUN 并 对 这 些 LUN 进 行 IO 操作 ， 如 果 在 这 人 台 Linux 服 
务 器 上 实现 某 种 软件 层次 ， 将 所 有 这 些 LUN 当 作物 理 磁盘 ， 在 其 上 再 次 
划分 LUN， 然 后 将 这 些 LUN 通 过 前 端 接口 映射 出 去 ， 那 么 这 不 就 是 一 台 
虚拟 存储 控制 器 了 人 么 ? 这 种 虚拟 化 技术 甚至 可 以 通过 DIY 来 实现 ， 只 要 
有 合适 的 软件 层 ， 其 他 都 不 是 问题 。 











IT 系统 内 的 最 高 深 砚 测 和 最 复杂 的 虚拟 化 技术 其 实 都 在 于 主机 端 ， 
即 诸如 Vmware 等 虚拟 机 软件 产品 及 其 附加 功能 ， 比 如 Vmotion 等 ， 以 及 
诸如 IBM 等 厂商 的 小 型 机 上 的 硬件 虚拟 化 、 分 区 、 动 态 迁 移 等 功能 ;还 
有 虚拟 化 的 最 高 境界 ， 整 合 了 几乎 所 有 虚拟 化 技术 的 云 计算 、 云 存储 、 
云 服 务 。 


本 节 仅 简要 介绍 一 下 目前 市 场 上 的 一 种 虚拟 存储 控制 促 ， 其 细 市 下 
不 作 过 多 介绍 了 ， 因 为 其 架构 并 不 复 森 。 


IBM 公 司 的 SVC 产 品 


SVC 的 全 称 为 SAN Volume Controller。 图 14-37 所 示 为 SVC 的 逻辑 架 
构图 。 


图 14-37 SVC 逻辑 架构 图 





整个 系统 架构 可 以 分 为 4 个 层次 。 第 1 层 是 后 端的 磁盘 阵列 对 外 映射 
的 LUN; 第 2 层 则 是 在 SVC 控 制 器 内 将 这 些 LUN 封 装 为 Mdisk 对 象 ， 每 个 
LUN 都 为 一 个 Mdisk， 即 Managed Dsik， 叫 法 并 不 重要 ， 只 需要 知道 
Mdisk 是 后 端的 LUN 即 可 ， 将 多 个 Mdisk 放 入 一 个 MD ne 这 个 MD 
Group 相当 于 一 个 Raid0 模 式 的 Raid 组 ， 一 个 系统 内 可 以 有 多 个 MD 
Group; 第 3 层 ，SVC 在 Raid 组 内 划分 LUN， 生 成 的 LUN 称 为 Vdisk， 即 
Virtual Disk，Vdisk 相 当 于 SVC 自 己 的 LUN; 第 4 层 ，SVC 将 这 些 自己 生 
成 的 LUN 了 映射 给 前 端 主机 使 用 。 





SVC 只 能 通过 FC 交 换 机 来 连接 后 端 存储 设备 。 前 端 主机 则 可 以 通过 
FC 交换 机 (使 用 FC 协议 访问 ) 或 者 以 太 网 交换 机 (使 用 ISCSI 协 议 访 
问 〉 来 访问 SVC。 


为 了 避免 单 点 故障 ， 每 两 台 SVC 控 制 器 (node)〉 可 以 组 成 一 个 IO 
Group， 每 个 Vdisk 同 一 时 刻 只 能 够 由 一 个 node 来 掌管 ， 当 这 个 node 故 障 
之 后 ， 与 这 个 node 同 处 一 个 IO_ Group 的 另 一 个 node 接 管 之 前 故障 node 所 
管理 的 所 有 Vdisk。 当 IO Group 中 的 两 个 node 都 故障 时 ， 其 他 IO Group 的 
node 会 接管 故障 的 node。 目 前 一 个 SVC Cluster 最 多 可 以 有 4 个 IO 
Group〈 即 8 个 node) 。Cluster 内 的 所 有 node 必 须 都 可 以 访问 后 端 对 应 的 
存储 系统 的 LUN。 图 14-38 所 示 为 一 个 8node 的 SVC Cluster。 





图 14-38 ” ”SVC 集群 示 意图 





这 种 存储 虚拟 化 模式 有 诸多 好 处 。 从 底层 方面 来 看 ， 多 个 后 端 LUN 
可 以 组 成 Raid0 而 不 用 担心 物理 磁盘 损坏 问题 ， 因 为 后 端 存储 设备 会 处 
理 这 一 切 ; Raid0 是 性 能 最 好 的 Raid 模 式 而 且 还 不 用 rebuild， 至 少 能 够 将 
后 端的 性 能 影响 屏蔽 掉 一 部 分 ，Raid0 做 成 之 后 不 需要 初始 化 过 程 ， 
LUNY 妈 可用， 方便 快捷 。 从 高 层 方面 来 看 ， 这 种 虚拟 化 网 关 设 备 可 以 
实现 。 





注意 : “规划 时 需要 注意 的 一 个 最 大 问题 是 : 一 定 要 清楚 知晓 
SVC 前 端的 LUN 到 撒 实 际 占 用 了 多 少 块 硬盘 ， 是 否 有 多 个 LUN 
共有 至 同 一 组 物理 硬盘 ， 前 端 主机 的 要 求 是 什么 ， 是 人 否 需 要 对 分 
布 于 同一 组 物理 硬盘 上 的 多 个 LUN 进 行 并 发 的 连续 IO 操 作 ， 这 
个 问题 具体 可 参考 本 书 第 19 章 。 





图 14-39 所 示 为 两 个 SVC 控 制 器 前 视图 。 








图 14-39” ”SVC 控制 器 前 视图 


除了 SVC 这 种 架构 的 虚拟 化 网 天 之 外 ， 有 些 产 品 设计 则 是 将 虚拟 化 
网 关 的 功能 集成 到 某 个 交换 机 中 ， 比 如 F5 公 司 的 某 系列 产品 就 是 将 虚拟 
化 功能 集成 到 了 以 太 网 交换 机 中 ， 或 者 说 把 以 太 网 交换 机 集成 到 服务 器 
硬件 中 ， 都 可 以 。 它 可 以 针对 后 端 NAS 设 备 作 虚拟 化 整合 和 再 分 配 、 数 
据 迁 移 等 ， 这 个 虚拟 化 网 关 将 后 端 所 有 NAS 设 备 的 共享 输出 目录 作为 一 
个 大 的 存储 空间 ， 将 这 个 空间 重新 规划 和 分 配 ， 然 后 提供 新 的 Export 目 
录 给 主机 客户 端 使 用 。 








14.9 飞 康 NSS 存 储 虚 拟 化 系统 


一 直 被 效仿 ， 从 未 被 超越 一 一 这 句 话 用 在 飞 康 身 上 很 合适 。 飞 康 是 
存储 软件 领域 的 领军 厂商 ， 专 注 于 存储 虚拟 化 、 容 灾 、CDP 与 数据 备份 
领域 。 飞 康 在 业界 的 地 位 取决 于 其 两 大 优势 产品 和 多 项 独特 技术 ， 其 一 
是 其 IO 级 粒度 回 滚 的 CDP 技 术 ， 其 二 便 是 其 多 功能 融合 的 一 体 化 存储 虚 
拟 化 产品 和 诸如 MicroScan 等 技术 。 目 前 有 长 康 刚刚 推出 了 IPStor Gen2 
Plarform 平 台 ， 其 中 包含 了 NSS、CDP、VTL 三 大 产品 系列 ， 涵 盖 了 企 
业 数 据 保 护 备份 、 容 灾 、 虚 拟 化 全 领域 。 




















飞 康 主要 面 癌 企业 级 关键 应 用 提供 容 灾 、 数 据 保 护 和 虚拟 化 方案 及 
产品 ， 目 前 在 全 球 有 几 千 个 用 户 的 部 效 案 例 。 这 家 以 技术 为 核心 的 广 
商 ， 经 过 十 余年 的 磨 练 ， 仍 然 保 持 领 完 ， 这 一 点 难能可贵。 

提示 : ”存储 软件 厂商 不 多 ， 做 出 名 符 的 就 更 少 了 。 关 于 飞 康 


的 IO 级 CDP 回 放 技 术 ， 我 将 在 第 16 章 中 详细 介绍 和 分 析 ， 本 节 
会 着 重 分 析 飞 康 的 虚拟 化 平台 中 的 一 些 特色 技术 。 





飞 康 NSS 全 称 为 Network Storage Server， 它 的 本 质 是 一 台 融 合 了 高 
级 数据 保护 、 数 据 迁 移 和 容 灾 功能 的 存储 虚拟 化 网 天， 而 存储 虚拟 化 网 
天 的 本 质 ， 就 是 一 蒜 存 储 系 统 控 制 器 ， 只 不 过 它 没 有 太 多 的 后 端 接 口 来 
接 入 大 量 的 磁盘 扩展 柜 轩 了 ， 它 的 存储 空间 需要 借用 自 其 他 存储 系统 ， 
尤其 是 那些 四 胶 上 发达、 头脑 简单 的 存储 系统 ， 这 些 系统 自身 往往 功能 和 
可 靠 性 方面 不 是 很 出 色 ， 而 此 时 如 果 加 上 NSS 存 储 虚 拟 化 网 关 的 配合 ， 
则 可 以 形成 更 强大 的 存储 系统 。 











如 图 14-40 所 示 为 飞 康 NSS 网 关 型 管理 器 前 视图 ， 其 硬件 仅 为 标准 


X86 服务器 ， 但 是 我 们 先 不 要 以 貌 取 人 。 那 些 定 制 化 的 SAN 存 储 控制 
器 ， 其 表象 上 看 似 个 性 十 足 ， 但 是 要 论 硬件 性 能 ， 不 见得 赶 得 上 标准 服 
务 器 ， 尤 其 是 那些 中 低 端 产品 。 其 次 ， 存 储 系统 的 核心 在 于 软件 ， 目 前 
的 存储 系统 里 几乎 没有 硬件 加 速 逻 辑 了 ， 因 为 这 样 做 成 本 太 高 ， 而 且 缺 
乏 灵 活性 。 所 以 各 家 的 可 靠 性 、 功 能 、 性 能 ， 完 全 取决 于 软件 的 功能 和 
优化 程度 。 如 图 14-41 及 图 14-42 所 示 为 NSS 的 高 级 技术 和 功能 一 览 。 

节 会 对 这 些 技 术 做 一 一 介绍 和 分 析 ， 我 将 飞 康 NSS 中 所 包含 的 技术 划分 
为 三 大 类 ， 分 别 为 存储 虚拟 化 相关 技术 和 产品 、 数 据 保护 相关 技术 和 产 
品 、 异 构 迁 移 和 容 灾 相关 技术 和 产品 。 























图 14-40 ”NSS 网 关 型 管理 器 前 视图 























图 14-41 NSS 网 关 型 管理 器 特色 技术 一 览 图 14-42 NSS 网 关 型 管理 器 高 级 软件 功能 
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14.9.1 存储 虚拟 化 相关 技术 


对 于 一 于 虚拟 化 产品 ， 广 泛 的 兼容 性 是 其 立足 之 本 。 虚 拟 化 本 吴 没 
有 太 多 意义 ， 无 非 束 是 借用 其 他 的 LUN， 然 后 形成 自己 的 LUN， 如 果 一 
款 产 品 仅 能 做 到 这 一 点 ， 那 么 LVM、Windows 下 的 动态 磁盘 ， 都 可 以 和 
独立 虚拟 化 产品 并 萄 齐 驱 了 。 一 款 虚 拟 化 产品 其 虚拟 化 别人 的 LUN 的 目 
的 是 为 了 提供 更 多 、 更 强 的 高 价值 服务 。 下 面 我 们 就 详细 介绍 飞 康 
IPStor 平 台所 提供 的 增值 服务 。 





SafeCache 


SafeCache 是 飞 康 IPStor 平 台 提 供 的 数据 加 速 访问 技术 。 利 用 一 些 高 
性 能 存储 介质 (比如 SSD、NVRAM 等 ) ， 这 个 技术 可 以 将 主机 下 发 的 


写 IO 数 据 像 日 志 一 样 连续 写 入 高 速 介质 ， 快 速 啊 应 主机 IO， 然 后 在 后 台 
异步 地 将 这 些 数据 刷 到 主 存储 空间 中 。 对 于 SafeCache， 系 统 需要 维护 
一 张 映射 表 来 追踪 那些 被 缓存 的 块 ， 一 旦 命中 该 映射 表 ， 则 从 
SafeCache 中 读 出 数据 。 


如 网 14-43 所 示 为 SafeCache 配 置 步 又， 首先 需要 选择 一 个 适当 大 小 
的 存储 空间 作为 Cache 空 间 ， 可 以 手动 选择 或 者 交 给 系统 自动 选择 。 然 
后 可 以 手动 配置 缓存 刷 盘 策略 ， 比 如 根据 缓存 高 水 位 线 、IO 静 默 时 间 以 
及 刷 熏 的 力度 。 还 可 以 感知 那些 写 命 令 中 的 IO， 降 低 重 复 刷 盘 的 几率 。 

















图 14-43 ”SafeCache 配 置 步 又 1 





HotZone 


HotZone 是 IPStor 平 台 下 的 另 一 个 数据 访问 加 速 功能 ， 其 与 
SafeCache 的 区 别 是 : HotZone 是 一 种 主动 的 数据 访问 速度 优化 技术 ， 而 
前 者 则 是 一 种 被 动 方式 的 优化 。HotZone 的 基本 原理 是 将 源 卷 划 分 为 多 
个 “zone”， 然 后 对 每 个 zone 统计 访问 频 党 程度 ， 最 后 将 那些 热点 zone 中 
的 数据 绥 存 到 高 速 存储 介质 中 以 加 速 读 访 问 。 








图 14-44 所 示 为 HotZone 的 配置 参数 ， 可 以 选择 绥 存 模式 ， 比 如 是 根 
掘 频繁 程度 来 将 那些 热 数据 从 低速 介质 中 迁移 到 高 速 介质 中 ， 还 是 作为 
预 读 缓存 仅仅 加 速 那些 连续 大 块 IO 读 场 景 。 有 具体 参数 可 以 配置 预 读 局 动 
临界 点 《连续 地 址 IO 被 监听 到 多 少 次 ) 、 每 次 预 读 的 容量 、 每 次 预 读 的 
IO Size、 临 界 点 时 效 周期 。 不 得 不 承认 这 些 参数 非常 专业 。 





图 14-44 HotZone 配 置 步 又 1 











图 14-45 所 示 为 HotZone 的 其 他 配置 参数 ， 包 括 手动 或 者 自动 来 选择 
充当 缓存 介质 的 存储 空间 ， 以 及 每 个 zone 的 容量 ， 最 小 容量 状 
64KB 其 实 这 么 小 的 粒度 下 ，zone 己 经 不 适合 描述 了 ，Block 更 合 
适 ) 。 还 可 以 配置 每 个 zone 在 高 速 缓存 中 被 缓存 的 最 小 时 间 。 








图 14-45 ”HotZone 配 置 步骤 2 





图 14-46 所 示 为 HotZone 其 他 配置 参数 ， 包 括 访问 频 度 统计 模式 ， 比 
如 只 读 算 、 只 写 算 ， 还 是 读 写 一 起 都 算 一 次 频 度 十 1。 右 下 图 是 一 种 可 
视 化 数据 展现 ， 图 形 化 地 展示 每 个 zone 的 访问 频繁 程度 ， 这 就 是 一 种 可 
视 化 存储 智能 。 





图 14-46 ”HotZone 配 置 步骤 3 








说 明 : ”可 能 是 之 前 搞 产品 设计 时 但 过 对 牛 弹 俊 的 原因 ， 看 到 
类 似 的 Idea 在 飞 康 产品 中 出 现 ， 心 情 很 复杂 。 





现在 不 少 厂 商 推 出 了 各 种 形态 的 固态 存储 产品 ， 从 简单 的 2.5 寸 SSD 
到 用 内 存 堆 成 的 固态 存储 系统 ， 由 于 价格 昂贵 ， 授 切 需 要 一 种 合适 的 应 
用 场景 ， 而 飞 康 NSS 虚 拟 化 设备 恰恰 提供 了 这 种 原生 文 持 ， 将 内 存 阵列 
虚拟 化 之 后 ， 用 在 SafeCache/HotZone 方 案 下 ， 是 目前 这 些 固 态 存储 系统 
性 价 比 最 高 的 归宿 了 。 








Zero Memory Copy 


这 是 一 个 很 独特 的 MO 引擎 算法 设计 。 数 据 在 通过 NSS 网 关 的 时 候 ， 
直接 写 入 后 端的 存储 ， 而 不 依赖 于 网 关 服 务 器 的 内 存 进 行 缓存 或 运算 处 











理 。 这 样 既 提高 了 数据 安全 性 ， 同 时 还 保证 了 性 能 。 一 般 来 讲 虚拟 化 网 
关 产 品 都 会 在 内 部 使 用 较 大 容量 的 RAM 作 为 数据 缓存 。 飞 康 认为 使 用 
这 种 数据 缓存 是 杯水车薪 并 且 多 此 一 举 。 虚 拟 化 设备 后 端 本 身 已 经 挂 接 
了 拥有 较 大 容量 缓存 的 存储 控制 器 ， 或 者 挂 接 各 种 新 一 代 的 内 存 阵列 产 
品 作为 全 局 缓存 〈 如 作为 前 述 Safe Cache 和 Hot Zone 的 介质 ) ， 此 时 在 
其 前 端 再 加 上 一 点 点 缓存 ， 还 不 如 不 加 ， 因 为 这 点 缓存 相 比 后 端的 缓存 
容量 是 小 巫 见 大 巫 。 更 何况 ， 仅 仅 由 于 增加 的 这 一 点 缓存 ， 由 于 实质 上 
对 生产 数据 产生 驻 留 还 将 导致 数据 安全 的 隐患 。 飞 康 对 于 企业 级 数据 安 
全 的 理解 是 深刻 的 ， 存 储 虚 拟 化 网 关 应 该 在 即便 整体 全 部 意外 故障 或 失 
效 的 时 候 也 不 会 对 原生 产 数 据 的 安全 融 来 任何 影响 。 























另外 加 了 缓存 需要 付出 三 个 代价 : 第 一 ，RAM 本 身 需要 成 本 并 需 

要 电池 维护 ， 这 不 但 增加 了 采购 成 本 也 提升 了 维护 成 本 ; 第 二 ，RAM 
的 易 失 性 要 求 双 机 的 RAM 实 时 间 对 方 同步 ，〈( 各 目 实 际 使 用 二 分 之 一 

空间 ) ， 任 何 写 入 绥 存 的 VO 只 有 在 缓存 确认 同 对 方 同步 后 才 算 写 入 成 
功 ， 这 样 ， 横 向 同步 的 设计 和 性 能 可 能 成 为 网 天 的 写 入 性 能 短 贷 ， 第 

三 ， 这 部 分 RAM 势 必要 不 断 地 刷 盘 ， 也 惑 是 刷 到 后 端 挂 接 的 存储 系统 

中 ， 批 量 刷 盘 会 对 后 端 链 路 瞬间 焊 发 式 占用 ， 一 定 程度 下 还 会 进一步 影 
啊 性 能 。 改 康 采 用 零 缓 存 找 贝 方式 ， 降 低 了 功 耗 、 复 杂 度 和 成 本 ， 虚 拟 
化 控制 器 只 作为 通道 ， 不 缓存 数据 。 在 保证 性 能 的 前 提 下 ， 保 证 了 自身 
双 机 失效 极端 情况 下 的 数据 安全 性 和 稳定 性 ， 并 且 降 低 了 成 本 。 











Alternate-READ/Smart-READ 


Raid1 是 很 简单 的 技术 ， 两 个 物理 磁盘 ， 或 者 两 个 LUN/ 卷 之 间 做 成 
镜像 关系 ， 但 是 很 少 有 产品 把 优化 做 到 极致 ， 比 如 很 多 人 认为 Raid1 的 
两 个 盘 / 卷 之 间 一 定 会 做 读 负载 均衡 ， 也 束 是 读 IO 会 轮 询 发 给 这 两 个 盘 


去 执行 ， 但 是 事实 上 ， 因 为 做 到 这 一 点 需要 额外 的 开发 ， 并 不 仅仅 是 做 
个 负载 分 发 器 简单 地 分 派 IO 就 完了 ， 还 需要 处 理 数据 一 致 性 ， 比 如 在 异 
步 镜 像 模式 下 ， 如 果 源 卷 的 某 些 数据 尚未 同步 到 镜像 卷 ， 而 此 时 分 发 器 
就 需要 先 判断 目标 IO 是 否 可 以 先 发 送 到 镜像 卷 执 行 ， 它 需要 先 搜查 元 数 
据 ( 比 如 bitmap 之 类 ) ， 这 是 需要 开发 和 验证 测试 工作 量 的 ， 一 些 头 脑 
简单 、 四 肢 发 达 的 产品 基本 是 不 会 考虑 做 这 些 优化 的 ， 因 为 很 多 用 户 本 
身 并 不 专业 ， 不 会 注意 到 或 者 理解 这 些 高 技术 含量 的 东西 ， 还 不 如 用 低 
价 十 高 硬件 配置 来 解决 问题 。 飞 康 显 然 走 的 是 男 一 条 路 线 ， 以 智 取 胜 ， 
其 Alternate-READ 技 术 ， 可 以 实现 镜像 卷 的 读 负 载 均衡 。 


























另外 ， 数 据 复制 、 快 照 等 等 功能 ， 都 需要 从 源 卷 来 读 取 数据 ， 这 显 
然 会 影响 主机 侧 的 IO 性 能 ， 飞 康 的 Smart-READ 技 术 ， 可 以 让 这 些 阵 列 
内 自身 发 起 的 读 IO 被 重 定向 到 镜像 卷 去 执行 ， 这 样 就 可 以 分 担 源 卷 的 读 
IO 压力 了 。 


提示 : 将 技术 做 到 极致 是 我 研究 飞 康 技术 以 来 的 第 一 印象 。 
图 14-47 ”选择 不 同 的 镜像 读 方 式 











如 图 14-47 所 示 ， 在 创建 存储 镜 
像 卷 的 时 候 可 以 手动 选择 三 种 镜像 讯 模式， 分 比 为 Smart-READ 模 式 、 
Alternate 模 式 和 Exclude Mirror 模 式 ， 前 两 者 上 文 已 经 介绍 过 了 ， 最 后 一 
种 模式 束 是 让 系统 永远 不 从 镜像 卷 读数 据 。 


High Availability Cluster 


NSS 文 持 集 群 互 备 模式 ， 双 控制 器 各 目 分 工 ， 各 目 对 后 端的 一 部 分 
LUN 进 行 虚拟 化 管理 ， 平 时 各 管 各 的 ， 但 是 在 一 个 控制 融 宕 机 之 后 ， 羽 
一 个 控制 砷 便 接管 起 对 方 的 LUN 继 续 做 虚拟 化 管理 。 





14.9.2 ”数据 保护 相关 技术 和 产品 


SnapShot/ Data Journaling/CDP 


每 个 卷 最 大 文 持 1000 个 快照 。 系 统 还 文 持 针对 各 种 主流 应 用 的 
Application Aware Snapshot Agent 代 理 程序 ， 可 以 实现 主流 应 用 系统 的 
数据 一 致 性 快照 。 文 持 一 致 性 组 ， 一 致 性 组 中 的 多 个 卷 之 间 可 以 保证 时 
序 一 臻 性。 支持 TimeView 现 场 预 筑 模 式 。 


提示 : ”关于 飞 康 快照 和 CDP 的 详细 描述 可 以 参考 本 书 第 16 章 
相关 内 容 。 


Recovery Agent 


Recovery Agent 是 飞 康 针 对 各 种 Windows 下 的 主流 应 用 (比如 
Exchange、SQL Server、Lotus Notes、Volume Shadow Copy Service) 所 
供 的 图 形 化 恢复 工具 ， 其 与 飞 康 NSS/CDP 设 备 、Snapshot Agent 以 及 应 
用 系统 三 方 之 间 紧 密 配合 ， 从 而 可 以 让 管理 员 在 无 需 介 入 复杂 的 应 用 系 
统 的 情况 下 ， 很 容易 地 实现 从 应 用 视角 切入 的 数据 恢复 。 








14.9.3” 异 构 迁 移 和 容 灾 相关 技术 和 产品 


SED 





Service Enabled Device， 中 文 不 好 翻译 ， 但 是 这 个 功能 是 至 关 重 要 
的 。 作 为 一 款 专 业 的 存储 虚拟 化 设备 ， 其 人 品 应 该 是 优秀 的 ， 所 谓 人 品 
优秀 ， 就 是 不 会 只 知道 强制 “霸占 ”别人 的 资源 ， 有 时 候 还 需要 懂得 借 花 
献 佛 和 激流 勇 退 。 


怎么 理解 ? 虚拟 化 产品 一 般 都 是 将 从 其 他 存储 系统 处 借 来 的 LUN 当 
做 物理 磁盘 ， 然 后 在 其 上 再 做 一 层 虚 拟 化 ， 虚 拟 出 一 堆 LUN 来 。 但 是 有 
的 时 候 ， 用 户 不 需要 二 次 虚拟 化 ， 而 要 求 之 前 的 LUN 保 持 不 变 ， 其 上 数 
据 也 不 被 损坏 ， 甚 至 连 这 个 LUN 的 厂商 、 序 列 号 等 都 保持 不 变 ， 但 是 同 
时 需要 针对 这 个 LUN 实 现 快照 、 复 制 、CDP、 镜 像 等 高 级 功能 。 男 外 ， 
在 数据 迁移 场景 下 ， 虚 拟 化 设备 必须 完全 模拟 原来 的 LUN 的 所 有 属性 ， 
因为 只 有 这 样 上 层 应 用 才能 保证 不 出 任何 兼容 性 问题 ， 同 时 把 该 LUN 中 
的 数据 透明 迁移 到 另外 的 存储 设备 中 去 ， 然 后 做 切换 ， 而 且 必须 保证 
OS 识 别 到 这 个 LUN 之 后 不 会 认为 它 是 个 新 LUN 从 而 导致 盘 符 错乱 ， 盘 
符 顺 序 必 须 保 证 一 致 ， 这 样 才 是 对 应 用 完全 透明 ， 所 以 要 求 该 LUN 的 序 
列 号 、 文 件 系统 格式 等 完全 一 致 ， 也 就 是 该 LUN 中 的 每 个 扇 区 都 不 会 被 
虚拟 化 设备 私自 去 修改 ， 这 就 是 借 花 献 佛 ， 不 将 该 LUN 写 入 自己 的 标 
签 ， 据 为 已 有 ， 这 有 点 类 似 于 带 外 虚拟 化 。 虚 拟 化 设备 会 将 原本 应 该 写 
入 原 LUN 的 标签 等 元 数据 ， 单 独 记录 在 其 他 地 方 。 








所 谓 激流 勇 退 ， 是 指 一 旦 当 虚 拟 化 设备 出 现 什 么 问题 ， 那 么 此 时 应 
用 的 IO 会 全 部 中 断 ， 业 务 停止 ， 为 了 给 这 种 情况 留 有 后 路 ， 虐 拟 化 设备 
就 必须 将 原来 的 LUN 透 明 地 传 给 主机 访问 ， 这 样 的 话 ， 当 虚拟 化 设备 出 
问题 之 后 ， 可 以 拿 挤 虚 拟 化 设备 ， 重 新 修改 LUN 有 映射， 恢复 之 前 的 拓 
扑 ， 让 主机 直接 连接 之 前 的 存储 系统 ， 此 时 主机 依然 会 识别 到 这 些 
LUN， 挂 起 之 后 盘 符 也 不 会 变化 。 但 是 如 果 虚 拟 化 设备 不 透 传 原 来 的 
LUN， 而 在 LUN 上 写 入 了 自己 的 管理 标签 ， 并 且 对 这 些 LUN 做 了 二 次 虚 
拟 化 之 后 ， 那 么 一 旦 虚拟 化 设备 出 了 问题 ， 将 不 会 有 任何 设备 能 够 识别 
这 些 LUN， 因 为 这 些 LUN 里 的 格式 已 经 不 是 物理 硬盘 的 普通 分 区 格式 
了 ， 甚 至 连 MBR/GPT 格 式 都 不 是 ， 而 是 虚拟 化 设备 三 商 私 有 的 格式 ， 
所 以 OS 根 本 挂 不 起 来 这 些 LUN， 只 会 认 到 “新 磁盘 ”， 会 提示 “需要 格式 
化 ”， 所 以 此 时 除非 找到 同样 广 商 的 同样 设备 来 恢复 业务 ， 否 则 业务 就 








要 一 直 集 机。 所 以 专业 的 虚拟 化 设备 部 会 提供 这 种 LUN 透 传 模式 。 这 种 
模式 俗称 “逃生 模式 ”。 


如 图 14-48 所 示 为 飞 康 NSS 设 备 所 提供 的 两 种 模式 。 可 以 看 到 ， 在 
SED 模 式 下 ， 系 统 还 可 以 让 用 户 选 择 是 否 连 原 LUN 的 厂商 信息 等 也 完全 
保留 〈Preserve physical device inquiry string) ， 比 如 原来 的 LUN 是 厂商 
A 存 储 系统 的 ，OS 设 备 管 理 器 里 是 可 以 识别 到 三 商 A 的 ， 其 底层 其 实 是 
使 用 了 SCSI Inquiry LUN 命 令 来 得 到 这 些 信息 的 ， 虚 拟 化 设备 只 要 用 原 
LUN 的 这 些 信息 来 响应 主机 的 SCSI Inquiry LUN 命 令 即 可 。 




















图 14-48 ” ”SED 模式 和 普通 虚拟 化 模式 





SED 模 式 的 LUN 可 以 被 快照 (必须 为 CoFW 模 式 ) 、 镜 像 、 复 制 ， 
但 是 不 能 被 Enable Thin Provision， 因 为 Thin Provision 会 改变 原 LUN 中 原 
有 的 数据 布局 ， 导 致 不 可 能 透 传 给 主机 使 用 。 

















提示 : 数据 迁移 为 何 有 难度 ?就 是 因为 要 尽量 缩短 停机 时 
间 。 假 设 可 以 无 限 停机 ， 那 么 此 时 完全 可 以 用 dd 来 盘 对 盘 复 制 
实现 数据 迁移 ， 迁 移 前 和 迁移 后 ， 两 个 盘 上 的 每 个 局 区 都 是 一 
样 的 。 但 问题 是 停机 不 能 太 久 ， 和 否则 dd 根本 搞 不 定 ，dd 不 文 持 
在 源 LUN 不 停 地 接受 写 IO 的 同时 ， 还 能 把 这 些 新 的 更 新 数据 同 
步 迁 移 到 对 端 去 。 那 么 是 否 可 以 使 用 LVM 或 者 软 Raid 来 将 两 个 
LV 做 镜像 ， 同 步 之 后 ， 拿 掉 源 存储 系统 呢 ? 完全 可 以 ， 但 是 

要 求 应 用 主机 必须 使 用 LVM 或 者 软 Raid， 另 外 有 些 应 用 或 者 主 
机 根本 不 使 用 LYVM， 就 直接 用 /dev/sda， 此 时 LVM/ 软 Raid 没 

办 。 那 么 ， 人 针对 /dev/sda， 是 否 可 以 先 用 LVM 将 两 个 /dev/sdxx 
设备 做 镜像 ， 然 后 再 让 LVM 退 出 ， 还 原 成 /dev/sda 的 原 有 格 

式 ? 不 可 能 ， 要 将 某 个 /dev/sdx 纳 入 LVM 的 管理 ， 那 么 LVM 便 


程 ， 


会 癌 其 中 写 入 目 己 的 管理 标签 和 元 数据 ， 这 就 已 经 破坏 了 该 
LUN 中 原 有 的 数据 了 ， 就 更 别提 还 原 了 。 所 以 ， 数 据 迁 移 场 
景 ， 必 须 使 用 类 似 飞 康 SED 这 种 模式 。 


MicroScan 


远程 数据 复制 ， 本 质 上 没什么 技术 含量 ， 无 非 就 是 将 数据 复制 到 远 
这 就 像 从 网 站 上 下 载 一 个 文件 到 本 地 一 样 。 虽 然 企 业 的 数据 容 灾 链 





路 如 我 们 的 Internet 一 样 也 是 包月 的 ， 但 却 是 专用 的 、 不 与 其 他 人 共 至 


的 ， 


价格 高 、 带 宽 低 、 时 延 大 。 企 业 每 天 都 会 产生 大 量 数 据 ， 在 这 种 低 





市 宽 、 高 时 延 链 路 下 进行 数据 复制 ， 就 得 用 一 些 特殊 的 技术 。 飞 康 
MicroScan 是 其 专利 技术 ， 能 够 节约 大 量 数据 复制 流量 ， 让 企业 可 以 用 
更 低 带宽 的 链 路 达到 其 他 数据 复制 产品 同样 的 效果 。 





提示 : 首先， 多数 人 不 知道 的 一 个 事实 是 ， 数 据 复制 时 产生 
有 大 量 元 余 ， 源 和 目的 端 本 来 就 相同 的 数据 ， 被 复制 到 远 端 ， 

究 其 原因 ， 是 因为 底层 磁盘 是 按照 512Byte 扇 区 作为 最 小 IO 粒 
度 ， 而 文件 系统 一 般 使 用 4KB 作 为 最 小 管理 粒度 ， 上 层 Page 

Cache 同 样 也 是 4KB。 如 果 应 用 要 更 新 某 个 字 节 ， 那 么 文件 系 
统 也 会 将 这 几 个 字 节 所 落 入 的 4KB 数 据 块 读 入 Page Cache， 然 
后 更 新 这 几 个 字 节 ， 再 写 入 整个 4KB 块 ， 这 就 是 读 写 惩罚 ， 本 
书 第 19 章 会 对 这 个 现象 做 详细 分 析 。 这 样 的 话 ， 假 设 应 用 只 更 
新 了 一 个 字 节 ， 那 么 文件 系统 白白 读 出 了 4096 字 节 ， 又 和 白白 写 
入 了 4095 字 节 ， 而 底层 的 数据 复制 引擎 也 就 必须 将 这 4095 字 他 
宛 余 数据 再 次 复制 到 远 端 ， 虽 然 远 端的 这 4095 字 节 与 本 地 的 

4095 字 节 一 模 一 样 。 








MicroScan 技 术 可 以 降低 上 述 元 余 粒 度 到 一 个 忆 区， 只 要 某 个 而 区 


发 生变 化 ， 那 么 不 管 上 层 是 按照 什么 粒度 来 管理 存储 空间 的 ， 也 不 管 上 
层 的 写 您 齐 有 多 大 ， 压 层 会 及 现 那 些 发 生 了 变化 的 出 区， 从 而 只 复制 这 
些 局 区 到 远 端 。 


提示 : ”这 项 技术 的 底层 原理 ， 有 技术 感觉 的 读者 一 眼 就 可 以 
判断 出 ， 一 定 是 利用 了 与 重 删 一 样 的 技术 ， 就 是 算 Hash。 没 

错 ， 但 是 重 删 的 目的 是 把 数据 压 实 以 缩小 体积 ， 而 MicroScan 
的 目的 是 发 现 变 化 ， 节 省 复制 的 带宽 。 所 以 我 在 此 推测 一 下 

MiicroScan 技 术 的 底层 原理 。 首 先 ， 在 初次 复制 之 前 ， 复 制 引 

擎 一 定 会 对 源 LUN 整 盘 的 每 个 局 区 都 计算 一 个 hash 值 然后 保存 
起 来 ， 按 照 64bit hash 值 来 算 ，1TB 的 LUN 就 需要 16GB 的 hash 存 
储 空间 /hash 库 ， 这 些 hash 值 必须 按照 局 区 顺序 来 排序 以 加 快 IO 
速度 ，hash 库 只 会 被 保存 在 源 端 。 





当 数 据 复 制 还 没有 开始 之 前 ， 每 当 源 着 发生 一 笔 写 IO， 系 统 便 会 以 
而 区 为 单位 算 好 新 数据 的 hash， 然 后 异步 更 新 到 hash 库 里 ， 这 样 ，hash 
库 时 刻 处 于 最 新 状态 。 当 数据 复制 开始 之 后 ， 第 一 笔 针 对 源 卷 的 写 IO， 
系统 同样 会 以 扇 区 为 单位 计算 其 hash 值 ， 然 后 从 hash 库 中 对 应 偏 移 处 取 
出 针对 这 笔 IO 目 标 地 址 处 所 存放 的 原来 数据 的 hash 值 ， 进 行 比 对 ， 发 现 
哪些 而 区 的 hash 值 发 生 了 变化 ， 然 后 便 同 一 个 链表 中 退 加 提交 该 发 生变 
化 的 扇 区 ， 等 待 复制 〈 须 先 搜索 该 链表 ， 查 看 是 否 之 前 已 经 有 针对 该 扇 
区 的 复制 任务 ， 如 条 有 便 删 除 之 ， 以 最 新 的 为 准 ， 这 样 可 以 保证 IO 复制 
的 时 序 一 致 性 ) 。 由 于 hash 库 是 完全 按照 局 区 地 址 排序 的 ， 所 以 不 存 
在 “搜索 ”这 一 步 ， 系 统 直 接 僚 用 偏 移 量 算式 代入 一 步 即 可 得 出 目标 hash 
的 位 置 ， 然 后 直接 发 起 IO 读 出 hash 数 据 比 对 即 可 ， 所 以 虽然 元 数量 非常 
大 ， 但 是 根本 无 须 载 入 内 存 。 





如 图 14-49 所 示 为 MicroScan 技 术 能 够 节省 的 带宽 比例 。 


图 14-49 ”MicroScan 技 术 效 果 示 意图 





RecoverTrac 


容 灾 最 难 的 是 什么 ? 不 是 数据 复制 ， 不 是 配置 安装 ， 而 是 前 期 规划 
和 平时 的 运 维 管理 和 演练 ， 当 真有 灾难 发 生 的 时 候 ， 切 换 就 是 点 一 下 鼠 
标 ， 一 锤子 买卖 的 事情 。 有 些 双 机 HA 产品 ， 它 们 规划 、 管 理 非常 简 
单 ， 因 为 往往 只 有 两 台 机 器 和 一 套 应 用 。 但 是 如 条 是 从 双 机 到 多 机 “〈 比 
如 几 十 台 机 器 ) ， 再 到 虚拟 机 《比如 几 百 台 机 器 ) ， 应 用 也 从 一 套 单一 
应 用 到 多 人 套 应 用 ， 而 且 应 用 之 间 相 互 关联 依赖 ， 对 于 这 样 一 个 系统 的 容 
灾 ， 其 管理 复杂 上 度 就 很 高 了 ， 和 需要 一 个 集中 的 容 灾 管 理 系统 来 儿 助 管理 
员 管 理 容 灾 体 系 。 














Stretched Cluster 


与 众多 厂商 的 Stretched Cluster 解 决 方案 架构 一 样 ， 在 用 户 的 两 个 数 
据 中 心 分 别 部 署 一 套 存储 和 一 台 NSS 存 储 虚 拟 化 网 关 ， 两 个 数据 中 心 
NSS 存 储 虚 拟 化 系统 互 为 备份 ， 两 套 存 储 系统 可 以 是 不 同 品 牌 ， 通 过 飞 
康 NSS Stretched Cluster 虚 拟 化 网 关 互 为 镜像 保护 ， 两 台 NSS 存 储 虚 拟 化 
网 关 都 可 以 对 外 提供 服务 ， 把 磁盘 卷 分 配给 各 自 站 点 的 主机 使 用 ， 也 就 
是 实现 了 两 个 站 点 负载 的 相互 分 担 。 











在 两 个 数据 中 心 均 工 作 的 情况 下 ， 当 菜 一 数据 中 心 NSS 虚 拟 化 网 关 
发 生 故 障 时 ， 男 一 数据 中 心 的 NSS 虚 拟 化 网 关 可 以 自动 接 省 故障 NSS 上 
运行 的 任务 ， 接 管 过 程 大 约 需 要 20 秒 左右 ， 业 务 系统 运行 不 会 中 断 ， 保 
证 了 业务 系统 的 连续 运行 。 当 菜 一 数据 中 心 存储 系统 故障 时 ， 作 为 镜像 
的 男 一 数据 中 心 存储 自动 顶替 生产 ， 上 层 运 行 的 应 用 系统 和 数据 库 系统 


对 存储 的 故障 无 任何 感知 ， 业 务 系统 运行 不 会 受到 任何 影响 ， 从 而 保证 
了 业务 的 连续 性 。 当 发 生 主机 系统 故障 时 ， 可 以 由 主机 层 的 HA 环境 目 
动 切换 应 用 系统 和 数据 库 系 统 程序 到 另 一 个 数据 中 心 的 主机 上 运行 。 





为 了 防止 脑 裂 现象 ， 飞 康 NSS Stretched Cluster 引 入 了 一 个 第 三 方 仲 
裁 机 制 一 Tiebreaker 仲 裁 。 它 与 两 个 NSS 存 储 虚 拟 化 网 关 的 电源 控制 模块 
进行 通信 ， 支 持 IPMI 和 HP iLO。Tiebreaker 服 务 器 通过 网 络 监 控 Cluster 
节点 的 电源 控制 模块 ， 当 Cluster 虚 拟 化 网 关 之 间 无 法 判断 对 方 状态 时 ， 
Tiebreaker 会 对 收 不 到 啊 应 的 虚拟 化 网 关 进 行 重 置 。 阻 止 两 个 节点 都 加 
存储 尝试 写 入 的 情况 发 生 ， 从 而 避免 数据 不 一 致 现象 。 


第 15 章 ” 众 兰 成城 一 仓储 集群 
四 分 布 式 

集群 

qm 高 可 用 性 集群 

a 负载 均衡 集群 

@ 高 性 能 集群 


随 着 应 用 程序 对 服务 器 和 存储 系统 的 要 求 越 来 越 高 ， 对 于 传统 设备 
来 说 ， 比 如 PC、PC 服 务 器 、 小 型 机 服务 器 等 ， 单 台 设备 有 时 已 经 不 能 
满足 需求 了 。 此 时 虽然 可 以 使 用 大 型 机 ， 在 单一 设备 上 提供 更 高 的 性 
能 ， 但 是 大 型 机 的 物质 成 本 和 维护 成 本 是 高 不 可 擎 的， 而 且 大 型 机 也 不 
见得 适合 所 有 应 用 。 怎 么 办 呢 ? 众人 拾 荣 火焰 高 ， 人 们 想 出 了 一 种 办 法 
来 应 对 日 益 扩 张 的 应 用 程序 需求 ， 束 是 用 多 台 设 备 联合 起 来 对 外 提供 服 
务 ， 这 就 是 集群 。 








主机 可 以 形成 集群 ， 存 储 设备 一 样 可 以 形成 集群 。 目 前 中 高 端 人 存储 
设备 其 目 身 就 具备 双 控制 器 。 不 但 如 此 ， 有 一 些 NAS 设 备 还 可 以 在 众多 
台独 立 设 备 之 间 形 成 集群 ， 并 且 实 现 了 单一 名 称 空间 ， 即 用 户 访问 目录 
路 径 像 访问 一 台 机 器 一 样 ， 而 实际 上 ， 可 能 是 由 集群 中 不 同 的 节点 来 提 
供 服务 。 





15.1 集群 概述 


用 多 个 市 把 来 代 瞪 一 个 节 扣 完成 任务 ， 坚 无 疑问 是 为 了 提 忆 处理 能 
力 。 其 次 ,集群 还 可 以 做 到 高 可 用 性 ， 即 一 旦 某 个 节点 发 生 故 障 ， 不 能 
再 继续 参与 计算 ， 那 么 集群 中 的 其 他 市 点 可 以 立即 接 丛 故障 市 点 的 工 
作 。 





15.1.1 高 可 用 性 集群 (HAC) 





在 HA 集群 中 ， 节 点 分 为 活动 节点 和 备份 节点 。 活 动 节 点 就 是 正在 
执行 任务 的 节 点 ;备份 节点 是 活动 节点 的 备份 。 一 旦 活动 节点 发 生 故 
障 ， 则 备份 节点 立即 接 丛 活动 节点 来 执行 任务 。 高 可 用 性 集群 的 实现 是 
基于 资源 切换 的 。 所 谓 “ 资 源 ” 是 指 HA 集 群 中 某 个 节点 发 生 故 障 之 后 ， 
备份 节点 所 要 接管 的 任何 东西 的 一 个 抽象 的 词汇 。 比 如 ， 在 茶 个 节 氮 发 
生 故 障 之 后 ， 其 对 应 的 备份 节 上 把 ， 需 要 接 省 故障 节点 上 的 IP 地 址 、 主 机 
名 、 和 磁盘 卷 、 应 用 程序 的 上 下 文 等 ， 这 样 才能 将 对 客户 端 造成 的 影响 缩 
减 到 最 小 。 这 些 和 被 接管 的 实体 ， 便 被 称 为 资源”。 资 源 的 监控 和 接管 ， 
依 笔 于 HA 软件 。 目 前 存在 多 种 HA 软件 。 每 种 操作 系统 几乎 都 自 带 HA 
软件 ， 它 的 作用 惑 是 监控 对 方 市 点 的 状态 ， 一 旦 侦 测 到 对 方 的 任何 故 
障 ， 那 么 便 会 强行 将 所 有 资源 占 为 己 有 并 癌 客 户 器 继续 提供 服务 。 























15.1.2 ”负载 均衡 集群 (LBC ) 


在 负载 均衡 集群 中 ， 集 群 中 的 所 有 节点 都 参与 工作 ， 每 个 节点 的 地 
位 相同 ， 接 受 的 工作 量 按照 某 种 策略 ， 由 一 个 单独 的 节操 作为 调度 来 问 
其 他 所 有 参与 运算 的 节点 分 配 ， 或 者 由 所 有 参与 运算 的 节 氮 之 间 通 过 网 
络 通信 来 协商 分 配 。 分 配 策略 如 轮流 分 配 、 随 机 分 配 、 最 小 压力 分 配 








等 。 
15.1.3 ”高 性 能 集群 (HPC) 


高 性 能 集群 ， 又 称 科学 计算 集群 。 这 种 集群 其 实 与 LBC 集 群 的 本 质 
是 相同 的 。 只 不 过 其 专用 于 科学 计算 ， 即 超大 运算 量 的 系统 ， 比 如 地 质 
勘探 、 气 象 预测 、 分 子 筛选 、 仿 生 模 拟 、 香 白质 构 型 、 分 子 药物 分 析 、 
人 工 智能 等 。 这 些 运算 要 么 逻辑 复 休 ， 要 么 需要 大 量 穷 举 ， 会 耗费 大 量 
的 CPU 和 内 存 资源 。 有 些 需 要 几 天 、 几 个 月 甚至 半年 才能 执行 完毕 。 此 
时 ， 增 加 整个 系统 的 CPU 总 核心 数 ， 可 以 成 倍 地 缩短 执行 时 间 。 














提示 : ”记得 笔者 在 大 学 做 作业 设计 的 时 候 ， 有 个 同学 的 课题 
就 是 分 布 式 计算 ， 这 课题 也 简单 ， 就 是 第 一 天 将 任务 执行 上 ， 
一 个 月 之 后 结果 出 来 了 ， 写 论文 、 答 辩 。 那 时 候 的 计算 机 上 用 
的 都 是 Intel 奔 腾 4 的 CPU， 倘 知 用 现在 的 酷 岭 多核 CPU， 我 想 
只 需要 十 几 天 便 可 以 出 结果 。 








HPC 集 群 中 ， 为 了 增加 整个 系统 的 CPU 核心 数 ， 一 般 引 入 十 几 台 或 
者 几 十 台 、 几 百人 台 计 算 机 ， 其 中 每 全 计算机 又 可 以 有 多 个 物理 CPU， 每 
个 CPU 又 可 以 有 多 个 核心 。 这 样 整 个 系统 的 CPU 核心 数 会 相当 可 观 。 那 
么 如 何 利用 这 么 多 的 CPU 了 呢 ? 如 何 将 任务 平均 分 配 到 每 个 CPU 核心 上 
呢 ? 


Windows 2000 以 后 的 Windows 系 统 ， 操 作 系 统 默认 便 上 自动 文 持 同 一 
台 计 算 机 内 的 多 个 CPU 或 者 多 个 CPU 核心 ， 操 作 系 统 自动 将 多 个 线程 平 
摊 到 多 个 CPU 核心 上 运行 。 但 是 对 于 不 处 于 同一 台 计 算 机 内 的 CPU 来 
说 ， 任 务 将 要 怎么 分 配 到 其 他 节点 上 呢 ? 当然 是 通过 网 络 了 。 为 了 方便 
编程 出 现 了 很 多 API， 为 程序 员 屏 蔽 挥 多 CPU 所 市 来 的 编程 复杂 上 度 ， 程 




















序 员 只 要 按照 这 些 API 规 范 来 编写 代码 ， 底 层 便 会 自动 将 运算 任务 分 派 

到 网 络 上 的 其 他 运算 节点 上 。 节 点 接收 到 任务 数据 之 后 ， 再 由 节点 操作 
系统 自行 将 这 块 任 务 数据 分 派 到 贡 点 的 多 个 CPU 核心 上 。MPI 便 是 一 个 

目前 广泛 应 用 的 HPC 系 统 API。 





15.2 ”集群 的 适用 范围 

集群 可 以 实现 在 系统 路 径 的 任何 点 上 。 

硬件 上 : CPU、 内存、 显卡 、 显 示 终 端 、 以 太 网 卡 、 计 算 机 本 身 、 
以 太 网 及 了 网络 设 备 、FC 卡 、FC 网 络 交 换 设 备 、 磁 盘 阵 列 控制 器 本 


身 、 磁 盘 阵 列 控制 锅 内 部 的 各 个 组 件 、 磁 盘 本 身 、 磁 盘 内 部 的 多 片 盘 片 
和 多 个 磁头 。 





软件 上 : 应 用 程序 、 文 件 系 统 、 卷 管理 系统 。 
什么 时 候 需 要 实现 集群 呢 ? 


当 茶 个 系统 的 处 理 能 力 不 能 满足 性 能 要 求 的 时 候 ， 可 考虑 使 用 负载 
均衡 集群 或 者 高 性 能 集群 ， 当 追求 系统 的 高 可 用 性 时 ， 即 希望 东 处 故障 
不 会 影响 整个 系统 的 可 用 性 的 时 候 ， 使 用 高 可 用 性 集群 ， 当 需要 运算 的 
数据 量 很 大 ， 运 算 周期 很 长 的 时 候 ， 可 考虑 实施 高 性 能 集群 。 


目前 ， 各 大 知名 网 站 一 般 都 采用 负载 均衡 集群 来 均衡 TCP 连 接 请 
求 。 由 于 这 些 网 站 每 天 的 访问 量 很 大 ， 同 时 产生 的 TCP 连 接 请 求 也 很 
多 ， 所 以 如 果 只 用 一 合计 算 机 来 接受 这 些 请 求 ， 根 本 满足 不 了 性 能 ， 甚 
至 会 造成 这 台 机 器 资源 耗 尽 而 死机 。 基 于 Linux 系 统 的 LVS， 是 由 国人 
主持 研发 的 一 种 TCP 负 和 载 均衡 软件 ， 被 广泛 用 于 TCP 连 接 压 力 很 大 的 系 
统 下 。LVS 可 以 基于 很 多 琐 略 来 将 前 端的 请 求 分 挫 到 后 端的 多 台 计 算 机 
上 。 其 本 质 就 是 一 个 基于 策略 的 TCP 包 转发 引擎 。 

















对 于 比较 重视 全 建设 的 企业 、 重 要 的 应 用 系统 ， 都 可 实施 HA 集群 
来 奶 求 高 可 用 性 ， 从 而 避免 故 隐 造 成 的 生产 停顿 。 各 大 科研 院 所 、 气 








象 、 石 油 勘探 等 机 构 ， 由 于 其 需要 很 大 的 运算 量 和 运算 周期 ， 一 般 都 有 
HPC 集 群 。 


15.3 系统 路 径 上 的 集群 各 论 
15.3.1 硬件 层面 的 集群 





图 15-1 中 季 头 指 同 的 部 件 都 可 以 被 集群 化 。 


图 15-1 ”系统 路 径 上 可 实现 集群 的 各 处 











(1) CPU 的 集群 。 应 用 在 多 CPU 的 计算 机 系统 ， 比 如 对 称 多 处 理 
器 系统 ， 多 个 CPU 之 间 共 享 物理 内 存 的 共同 协作 。 目 前 的 服务 器 以 及 小 
型 机 系统 大 多 为 这 种 结构 。 


(2) 内 存 的 集群 。 多 条 物理 内 存 组 成 更 大 容量 的 空间 ， 并 且 通 过 
比如 双 通 道 (相当 于 磁盘 系统 中 的 条 市 化 RAID 0) 等 技术 ， 提 高 性 能 。 








(3) 以 太 网 卡 的 集群 。 目 前 有 多 种 方式 来 实现 以 太 网 卡 的 集群 。 
将 主机 上 的 多 块 以 太 网 卡 绑 定 ， 加 上 层 提供 一 块 虚拟 网 卡 ， 确 层 则 可 以 
通过 ARP 轮 询 负载 均衡 方式 ， 或 者 802.3ad 方 式 等 向 外 提供 负载 均衡 ， 或 
者 HA 方式 的 多 路 径 访问 。 





(4) 以 太 网 及 IP 网 络 设备 的 集群 。 在 以 太 交 换 机 和 IP 路 由 器 上 ， 
台 设 备 之 间 协 作 转 发 网 络 数据 包 〈 帧 ) ， 诸 如 Cisco、 华 为 等 厂商 都 
己 经 实现 了 负载 均衡 以 及 HA 方式 的 集群 。 


(5) 显卡 的 集群 。 显 卡 集群 是 最 近 出 现 的 技术 。NVIDIA 以 及 
AMD 公 司 都 有 对 应 的 解决 方案 。 将 插 在 总 线 上 的 多 块 显卡 通过 特殊 连 
线 连接 起 来 ， 实 现 对 大 型 3D 数 据 泻 染 的 负载 均衡 ， 性 能 得 到 很 大 提 
HS 








(6) 显示 器 集群 。 比 如 电视 墙 等 。 但 是 这 个 严格 来 说 并 不 算 作 集 
群 。 


(7) FC 卡 的 集群 。 通 过 与 主机 上 的 多 路 径 软件 配合 ， 多 块 FC 卡 之 
间 可 以 实现 流量 的 负载 均衡 和 HA。 或 者 通过 FC 网 络 中 的 ISL 链 路 负载 均 
衡 、HA 方 式 实现 流量 分 挫 。 


(8) FC 网 络 设备 的 集群 。 目 前 来 说 ，FC 网 络 设备 并 没有 像 以 太 网 
以 及 IP 网 络 设备 那样 实现 负载 均衡 以 及 HA。 但 是 很 多 网 络 存储 系统 
中 ， 一 般 都 部 署 多 台 FC 交 换 机 以 避免 单 点 故障 ， 但 是 这 个 环境 中 的 FC 
交换 机 本 身 并 没有 集群 智能 ， 所 有 集群 逮 辑 都 运行 在 FC 节 点 上 。 





(9) 磁盘 阵列 控制 器 集群 。 目 前 几乎 中 高 端的 磁盘 阵列 的 控制 吉 
都 为 双 控 架 构 ， 两 个 控制 器 之 间 可 以 为 HA 关系 ， 或 者 为 负载 均衡 头 
系 。 

(10) 磁盘 的 集群 。 典 型 的 磁盘 集群 就 是 RAID 系 统 ，7 种 
RAID“〔〈 磁 盘 集 群 ) 方式 ， 这 里 就 不 多 描述 了 。 其 次 磁盘 内 部 的 多 块 盘 
片 ， 多 个 磁头 之 间 也 组 成 了 集群 ， 但 这 并 不 能 算 作 集群 ， 因 为 同一 时 刻 
只 能 有 一 个 磁头 在 读 写 。 


15.3.2 ”软件 层面 的 集群 








软件 层面 的 集群 如 图 15-2 所 示 。 





图 15-2 ”软件 层面 的 集群 


1. 应 用 程序 的 集群 


一 个 应 用 程序 可 以 同时 局 动 多 个 实例 《进程 ) ， 共 同 完成 工作 。 应 
用 程序 的 不 同 实例 可 以 运行 在 同一 台 机 器 上 ， 也 可 以 运行 在 不 同 的 机 器 
上 ， 之 间 通 过 网 络 交 互 协商 信息 。 








2. 文件 系统 的 集群 


文件 系统 的 集群 是 一 门 比较 独立 的 课题 。 可 以 实现 集群 功能 的 文件 
系统 称 为 集群 文件 系统 。 比 如 NFS、CIFS 等 网 络 文件 系统 ， 就 是 最 简单 
的 集群 文件 系统 。 





集群 文件 系统 的 出 现 主要 是 为 了 解决 三 个 问题 : 容量 、 性 能 、 共 


刷 


(1) 容量 问题 。 集 群 文件 系统 有 一 类 叉 被 称 为 分 布 式 文件 系统 。 
即 茶 个 全 局 目录 下 的 存储 空间 ， 实 际 上 是 分 布 在 集群 中 的 各 个 节点 上 
的 。 分 布 式 文件 系统 将 每 个 节点 上 的 可 用 空间 进行 虚拟 的 整合 ， 形 成 一 
个 虚拟 目录 ， 并 根据 多 种 策略 来 判断 数据 的 流 癌 ， 从 而 将 写 入 这 个 目录 
的 数据 对 应 成 实际 存储 空间 的 写 入 。 这 样 便 可 以 做 到 集群 中 的 整合 存 
储 ， 充 分 利用 集群 的 资源 优势 。 











(2) 性 能 问题 。 用 多 个 节点 共同 协作 来 获取 高 性 能 ， 这 在 文件 系 
统 层 次 依然 成 立 。 集 群 文件 系统 使 得 每 个 节点 不 必 连 接 帅 贵 的 磁盘 阵 
列 ， 就 可 以 获得 较 高 的 文件 IO 性 能 。 在 分 布 式 文件 系统 的 虚拟 整合 目录 
的 做 法 之 上 ， 又 采取 了 类 似 磁 盘 条 带 RAID 0 的 处 理 方式 ， 依 据 各 种 负载 
均衡 策略 ， 将 每 次 IO 写 入 的 数据 ， 分 挫 到 所 有 节 扣 上 ， 市 扩 获 得 的 性 能 
越 多 提升 就 越 大 。 但 这 只 是 理论 情况 ， 实 际 使 用 起 来 集群 文件 系统 并 不 
是 一 个 容易 实施 的 系统 ， 实 施 之 后 想 要 获得 高 性 能 ， 必 须 经 过 长 时 间 的 
优化 调试 过 程 。 











(3) 共有 至 访问 。 集 群 文件 系统 所 解决 的 最 后 一 个 问题 ， 也 是 最 为 
和 章 要 的 一 个 问题 ， 束 是 多 节点 共同 访问 相同 目录 和 相同 文件 的 问题 。 集 
群 文件 系统 对 多 个 季 点 ， 同 时 读 写 相同 的 文件 做 了 很 周全 的 考虑 ， 能 保 
证 所 有 节点 都 能 读 到 一 致 性 的 数据 ， 并 且 利 用 分 布 式 锁 机 制 保证 在 允许 
的 性 能 下 ， 贡 反之 间 不 会 发 生 写 冲突 。 








常见 的 集群 文件 系统 有 PVFS、PVFS2、Lustre、GFS、GPFS、 
DFS、SANFS、SANergy 等 ， 这 里 就 不 做 过 多 介绍 了 。 


3. 卷 管理 系统 的 集群 








本 机 的 卷 可 以 与 本 机 卷 或 者 远程 计算 机 上 的 卷 进行 镜像 等 协同 操 
作 ， 形 成 集群 。 





15.4 实例 : Microsoft MSCS 软 件 实 现 应 用 集群 


Windows Server 2003 集 群 要 求 每 台 服 务 器 上 人 至少 有 两 块 以 太 网 络 适 
配器 ， 一 块 作为 公用 网 络 适 配器 (连接 外 部 网 络 ) ， 一 块 作为 专用 网 络 
适配器 (用 于 心跳 检测 ) 。 集 群 中 的 所 有 节点 必须 在 同一 个 域 中 ， 一 般 
双 机 环 卉 中 直接 使 用 其 中 一 台 为 主 域 控 制 右 ， 男 一 台 为 备份 域 控 制 器 。 


15.4.1 在 Microsoft Windows Server 2003 上 安装 MSCS 


使 用 "控制 面板 ?的 “添加 /删除 程序 "工具 ， 次 加 Windows 组 件 ， 安 闭 
集群 服务 。 


(1) 在 管理 工具 某 单 中 打开 集群 管理 器 ， 当 弹出 集群 连接 癌 导 
时 ， 选 择 “ 创 建新 集群 "， 并 单 击 “ 下 一 步 ” 按 钮 继续 ， 如 图 15-3 所 示 。 








图 15-3 ”创建 新 集群 








(2) 输入 集群 的 唯一 NetBIOS 名 称 ( 最 多 15 个 字符 ) ， 单 击 “ 下 一 
步 * 按 钮 ， 如 图 15-4 所 示 。 


图 15-4 ”输入 集群 名 称 





(3) 如 果 在 本 地 登录 一 个 不 属于 “具有 本 地 管理 特权 的 域 账户 ”的 
账户 ， 同 导 会 提示 用 户 指 定 一 个 账户 ， 如 图 15-5 所 示 。 





图 15-5 ”输入 集群 账户 信息 


(4) 确认 将 要 作为 第 一 个 节点 创建 集群 的 服务 器 的 名 称 ， 如 图 15- 
6 所 示 。 


图 15-6 输入 节点 名 称 





(5) 安装 程序 将 分 析 节 点 ， 查 找 可 能 导致 安装 出 现 问题 的 软 硬 问 
题 。 检 查 所 有 警告 或 错误 信息 。 单 击 “* 详 细 人 信息” 按钮 可 以 了 解 有 关 每 个 
警告 或 提示 的 详细 信息 ， 如 图 15-7 所 示 。 





图 15-7 检查 集群 配置 环境 


(6) 输入 唯一 的 集群 IP 地 址 (只 能 用 于 管理 ， 不 能 用 于 客户 端 连 
接 ) ， 如 图 15-8 所 示 。 


图 15-8 ”输入 集群 了 了 地 址 


a 输入 在 安装 时 创建 的 集群 服务 账户 的 “用 户 名 ”> 和”* 密 码 ”。 

a 集群 配置 完成 ， 单 击 “ 完 成 ”按钮 结束 。 

a 集群 配置 完成 后 ， 选 择 磁 盘 阵 列 上 的 一 个 LUN 为 仲裁 盘 。 

a 完成 节点 1 的 配置 后 ， 在 另 一 台 机 器 上 也 安装 集群 服务 ， 完 成 后 
打开 集群 管理 器 。 

a 当 弹 出 集群 连接 向 导 时 ， 选 择 “< 加 入 现 有 的 集群 "， 根 据 问 导 完成 
节点 2 的 配置 。 














提示 : ”仲裁 磁盘 (‘Quorum Disk) 用 于 存储 集群 配置 数据 库 检 
得点 ， 以 及 协助 管理 集群 和 维持 一 致 性 的 日 志文 件 。 仲 裁 盘 可 
以 是 一 个 逻辑 分 区 ， 也 可 以 是 一 个 单独 的 磁盘 。 


15.4.2 ”配置 心跳 网 络 
(1) 局 动 “ 集 群 管理 器 ”。 


(2) 在 左 窗 格 中 ， 单 击 “ 集 群 配 置 ”， 再 单 击 “网 络 "”， 右 击 用 于 专 





用 网 络 《〈 心 跳 检 测 专用 ) 的 适配器 ， 从 弹出 的 快捷 染 单 中 选择 “属性 ” 命 


令 。 


(3) 选中 “ 仅 用 于 内 部 集群 通信 (专用 网 络 ) ”* 单 选 按钮 ， 如 网 15- 
9 所 示 。 


图 15-9 ”配置 专用 网 络 (1) 





(4) 单 击 “ 确 定 ” 按 钮 。 


(5) 右 击 用 于 公用 网 络 的 适配器 ， 从 弹出 的 快捷 染 单 中 选择 “ 属 
性 ” 命 HD 2 





(6) 选中 “针对 集群 应 用 局 用 该 网 络 * 复 选 框 ， 如 图 15-10 所 示 。 


图 15-10 ”配置 公用 网 络 (2) 








(7) 选中 “所 有 通信 (混合 网 络 ) ” 单 选 按 钮 ， 然 后 单 击 “ 确 定 ” 按 
乌 5 


15.4.3 测试 安装 





在 “安装 ?程序 结束 后 ， 有 几 种 验证 集群 服务 安装 的 方法 ， 有 具体 如 
下 





a 集群 管理 器 : 如 果 仅 完成 了 节点 1 的 安装 ， 月 动 * 集 群 管理 右 ”， 
然后 答 试 连接 到 集群 。 如 有 果 已 安装 了 第 二 个 市 点 2， 可 在 任意 一 
个 而 点 上 启动 集群 管理 囊 *?， 然 后 确认 第 二 个 集群 显示 在 列表 
二 

a 伍 看 局 动 服务 :使 用 管理 工具 中 的 “服务 ”选项 ， 确 认 集 群 服务 已 





显示 在 列表 上 并 已 启动 。 

a 事件 日 志 : 使 用 “事件 查看 器 ”检查 系统 日 志 中 的 ClusSvc 条 目 。 
会 看 到 有 关 确 认 集 群 服务 已 经 顺利 形成 或 加 入 一 个 集群 的 条 目 

a 集群 服务 注册 表 项 : 确认 集群 服务 安装 程序 将 正确 的 项 写 入 注册 
表 。 可 以 在 HKEY LOCAL_MACHINEACluster 下 找到 许多 注册 表 
设置 。 








选择 “开始 ” “运行 ” 亲 单 命令 ， 然 后 在 弹出 的 对 话 框 中 ， 输 入 “ 虚 
拟 服 务 ” 名 称 。 确 认可 以 连接 并 看 到 资源 。 


15.4.4 测试 故障 转移 


验证 资源 将 执行 故障 转移 。 


























选择 “开始 ” 3 “程序 ” Ss “管理 工 图 15-11 集群 管 理 器 主 界面 
只 St 命令 ， 然 后 单 击 “ 集 群 管理 
'"， 如 图 15-11 所 示 。 


石 击 “ 人 磁盘 组 1 组 ， 然 后 单 击 “ 移 动 组 *。 该 组 及 其 所 有 资源 将 转移 
到 另 一 个 节点 。 稍 后 ， 磁 盘 F: 、G: 将 在 第 二 个 节点 上 实现 联机 。 在 
窗口 中 观察 该 转移 。 退 出 “集群 管理 器 ”。 





15.5 ”实例 :SQL Server 集 群 安装 配置 


上 面 我 们 已 经 设置 好 了 MSCS 集 群 基础 平台 ， 下 面 介绍 如 何在 这 个 
平台 上 安装 SQL Server 数 据 库 。SQL Server 2000 的 集群 安装 配置 已 经 直 
接 集成 到 了 SQL ”Server “2000 的 数据 库 安 闭 向 导 中 ， 能 够 自动 识别 到 
Windows Server 2003 上 的 集群 系统 并 局 用 数据 库 虚 拟 服 务 器 选项 ， 实 现 
SQL Server 2000 集 群 虚拟 服务 器 在 两 全 服务 器 上 的 上 自动 安装 配置 。 安 装 
完成 后 ， 需 安装 SQL 2000 SP3 补 丁 包 。 





确保 SQL Server 2000 和 集群 在 两 台 服 务 嚣 上 的 自动 安装 配置 ， 两 台 服 
务 器 MS-Clus-01A 与 MS-Clus-01B， 以 及 共享 磁盘 柜 都 须 处 于 开机 在 线 
状态 。 


15.5.1 安装 SQL Server 


(1) 在 接管 了 SQL 数 据 盘 (磁盘 Y: ) 的 节点 服务 器 MS-Clus-01A 
上 ， 放 入 SQL Server 2000 企 业 版 安装 光 往 ， 局 动 SQL Server 2000 的 安 效 
向 导 ， 如 图 15-12 和 图 15-13 所 示 。 





图 15-12 ”共享 磁盘 Y 被 MS-CLUS-01A 节 点 图 15-13 ”安装 SQL Server1l 
让 As 
手书 





(2) 安装 同 导 进 入 “计算 机 名 ”界面 后 ， 会 自动 识别 到 Windows 
Server 2003 的 集群 系统 ， 选 择 “ 虚 拟 服务 器 ”选项 ， 输 入 虚拟 SQL Server 
名 称 “MS-Clus-SQL”， 单 击 “ 下 一 步 ” 按 钮 ， 如 图 15-14 所 示 。 


图 15-14 ”输入 虚拟 SQL Server 名 称 


(3) 在 “故障 转移 集群 "对话 框 中 输入 IP 地 址 “192.0.0.4”， 选 用 网 络 
Public， 单 击 “ 添 加 ”按钮 ， 使 其 添加 到 列表 中 ， 即 这 个 IP 地 址 属于 公用 
网 络 。 然 后 单 击 * 下 一 步 ? 按 钮 ， 如 图 15-15 所 示 。 





图 15-15 ”配置 虚拟 服务 器 IP 地 址 


(4) 在 “集群 磁盘 选择 ”对 话 框 中 选择 “组 0” 的 共享 磁盘 “Y: ”， 然 
后 单 击 * 下 一 步 ? 按 钮 ， 如 图 15-16 所 示 。 





图 15-16 ”选择 用 于 存放 数据 的 磁盘 





(5) 在 “和 集群 管理 ”对 话 框 ， 确 保 MS-CLUS-01A 与 MS-CLUS-01B 都 
在 “ 己 配 置 节 点 ”列表 中 ， 然 后 单 击 “ 下 一 步 ” 按 钮 ， 如 图 15-17 所 示 。 








图 15-17 ”选择 集群 中 要 使 用 到 的 节点 








(6) 在 “远程 信息 ?对话 框 ， 输 入 用 户 名 、 密 码 及 域名 ， 然 后 单 
击 “ 下 一 步 ? 按 钮 ， 如 图 15-18 所 示 。 








图 15-18 ”输入 账户 信息 





(7) 在 “实例 名 ”对 话 框 ， 选 中 “默认 ” 复 选 框 ， 然 后 单 击 “ 下 一 步 ” 按 
钮 ， 如 图 15-19 所 示 。 








图 15-19 ”实例 名 窗口 





图 15-20 ”安装 目的 选择 





(8) 在 “安装 类 型 "对 话 框 中 先 
中 "典型 * 单 选 按钮 ， 由 于 前 面 磁盘 先 
择 了 “组 0* 的 “磁盘 Y: ”,，“ 目 的 文件 夹 ”的 “数据 文件 "自动 定位 到 Y: 

盘 ， 而 SQL 程序 文件 则 会 自动 安装 到 MS-Clus-01a 与 MS-Clus-01b 的 本 地 





盘 相关 目录 下 ， 单 击 “ 下 一 步 ? 按 钮 ， 如 网 15-20 所 示 。 


(9) 在 “服务 账户 ”对 话 框 ， 选 中 “对 每 个 服务 使 用 同一 账户 ” 单 选 
按钮 ， 由 于 是 集群 配置 , “使 用 本 地 系统 账户” 单 选 按钮 为 不 可 用 。 输 入 
用 户 名 、 密 码 及 域名 ， 然 后 单 击 “ 下 一 步 ” 按 钮 ， 如 图 15-21 所 示 。 


图 15-21 输入 账户 信息 





(10) 在 “号 份 验证 模式 ?对 话 框 中 选中 “混合 模式 ” 单 选 按钮 ， 输 入 
sa 密码 ， 然 后 单 击 “ 下 一 步 ” 按 钮 ， 如 图 15-22 所 示 。 





图 15-22 ”身份 验证 配置 








(11) 安装 完成 后 ， 打 开 “ 和 集群 管理 器 *， 在 “集群 配置 "下 可 看 
到 “资源 类 型 ”中 多 了 两 个 SQL Server 的 资源 ， 这 是 因为 SQL Server 2000 
企业 版 为 Cluster-Aware 的 应 用 系统 ， 安 装配 置 时 自动 添加 了 支持 Cluster 
的 服务 组 件 ， 如 图 15-23 所 示 。 


图 15-23 ”新 加 入 的 资源 (1) 





(12) 单 击 “组 0*， 可 看 到 除 原 有 的 “磁盘 Y: ”外 ， 新 添 了 5 个 SQL 
资源 ， 而 且 都 已 联机 ， 说 明 SQL Server 2000 和 集群 安装 配置 完成 ， 如 图 
15-24 所 示 。 


图 15-24 ”新 加 入 的 资源 (2) 





15.5.2 ”验证 SQL 数据 库 集 群 功能 





(1) 在 一 台 客 户 机 上 安装 SQL Server 2000 的 “企业 管理 器 ”与 “查询 
分 析 器 >”， 来 测试 验证 数据 库 的 FailOver 功 能 。 


(2) 打开 “< 企业 管理 器 ?>， 注 册 数 据 库 “*192.0.0.42， 即 虚拟 数据 库 的 
PP 或 服务 器 名 ， 如 图 15-25 所 示 。 





图 15-25 “连接 到 虚拟 服务 器 





(3) 新 建 一 个 测试 数据 库 MytestDB， 如 图 15-26 所 示 。 





图 15-26 ”创建 新 数据 库 *MytestDB” 





(4) 在 数据 库 MytestDB 中 新 建 表 employee， 并 添加 几 条 记录 ， 如 
图 15-27 所 示 。 





图 15-27 新 建 表 


(5) 打开 “查询 分 析 器 *":， 连 接 到 192.0.0.4 的 数据 库 MytestDB， 检 
索 表 employee 返 回 数据 ， 如 图 15-28 所 示 。 


图 15-28 employee 返回 数据 


(6) 在 “集群 管理 器 ”中 移动 数据 库 资 源 组 “组 0”(MS-Clus- 
01A -MS-Clus-01B，〉， 进 行 资源 切换 ， 如 图 15-29 和 图 15-30 所 示 。 


图 15-29 ”手动 切换 资源 (1) 
图 15-30 ”手动 切换 资源 (2) 


(7) 移动 “组 0” 过 程 中 ， 在 “查询 分 析 器 ”中 持续 执行 数据 检索 ， 刚 
开始 “连接 中 断 ” 检 索 不 到 数据 ， 几 十 秒 钟 后 又 恢复 正常 ， 能 顺利 检索 到 
数据 ， 如 图 15-31 和 图 15-32 所 示 。 


图 15-31 服务 中 断 图 15-32 ”服务 恢复 


测试 验证 表明 ， 此 配置 方案 可 以 实现 数据 库 的 FailOver， 而 且 切 换 
时 间 在 30 秒 左右 。 


15.6 ” 块 级 集群 存储 系统 


存储 系统 一 直 以 来 都 是 以 一 个 总 控制 器 中 心 加 上 几 串 磁盘 扩展 柜 的 
形式 多 存在 的 。 直 到 最 近 几 年 ， 这 种 模式 有 被 打破 的 趋势 。 





1. Scale-Up 和 Scale-Out 


当 一 个 存储 系统 使 用 一 个 或 者 两 个 元 余 的 控制 器 来 对 外 提供 服务 
时 ， 如 果 其 性 能 不 能 满足 越 来 越 苛刻 的 应 用 要 求 和 负载 ， 那 么 厂商 会 考 
虑 在 单个 控制 器 中 加 入 更 多 的 CPU、 升 级 更 高 的 CPU 主 频 、 增 加 更 多 的 
内 存 以 及 扩充 更 多 的 IO 总 线 以 连接 更 多 的 IO 扩展 卡 ， 以 此 来 提高 这 个 存 
储 系统 的 性 能 ， 这 种 扩展 方式 称 为 Scale-Up。 








而 在 一 个 独立 计算 机 系统 总 线 中 增加 更 多 的 CPU 和 内 存 的 做 法 ， 会 
越 走 越 罕 ， 随 者 CPU 数量 的 增多 ， 其 所 耗费 的 设计 成 本 和 硬件 成 本 就 会 
更 陡峭 地 升 高， 而 且 ， 随 着 单 系 统 内 CPU 数量 的 增加 ， 其 性 能 所 得 到 的 
提升 也 会 越 来 越 趋 近 于 0; 其 次 ， 这 种 扩展 方式 也 不 利于 长 远 发 展 ， 如 
条 随 独 时 间 的 推移 ， 升 级 后 的 系统 又 变 得 不 够 用 ， 那 么 不 可 能 无 限制 地 
添加 CPU 和 内 存 ，Scale-Up 的 扩展 方式 等 于 是 自 寻 死路 。 此 时 ， 就 催生 
人 们 考虑 是 否 可 以 将 存储 系统 集群 化 ， 用 多 台 CPU 和 内 存 以 及 IO 扩展 卡 
数量 较 少 的 独立 的 控制 器 ， 通 过 某 种 互联 网 络 通道 将 所 有 控制 器 连接 起 
来 形成 一 个 集群 系统 ， 这 种 扩展 方式 称 为 Scale-Onut。 














两 种 方式 比 起 来 ，Scale-Out 更 加 节约 成 本 ， 而 且 在 设计 良好 的 情况 
下 ， 可 以 增加 更 多 的 集群 节点 ， 系 统 性 能 随 着 节点 数量 的 增加 而 近乎 正 
比 地 增加 。 





与 主机 系统 的 集群 化 趋势 一 样 ， 存 储 系统 也 步 入 了 集群 化 。 然 而 大 
规模 主机 集群 真正 广泛 应 用 的 是 HPC 领 域 ， 并 未 被 一 般 企 业 所 采用 ， 其 
根本 原因 其 实 是 因为 对 应 的 应 用 程序 还 并 未 跟 上 时 代 ， 仍 处 于 非 集群 化 
开发 模式 下 。 虽 然 可 以 让 非 集群 化 应 用 运行 于 集群 中 某 单 个 节点 上 ， 但 
是 鉴于 集群 中 的 单 节 点 性 能 反而 可 能 不 能 满足 需求 的 念 众 境地 ， 所 以 大 
多 数 企 业 宁 愿 花费 更 多 的 钱 使 用 性 能 强劲 的 PC Server 甚 至 小 型 机 来 运行 
这 些 应 用 。 只 有 一 些 高 问 的 应 用 比如 数据 库 等 系统 提供 了 集群 方式 的 部 
署 ， 比 如 Oracle RAC 和 DB2 PureScale 等 。 而 另 一 方面 ， 企 业 又 会 被 主机 
性 能 的 浪费 所 困扰 ， 从 而 部 蜀 虚 拟 机 系统 。 所 以 ， 集 群 也 不 是 ， 不 集群 
也 不 是 ， 这 又 众生 了 一 种 更 加 御 底 的 解决 方案 ， 即 云 系统 ， 这 个 话题 将 
在 本 书 其 他 章节 讨论 。 


对 于 集群 存储 系统 ， 仔 细 体 会 一 下 ， 我 们 隐约 可 以 洞察 到 其 中 有 些 
奥妙 之 处 。 集 群 存储 系统 的 数据 分 布 有 两 种 方式 : 





一 是 将 多 份 整 体 数 据 每 一 份 都 分 开 存放 于 集群 中 的 每 个 节点 上 ; 
二 是 将 多 份 独立 的 数据 ， 每 一 份 放 在 一 个 独立 节点 上 或 者 手动 决 
定数 据 分 割 的 份 数 以 决定 利用 的 节点 数目 。 








对 于 前 者 的 数据 分 布 方式 ， 在 多 个 应 用 系统 共同 访问 时 ， 可 能 在 特 
定 情 况 下 会 影响 系统 整体 性 能 ， 对 于 后 者 分 布 方式 ， 每 个 应 用 系统 只 访 
问 一 个 节点 或 者 按照 性 能 要 求 访问 多 个 节点 ， 对 其 他 节点 性 能 没有 影 
啊 ， 这 就 相当 于 在 一 个 传统 非 集群 存储 系统 中 ， 对 每 个 应 用 建立 独立 的 
Raid Group 一 样 的 道理 。 














对 于 第 二 种 集群 数据 分 布 方式 ， 需 要 很 多 的 人 为 介入 ， 但 是 却 可 以 





保证 性 能 资源 的 平衡 合理 分 配 。 任 何 存储 系统 的 一 个 最 大 的 问题 就 是 在 
多 主机 多 应 用 并 发 访问 时 如 何 保证 系统 的 性 能 ， 特 别 是 高 带宽 吞吐 量 的 
情况 下 《这 个 话题 将 在 其 他 章节 论述 ) 。 目 前 解决 这 种 并 发 情况 下 性 能 
大 幅 降低 的 一 个 办 法 就 是 隅 离 相关 资源 。 在 集群 存储 系统 中 ， 这 个 问题 
依然 存在 ， 所 以 依然 要 使 用 资源 隔离 的 方法 。 所 以 ， 整 个 系统 仿佛 又 回 
到 了 DAS 架 构 ， 每 台 主机 都 使 用 自己 专 供 的 存储 系统 ， 只 不 过 这 些 DAS 
存储 孤岛 被 集中 管理 了 起 来 而 已 。 这 种 状态 有 一 丝 诡 异 ， 显 示 了 这 种 事 
物 处 于 一 种 否 即 奉 离 的 不 定 状 态 ， 下 一 步 的 发 展 ， 非 收敛 即 分 散 ， 而 我 
们 调 碍 一 下 这 个 事物 在 进入 这 种 状态 之 前 是 什么 状态 呢 ? 是 收敛 状态 ， 
即 数据 集中 存储 和 访问 ， 那 么 我 们 可 以 推断 这 个 事物 从 收 合 状态 走 回 松 
耘 全 迷离 状态 ， 当 前 就 是 这 样 一 种 状态 ， 多 点 集群 ， 那 么 多 点 集群 下 一 
步 的 趋势 将 是 完全 分 散 状态 。 分 散 状态 下 的 存储 系统 是 什么 呢 ? 其 实 残 
征 彻 底 的 DAS 状 态 ， 即 存储 架构 又 回 到 了 每 个 使 用 者 各 目 保 有 一 个 独立 
专 供 的 存储 系统 ， 各 目 管 理 各 目的 存储 系统 ， 各 个 使 用 者 互 不 干扰 ， 却 
还 可 以 取得 民 好 的 性 能 以 及 高 容量 ， 而 且 还 不 浪费 多 少 电 和 物理 空间 。 
符合 这 种 条 件 的 存储 介质 是 什么 昵 ?当然 是 心 片 存储 而 非 机 械 存储 。 



































当前 的 SSD 硬 盘 ， 单 块 SSD 的 大 块 连续 读 吞 吐 量 甚至 可 以 超过 
350MB/s， 写 则 超过 了 210MB/s; 甚至 在 4K 块 随机 读 吞 吐 量 也 超过 了 
200MB/s， 写 超过 了 180MB/s， 随 机 读 IOPS 超 过 600， 随 机 IO 延迟 不 超过 
lms。 这 确实 是 非常 惊人 的 速度 。 这 种 速度 ， 满 足 当 前 主流 的 应 用 系统 
已 经 不 成 问题 。 所 以 ， 随 着 技术 的 发 展 ， 大 容量 SSD 的 成 本 会 逐渐 降低 
到 可 以 用 得 起 的 地 步 (128GB 的 SATA 6Gb/s 的 SSD 价 格 目前 为 146GB 的 
3 倍 还 多 ) ， 并 且 各 种 技术 壁 役 相 继 突破 ， 一 块 或 者 几 块 SSD 即 可 满足 
主流 的 应 用 ， 试 问 此 时 有 何 理由 再 去 使 用 网 络 适 配 卡通 过 线 缆 连 接 到 外 
部 设备 上 去 存储 数据 呢 ? 








当 存 储 介 质 有 了 一 次 质 的 飞跃 之 后 ， 整 个 存储 系统 架构 束 产 生 了 彻 
底 的 一 次 轮回 。 那 么 再 之 后 会 怎么 发 展 呢 ? 分 入 必 合 ， 当 无 线 电 技 术 发 
展 到 一 定 程度 时 ， 数 据 再 一 次 将 会 被 集中 存放 ， 各 个 角色 可 以 用 无 线 通 
信 来 获取 数据 。 那 么 再 往 后 呢 ? 合 久 必 分 ， 此 时 又 怎么 分 呢 ? 这 个 问题 
现在 还 无 法 想象 。 





集群 存储 系统 可 以 分 为 基于 Block 协 议 访问 的 传统 存储 的 集群 ， 以 
及 基于 NAS 协 议 访问 的 NAS 集 群 系统 ， 还 有 一 类 属于 文件 系统 的 集群 ， 
下 面 将 一 一 介绍 。 


15.6.1 IBM XIV 和 集群 存储 系统 


IBM ”XIV 存储 系统 为 以 色 列 的 一 家 公司 所 开发 ， 后 被 [BM 收购 。 
XIV 是 一 种 网 格 集群 化 存储 系统 ， 集 群 中 的 每 个 节点 都 是 一 合 X86 
Server， 每 个 节点 都 包含 12 块 本 地 SATA 便 往 。 








1. XIV 系 统 的 物理 拓扑 设计 思想 


共有 两 种 类 型 的 节点 ， 一 种 是 Interface Node， 或 者 称 Interface 
Module; 男 一 种 是 Data Node,， 或 者 称 Data Module。 只 有 Interface 
Module 上 插 有 前 端 主 机 通道 适 配 卡 ， 比 如 FC 卡 、ISCSI 卡 等 ， 这 也 是 其 
名 称 的 由 来 ， 意 即 主机 端 只 能 连接 到 Interface Module 上 。 Interface 
Module 本 身 也 含有 12 块 SATA 人 磁盘 。Data Module 上 没有 前 端 主机 通道 适 
配 妖 ， 只 包含 12 块 SATA 人 硬盘 以 及 两 块 双 口 1Gbps 以 太 网 适 配 费 。 每 个 
市 皮 有 1 里 Intel 的 4 核 CPU 新 一 代 产 品 有 2 笑 〉 和 8GB 的 DDR2 内 存 。 


整个 系统 的 连接 拓扑 图 如 图 15-33 所 示 。6 个 Interface Module 通 过 两 
台 宛 余 的 以 太 网 交换 机 与 9 个 Data Module 相 连接 ， 每 个 Interface Module 


使 用 3 条 链 路 与 一 个 以 太 网 交换 机 连接 ， 而 Data Module 使 用 两 条 链 路 与 
每 个 交换 机 连接 。 每 个 Interface Module 包 含 4 个 4Gb/s 的 FC 口 ， 其 中 两 个 
用 于 主机 连接 ， 男 两 个 用 于 其 他 用 途 (Mirror、DR 等 )。 





图 15-33 XIV 内 部 连接 逻辑 拓扑 图 














如 图 15-34 所 示 为 满 配 的 XIV 存 储 系 统 各 种 节点 在 机 柜 中 所 处 的 位 置 
示意 图 。 


到 


图 15-34 ”节点 排列 图 








如 图 15-35 所 示 为 XIV 存 储 系统 实物 的 前 视图 和 后 视图 。 








图 15-35 “机柜 实物 图 


如 图 15-36 所 示 为 XIV 存 储 系统 中 节点 机 箱 的 透视 图 。 





图 15-36 ”节点 机 箱 透 视图 
如 图 15-37 所 示 为 Interface 节 点 的 连接 拓扑 示意 
图 15-37 ”Interface 节点 连接 示意 图 


如 图 15-38 所 示 为 节点 的 正视 图 。 





图 15-38 ”节点 正视 图 





如 图 15-39 所 示 为 节点 互 连 用 后 端 交 换 机 的 实物 图 。 
图 15-39 ”节点 互 连 交 换 机 实物 图 


如 图 15-40 所 示 为 XIV 存 储 系统 的 GUI 配置 界面 。 其 个 性 化 十 足 ， 念 


苹果 操作 系统 菜单 设计 。 


图 15-40 ”GUI 配置 界面 














2. XIV 系 统 对 LUN 的 分 布设 计 思 想 


对 于 这 样 一 个 网 格 化 的 存储 系统 ， 卷 /逻辑 驱动 器 (LUN 被 设计 为 平 
均 分 布 在 多 个 或 者 全 部 节点 之 上 ， 有 一 个 映射 图 来 记录 每 个 LUN 的 分 布 
状况 。 而 且 每 个 LUN 对 应 的 每 个 数据 块 都 会 被 镜像 一 份 ， 存 储 在 与 源 数 
据 块 不 同 的 任何 一 个 节点 上 ， 源 分 块 称 为 Primary， 镜 像 之 后 的 分 块 称 
为 Secondary。 这 样 一 来 ， 任 何 一 个 节点 故障 不 会 导致 数据 丢失 ， 并 且 
在 任何 一 块 磁盘 或 者 整个 节点 故障 之 后 ， 系 统 会 根据 LUN 映 射 图 来 判断 
并 将 丢失 的 部 分 通过 尚 完好 的 源 数据 块 再 次 镜像 一 份 到 其 他 任何 一 个 节 
点 上 的 剩余 存储 空间 。 








这 种 思想 与 NetApp 公 司 的 WAEFL 文 件 系统 极为 类 似 ， 大 凡 高 度 虚 拟 
化 的 设备 ， 其 底层 的 逻辑 卷 LUN 都 不 是 存在 于 固定 位 置 的 ，XIV 用 映射 
图 来 遍历 整个 LUN 在 所 有 节点 磁盘 上 的 存储 地 址 ， 并 可 以 将 LUN 的 某 个 
块 移动 到 其 他 节点 并 重新 更 新 映射 图 ， 这 种 思想 就 是 不 折 不 扣 的 文件 系 
统 思想 : 文件 系统 可 以 将 任何 文件 分 步 到 硬盘 上 的 各 个 空间 ， 并 使 用 
Inode Tree 来 壳 历 整个 文件 的 分 布 情况 。WAFL 和 XIV 正 是 对 这 种 思想 在 
卷 管理 设计 上 的 灵活 运用 ， 但 是 XIV 可 能 并 没有 沦 为 彻底 的 文件 系统 ， 
其 粒度 以 及 元 数据 复杂 度 一 定 不 如 WAEFL 那 么 细 。 最 终 ， 一 个 LUN 或 者 
卷 就 体现 为 一 个 Filedisk， 但 是 这 只 是 对 存储 系统 内 部 而 言 ， 对 主机 客 
户 端 而 言 一 切 都 没有 变化 。 如 图 15-41 所 示 为 XIV 系 统 接受 一 个 客户 端 主 
机 发 送 的 写 IO 请 求 之 后 的 流程 。 


























图 15-41” 写 IO 处 理 流程 图 











XIV 系 统 在 其 某 个 Interface Module 上 接收 到 一 个 针对 某 LUN 某 地 址 
段 的 写 IO。 


接收 到 IO 的 Interface Module 将 IO 数据 收入 之 后 ， 首 先 通 过 
Distribution Map 判 断 这 个 LUN 的 这 段 地 址 落 在 的 分 块 及 其 镜像 块 存在 于 
哪个 Module 上。 如 果 对 应 的 分 块 或 者 镜像 块 其 中 一 个 是 存在 自己 本 地 便 
盘 中 ， 那 么 这 个 Interface Module 会 立即 将 这 份 数 据 副 本 通过 后 端 以 太 网 
发 送 到 这 个 分 块 镜像 所 在 的 Module， 然 后 通知 客户 端 主机 写 入 成 功 。 这 
样 ， 数 据 便 会 在 两 个 节点 的 Cache 中 ， 实 现 了 Cache Mirror， 一 旦 这 份 数 
据 尚 写 入 硬盘 的 过 程 中 ， 某 个 市 点 发 生 故 障 ， 那 么 还 有 男 外 一 个 节点 保 
存 着 这 份 数 据 。 





如 果 接 收 到 写 IO 的 Interface “ “Module 判断 的 结果 是 ， 这 个 IO 对 应 的 
LUN 分 块 没有 存在 自己 本 地 人 硬盘， 而 是 存放 在 了 另外 两 个 节点 上 ， 那 么 
这 个 Interface Module 会 根据 Distribution Map 将 这 份 IO 数 据 发 送 到 这 个 分 
块 所 对 应 的 Primary 副 本 所 被 保存 的 节点 。 





保存 Primary 分 块 节点 收 到 IO 数 据 之 后 ， 再 次 根据 Distribution Map 判 
断 出 对 应 这 个 分 块 的 Secondary 副 本 被 保存 的 节点 ， 立 即将 这 个 10 发送 
过 去 ， 当 收 到 发 送 成 功 的 回应 之 后 ， 立 即 同 刚才 的 那个 Interface Moudle 
返回 写 入 成 功 的 回应 。Interface Module 接 收 到 成 功 回应 之 后 ， 立 即 向 客 
户 端 主机 返回 写 入 成 功 的 回应 。 








3. XIV 系 统 的 快照 设计 思想 


Filedisk 的 设计 思想 会 彻底 地 改变 后 续 所 有 上 层 功能 模块 的 设计 ， 
比如 Thin Provision、Snapshot、Clone、Mirror、Dedupe 等 。 例 如 ， 对 于 
Snapshot 的 实现 ，WAFL 和 XIV 都 使 用 了 Wirite Redirect 的 实现 方式 ， 这 绝 





对 不 是 巧合 ， 而 是 Filedisk 的 核心 设计 思想 使 然 。 


在 WAFL 中 ， 每 个 Snapshot 其 实 承 是 一 份 mode Tree 指针 链条 和 其 对 
应 的 实体 数据 块 的 留存 影像 ， 包 括 当 前 的 活动 文件 系统 ， 这 种 设计 使 得 
当前 活动 文件 系统 与 Snapshot 本 身 是 同 质 化 的 ， 可 以 大 大 降低 设计 复杂 
度 ， 从 而 提高 运行 效率 。 同 样 ， 在 XIV 的 卷 管理 模块 〈 本 质 是 一 个 文件 
系统 ， 而 且 是 集群 文件 系统 ) 中 ， 每 个 LUN 〈 文 件 ) 都 对 应 一 份 
Distribute Map (Inode Tree) ， 如 果 需 要 将 LUN (文件 ) 中 的 某 个 或 者 
某 段 数据 块 〈 文 件 的 一 字 节 或 一 段 字 节 ) 移动 到 系统 中 的 其 他 节点 上 的 
人 硬盘“〈 文 件 所 存储 的 底层 便 盘 空间 ) ， 那 么 只 需要 将 对 应 的 数据 作 相 应 
移动 之 后 ， 在 Distribute Map 中 作 相 应 的 指针 改变 即 可 。 当 快照 生成 时 ， 
采用 Write Redirect 方 式 ， 快 照 时 间 点 的 这 个 LUN 的 Distribute Map 与 其 对 
应 的 实体 数据 将 会 被 冻结 ， 然 后 系统 将 当前 的 Map 复 制 一 份 存放 (或 者 
只 复制 Map 的 跟 入 口 ， 视 设计 不 同 而 定 ) ， 这 个 新 Map 束 是 当前 活动 
Map。 当 随后 有 针对 这 个 LUN 的 写 IO 请 求 进入 时 ， 系 统 将 会 把 这 个 IO 数 
据 写 到 系统 中 任何 一 个 节点 的 任何 一 个 空闲 数据 块 ， 并 在 新 生成 的 Map 
对 应 的 位 置 将 指针 更 新 ， 指 同 这 个 新 数据 块 。 如 采 再 次 生成 快照 ， 那 么 
系统 就 把 当前 的 活动 Map 再 复制 一 份 ， 然 后 将 当前 的 Map 冻 结 为 快照 
Map， 之 后 的 动作 以 此 类 推 。 对 于 Write Redirect 模 式 的 快照 具体 设计 思 
想 可 以 参照 本 书 第 16 章 。 




















基于 这 个 设计 模式 ，XIV 还 可 以 复制 快照 ， 即 生成 一 份 与 某 个 快照 
完全 相同 的 快照 ， 其 原理 很 简单 ， 就 是 复制 一 份 这 个 快照 的 Distribute 
Map 并 冻结 即 可 。 


当然 ， 对 于 一 个 粗 线条 的 卷 管理 模块 来 讲 ， 其 管理 LUN 的 数据 粒度 
必定 不 会 与 彻底 的 文件 系统 相 比 ， 但 是 本 质 思想 却 是 相同 的 。WAEFL 的 
管理 粒度 为 4KB， 而 XIV 的 管理 粒度 为 1MB。 


4. XIV 系 统 的 故障 恢复 设计 





经 过 上 文 的 论述 ， 我 们 可 以 看 到 XIV 对 数据 分 布 的 本 质 思想 其 实 是 
分 布 式 RAID 10。 就 相当 于 在 一 个 文件 系统 之 内 将 一 个 文件 (LUN) 复 
制 了 一 份 ， 并 将 副本 存放 于 其 他 的 位 置 〈 每 个 数据 块 的 源 和 镜像 不 允许 
放 在 同一 个 节点 上 ) 。 这 样 ， 整 体系 统 的 可 用 容量 就 相当 于 减 半 。 我 们 
可 以 将 这 种 设计 称 为 “< 上 层 分 布 式 RAID 10”， 那 么 与 其 对 应 的 就 是 “底层 
固定 式 RAID 10” 了 。 后 者 就 是 传统 的 RAID 10 系 统 。 传 统 的 RAID 10 系 
统 有 一 个 很 大 的 不 足 ， 即 不 管 Raid Group 内 分 布 了 几 个 LUN， 或 者 甚至 
有 没有 被 实体 数据 所 占用 ， 那 么 底层 均 会 将 所 有 的 数据 块 镜像 起 来 。 








刚才 所 说 的 “有 没有 被 数据 占用 ”， 这 人 句 话 或 许 有 人 不 理解 ，RAID 
层 怎么 会 判断 其 上 的 哪些 块 < 有 用 ”， 哪 些 块 * 没 用 ” 呢 ? 关于 这 个 话题 
请 参考 附录 2 的 问题 11 和 48) 的确 ， 正 因为 Raid 无 法 判断 ， 所 以 才 需 要 
把 有 用 没 用 的 一 同 镜像 起 来 ， 这 就 是 底层 应 该 做 的 。 负 责 判 断 有 用 或 者 
没 用 的 是 上 层 文件 系统 ， 或 者 ， 就 是 我 们 当前 论述 的 XIV 的 卷 管理 系 
统 。 底 层 实现 不 了 这 种 判断 的 结果 就 是 直接 导致 了 资源 浪费 ， 在 一 块 磁 
盘 故 障 之 后 ， 系 统 做 了 太 多 的 无 用 功 ，Rebuild 了 许多 无 用 的 数据 块 ， 实 
在 是 划 不 来 。 














上 面 讲 了 对 应 于 “底层 ”二 字 ， 再 来 说 说 “固定 式 ” 的 缺点 。 传 统 的 
RAID 10 系 统 ， 源 和 镜像 必须 有 相同 的 磁盘 数量 和 容量 ， 一 对 一 ， 少 一 
块 都 不 行 ， 而 镜像 端的 磁盘 容量 可 以 比 源 端的 大 ， 但 是 多 余 的 容量 ， 
RAID 又 会 将 其 砍 掉 不 用 ， 很 滑稽 ， 这 无 疑 是 一 个 巨大 的 浪费 。 是 否 6 
以 实现 一 种 另外 的 模式 呢 ? 比如 将 一 块 磁盘 上 的 数据 ， 分 开镜 像 到 多 块 
磁盘 上 ， 相 当 于 把 一 块 磁盘 再 RAID 0 化 ; 或 者 ， 将 多 块 磁盘 上 的 数据 ， 
镜像 到 一 块 磁盘 上 。 对 于 后 者 ， 底 层 RAID 是 无 论 如 何 也 实现 不 了 的 。 











另外 ， 底 层 固定 式 RAID 10 要 求 Raid Group 中 的 磁盘 一 定 是 在 本 地 管理 
范围 内 ， 而 不 能 路 计算 机 系统 ， 如 果 本 地 计算 机 系统 整体 故障 ， 那 么 整 
个 Raid Group 就 无 法 访问 了 。 


再 来 看 看 XIV 的 上 层 分 布 式 RAID 10 是 如 何 解决 上 述 这 些 问题 的 。 


a 解决 做 无 用 功 的 问题 。 前 文 说 过 ，XIV 的 卷 管 理 系 统 是 一 个 粗 线 


条 的 文件 系统 ， 它 当然 可 以 感知 自己 所 管理 的 文件 CLUN) 占用 
了 哪 世 磁盘 上 的 哪 二 空 zs 间 ， 既 然 这 样 ， 那 么 卷 管理 系统 就 可 以 只 
镜像 这 些 文件 ， 而 无 须 镜 像 硬 盘 上 没有 被 文件 以 及 元 数据 所 占用 
的 数据 块 。 镜 像 操作 是 由 卷 管理 层 完成 的 ， 所 以 称 之 为 “< 上层”。 
这 就 很 好 地 解决 了 第 一 个 问题 。 
解决 磁盘 数量 必须 一 一 对 应 问题 。 既 然 卷 管理 系统 可 以 将 LUN 像 
对 待 文件 一 样 将 其 复制 到 另外 的 存储 空间 ， 那 么 为 何不 可 以 将 这 
个 文件 分 开 若 干 份 存储 于 多 个 硬盘 中 ， 或 者 将 原本 分 开 存 放 于 多 
ee 部 分 再 合并 起 来 存放 到 一 个 便 盘 中 呢 ? 当 

然 是 可 以 的 了 。 比 如 ， 某 个 LUN 被 分 为 4 块 : B1、B2、B3、 

B4。 这 4 块 数据 分 别 存放 于 D1、D2、D3 和 D4 这 4 块 硬盘 当中 。 现 
在 决定 拿 近 D1、D2 这 两 块 硬 盘 而 保留 这 个 LUN， 那 么 着 管理 系 
统 会 首先 将 B1、B2 这 两 个 块 复制 到 D3 和 D4 人 硬盘 上 ， 然 后 通知 可 
以 拿 掉 硬 盘 。 此 时 ， 这 个 LUN 就 由 原来 分 布 于 4 块 便 盘 上 变 成 现 
在 分 布 于 两 块 硬盘 上 了 ， 当 然 这 里 只 是 一 个 RAID 0 思想 ， 并 未 涉 
及 到 RAID 10。 











下 面 我 们 就 来 演示 一 下 XIV 卷 管理 系统 是 如 何 解 决 传统 RAID 10 模 
式 下 磁盘 数量 一 一 对 应 的 问题 的 。 


如 图 15-42 所 示 ， 传 统 RAID 10 模式 下 ， 设 某 个 LUN 被 分 为 6 块 数据 


块 ， 分 别 标记 为 B1~ 一 B6， 每 个 数据 块 的 镜像 块 分 别 标记 为 MI 一 M6。 这 
些 数据 分 布 在 4 块 硬盘 上 ， 并 且 每 块 硬盘 都 有 剩余 空间 。 


图 15-42 ”传统 RAID 10 


某 时 刻 ，D1 磁 盘 故 障 ， 数 据 块 B1、B2、B3 技 失 。 但 是 其 镜像 M1 一 
M3 依 然 存 在 ， 此 时 ，XIV 系 统 为 了 恢复 数据 的 元 余 ， 需 要 将 M1 一 M3 数 
据 块 再 次 镜像 到 其 他 磁盘 。 如 图 15-43 左 边 部 分 所 示 ，XIV 系 统 将 这 三 个 
数据 块 镜像 到 了 D3 磁盘 的 剩余 空间 内 。 右 半边 显示 的 是 男 外 一 种 镜像 
方式 ， 即 系统 可 以 将 数据 块 镜像 到 任何 磁盘 的 任何 位 置 。 右 半边 所 示 的 
方式 ， 同 样 可 以 保证 数据 的 元 余 性 。 








图 15-43 ”D1 故障 


假如 ，XIV 系 统 在 D1 磁 盘 故 障 之 后 ， 成 功 地 将 M1 一 M3 再 次 镜像 到 
了 D3 和 D4 两 块 磁盘 之 后 ，D3 磁 盘 又 发 生 了 故障 。 那 么 此 时 可 以 判断 
出 ， 数 据 依然 没有 丢失 。 为 了 恢复 数据 的 见 余 性 ， 此 时 系统 会 再 次 将 只 
剩 下 一 份 复制 的 数据 块 再 次 镜像 到 系统 整体 的 剩余 空间 内 。 如 图 15-44 
所 示 。 左 右 两 半边 分 别 对 应 了 两 种 方式 。 

















图 15-44 ”元 余 性 恢复 了 《两 种 模式 ) 











当 镜 像 完成 后 ， 系 统 依然 可 以 保证 元 余 性 。 如 果 此 时 D2 或 者 D4 任 
何 一 块 磁盘 故障 ， 那 么 系统 将 没有 元 余 性 ， 但 是 数据 依然 可 以 访问 。 当 
最 后 剩余 的 磁盘 也 故障 时 ， 数 据 束 损毁 了 。 某 时 刻 ， 管 理 员 手 动 添加 了 
两 块 新 便 盘 ，XIV 系 统 会 重新 平衡 数据 分 布 ， 让 LUN 的 6 个 分 其 平衡 分 
布 在 这 4 块 便 盘 上 。 如 图 15-45 所 示 为 重新 分 布 完成 后 的 数据 分 布 图 。 





图 15-45 ”新 盘 加 入 之 后 数据 重新 平衡 








从 上 面 的 例子 中 我 们 可 以 体会 出 ，XIV 的 这 种 上 层 RAID 10 设计 ， 
是 一 种 可 以 随时 迁移 数据 块 的 ， 并 且 可 以 任意 分 布 式 摆 放 数据 块 ， 不 受 
磁盘 数量 限制 而 只 受 系统 内 整体 剩余 空间 限制 的 新 设计 思想 。 所 以 我 们 
在 上 文 把 这 种 模式 叫做 “上 层 分 布 式 RAID 10”。 


传统 RAID 10 系 统 在 一 块 磁盘 故障 之 后 ， 只 能 将 源 磁 盘 上 的 全 部 数 
据 镜 像 到 新 的 磁盘 中 ， 如 果 此 时 系统 已 经 没有 新 的 磁盘 ， 那 么 系统 什么 
也 不 会 做 ， 只 会 报警 通知 管理 员 快 增加 新 磁盘 。 


解决 磁盘 必须 在 本 地 的 问题 。 由 于 是 上 层 RAID， 所 以 XIV 系 统 中 

的 每 个 节点 都 可 以 通过 后 端的 以 太 网 交换 机 与 其 他 节点 进行 内 部 通信 ， 
以 同步 所 有 LUN 的 Distribute Map， 以 及 用 于 将 本 地 存储 的 数据 块 镜像 到 
另外 节点 上 的 磁盘 。 同 一 个 节点 中 存储 的 数据 块 中 任何 一 个 数据 块 的 镜 
像 块 都 必须 被 存放 在 非 本 节点 的 任何 一 个 或 多 个 其 他 节点 上 。 这 样 ， 一 
旦 一 个 节点 整体 故障 ， 数 据 依然 可 以 访问 ， 同 时 剩余 的 所 有 节点 均 会 通 
过 Distribute Map 来 判断 故障 节点 中 原来 所 存储 的 某 个 或 某 些 数据 块 是 否 
是 本 地 存储 的 某 个 或 某 些 数据 块 的 源 块 或 者 镜像 块 ; 如 果 是 ， 则 证 明 这 
个 数据 块 目前 已 经 没有 了 元 余 性 ， 需 要 再 次 将 其 镜像 ， 则 系统 会 将 存储 
于 本 地 的 这 个 或 者 这 些 数据 块 镜 像 一 份 ， 将 其 复制 到 另外 的 节点 中 的 剩 
余 空 间 存放 。 














目前 所 发 布 的 XIV 系 统 ， 最 大 配置 为 6 个 Interface Module 十 9 个 Data 
Module。 最 大 磁盘 数量 二 15x12 二 180 块 SATA 人 硬盘 。 虽 然 系 统 整体 容量 
不 大 ， 但 是 XIV 的 这 种 架构 设计 可 以 很 容易 地 扩充 到 更 多 的 节点 。 





此 外 ，XIV 的 一 项 非常 拿 得 出 手 的 本 领 ， 就 是 ， 只 要 系统 整体 还 有 
剩余 的 磁盘 空间 ， 那 么 只 要 磁盘 一 块 一 块 的 坏 下 去 ， 其 至 节操 一 个 一 个 
的 故障 下 去 ， 那 么 整体 数据 的 元 余 性 依然 会 被 保持 ， 直 到 没有 剩余 空间 





不 足 为 止 。 当 然 ， 前 提 是 ， 在 一 个 磁盘 或 者 一 整个 节点 坏 掉 之 后 ， 必 须 
等 待 系统 Rebuild， 也 就 是 镜像 完成 之 后 ， 才 能 允许 再 坏 下 一 块 磁盘 〈 与 
上 一 块 磁盘 在 同一 节点 的 磁盘 可 以 一 下 全 坏 ) 或 者 下 一 个 节点 ， 人 否则 数 
据 很 大 几率 上 将 被 损毁 。 这 一 点 ， 在 经 过 上 文 演示 之 后 相信 读者 都 可 以 
充分 深刻 地 理解 其 本 质 了 。 








还 有 ，XIV 的 另 一 项 杀手 铀 就 在 于 其 在 故障 之 后 对 系统 元 余 性 的 恢 
复 速度 方面 。 很 多 人 都 表示 惊讶 。 据 资料 显示 ,“ 一 个 1TB 容 量 的 SATA 
磁盘 损坏 后 ， 满 配 的 XIV 并 且 数 据 存 满 这 块 故 障 的 磁盘 后 的 Rebuild 时 间 

只 需要 30 分 钟 左右 ， 相 对 传统 Raid 恢 复 来 讲 ， 速 度 有 了 惊人 的 提升 ”。 
请 注意 ， 所 谓 “ 相 对 于 传统 Raid 恢 复 ”， 是 传统 RAID 5 还 是 传统 RAID 10 
呢 ? 这 可 能 会 让 人 产生 思维 定 势 ， 自 然 的 考虑 到 RAID 5 恢复 时 所 耗费 的 
时 间 ， 那 是 相当 长 的 。 但 是 XIV 本 质 是 RAID 10 啊 ， 得 用 传统 RAID 10 来 
比较 才 对 ， 下 文 会 做 详细 比较 。 








经 过 上 面 的 分 析 之 后 ， 这 种 恢复 速度 丝 可 不 让 人 惊讶 ， 因 为 其 设计 
思想 自然 地 就 能 够 达到 这 么 高 的 恢复 速度 ， 如 果 达 不 到 ， 那 才 是 让 人 惊 
讶 之 处 。 下 面 列 出 了 几 个 让 人 不 惊讶 的 原因 及 对 应 的 分 析 。 





原因 1: 看 清楚 ， 想 清楚 。 是 RAID 10 不 是 RAID 5， 如 果 换 RAID 5 
试 试 ? XIV 的 卷 管理 系统 在 故障 恢复 和 数据 分 布 时 之 所 以 可 以 设计 得 如 
此 灵活 ， 是 因为 其 使 用 的 RAID 10 镜 像 的 思想 ， 而 不 是 RAID 5 的 Stripe 
算 XOR 的 思想 。 假 如 ，XIV 使 用 RAID 5 的 思想 ， 也 就 是 几 个 数据 块 做 
XOR， 然 后 将 校 验 值 存放 在 其 他 存储 空间 。 那 这 样 的 话 ， 每 当 卷 管理 系 
统 要 将 某 LUN 的 某 个 块 移动 到 其 他 位 置 的 时 候 ， 系 统 都 要 在 新 位 置 上 重 
算 XOR， 与 传统 RAID 5 实现 方式 没有 一 点 区 别 。 所 以 如 果 使 用 RAID 5 
或 者 RAID 4 的 话 ， 那 么 XIV 就 与 常人 无 民 了 ， 就 是 一 款 普 普通 通 的 集群 
存储 系统 ， 其 杀手 铀 也 将 不 复 存 在 。 正 因 如 此 ， 由 于 RAID 5 的 XOR 计 





算 需 要 耗费 太 多 的 计算 资源 和 IO 资 源 ， 所 以 XIV 的 恢复 速度 比 RAID 5 快 
十 几 倍 也 是 很 正常 的 。 


原因 2: 分 布 式 ， 理 解 这 三 个 字 。 传统 RAID ” 10， 一块 磁盘 丢失 
后 ， 镜 像 的 数据 只 能 从 那 一 块 镜像 磁盘 上 来 读 ， 然 后 还 只 能 写 到 那 一 块 
新 磁盘 上 去 ， 也 就 是 一 个 盘 读 ， 一 个 盘 写 。 而 XIV 的 卷 管理 系统 是 将 
LUN 分 块 平衡 存放 于 多 个 磁盘 的 ， 而 这 些 分 块 对 应 的 镜像 块 也 都 是 存放 
在 多 个 磁盘 上 的 ， 所 以 在 XIV 进 行 Rebuild 的 时 候 ， 是 从 多 个 盘 读 ， 同 时 
向 多 个 盘 写 ， 相 当 于 RAID ”3 的 思想 ， 众 人 拾 柴火 焰 高 ， 满 配 180 块 磁 
盘 ， 所 以 恢复 速度 快 是 理所当然 的 了 。 


这 里 有 必要 再 与 RAID 5 比较 一 下 。 假 设 同 样 有 180 块 硬盘 ， 组 成 了 
一 个 大 RAID 5， 坏 掉 一 块 磁盘 之 后 ， 系 统 需 要 从 剩余 的 179 块 磁盘 中 读 
出 其 上 的 所 有 数据 (当然 数据 是 边 读 边 运算 的 ， 这 里 将 其 转换 为 最 终 统 
计数 字 ) ， 然 后 再 将 运算 结果 写 到 新 磁盘 中 。 如 果 每 块 磁盘 容量 是 
1TB， 内 部 磁盘 环 路 带宽 为 4Gb 二 400MB/s， 需 要 读 出 的 总 数据 量 为 
179TB， 需 要 耗费 的 时 间 为 〈179x1024x1024/400) /3600 王 130.3 小 时 ， 
由 于 写 入 新 盘 和 读 取 剩余 磁盘 为 双 工 操作 ， 所 以 不 计 入 总 时 间 ， 另 外 ， 
也 忽略 了 XOR 运 算 所 消耗 的 时 间 ， 而 且 磁 盘 环 路 带宽 按照 100% 效 率 计 
算 。 这 个 数字 与 0.5 相 比 ， 反 差 是 巨大 的 。 但 是 一 定 要 清楚 ，RAID 10 与 
RAID 5 在 恢复 时 间 方 面 没有 可 比 性 。 况 且 实 际 也 不 会 使 用 这 么 多 的 磁盘 
来 形成 一 个 RAID 5 组 。 实 际 中 一 般 情 况 下 就 拿 8 盘 RAID 5 来 算 的 话 ， 
Rebuild 时 间 也 要 有 8 一 9 个 小 时 ， 而 且 是 系统 外 部 负载 很 小 的 时 候 。 














我 们 不 妨 再 与 传统 RAID 10 系 统 来 比较 一 下 。 假 设 同样 由 180 块 便 盘 
组 成 一 个 传统 RAID 10 系 统 ， 其 中 90 块 盘 与 男 90 块 盘 互 为 镜像 关系 。 某 
时 刻 ， 其 中 一 块 磁盘 故障 ， 此 时 系统 会 从 这 块 磁 盘 对 应 的 镜像 磁盘 将 数 
据 读 出 同时 写 入 新 磁盘 。 由 于 不 牵扯 任何 XOR 之 类 的 额外 运算 ， 属 于 整 


盘 复制 ，IO 类 型 属于 连续 读 与 连续 写 ， 所 以 可 以 按照 SATA 硬 盘 的 理论 
连续 读 吞 吐 量 60MB/s 来 计算 。 〈1x1024x1024/60) /3600 三 4.85 小 时 。 可 
以 近似 认为 180 块 硬盘 配置 的 XIV 在 Rebuild 时 耗费 的 时 间 为 传统 RAID 10 
的 /10。 如 果 今 后 XIV 系 统 可 以 增加 更 多 的 节点 ， 想 必 Rebuild 速 度 会 有 
所 加 快 。 当 然 ， 系 统 整体 磁盘 越 少 ，Rebuild 时 间 也 就 会 相应 延长 了 。 














原因 3: 最 重要 的 原因 是 ， 不 做 无 用 功 ! 这 也 是 3 个 原因 中 最 重要 
也 是 效果 最 大 的 一 个 原因 。 人 恢复 速度 快 ， 只 重新 镜像 复制 磁盘 上 已 经 被 
LUN 所 占用 的 那些 数据 块 ， 而 不 是 整 盘 镜 像 。 如 果 这 个 坏 盘 上 原先 只 有 
很 少 的 数据 块 被 占用 ， 还 用 30 分 钟 么 ? 估计 一 分 钟 也 可 以 了 ， 甚 至 几 秒 
钟 都 有 可 能 ， 或 者 ， 根 本 不 用 时 间 ， 因 为 或 许 它 上 面 本 来 就 没有 任何 
LUN 去 占用 。 





5. XIV 系 统 很 容易 做 到 但 尚未 做 到 的 


动态 存储 分 级 数据 迁移 是 目前 正在 被 热 炒 的 几 个 存储 系统 上 层 技术 
之 一 。 包 括 Compellent、EMC、HDS 在 内 的 多 家 厂商 都 已 经 在 这 个 领域 
有 相关 的 产品 发 布 。 但 是 IBM 只 是 在 Tivoli 软 件 中 实现 了 一 个 客户 端 基 
于 文件 的 分 层 管理 工具 ， 并 未 在 存储 端 提 供 基 于 卷 或 者 基于 Block 的 动 
态 迁 移 方案 。 











XIV 这 种 可 以 将 LUN 分 块 任意 迁移 到 其 他 节点 的 功能 ， 自 然而 然 地 
就 可 以 在 稍 加 开发 的 基础 上 做 到 Tiered Storage Management。Compelent 
公司 可 以 在 其 在 线 存储 中 实现 基于 Block 的 动态 数据 迁移 ，HDS 可 以 在 
其 存储 系统 中 做 到 基于 卷 的 手动 迁移 ，EMC 在 其 存储 系统 中 提供 FAST 
功能 可 以 实现 基于 卷 或 者 卷 分 块 的 动态 迁移 。 可 以 看 到 ， 这 些 拷 术 都 是 
将 整 卷 或 者 整 卷 细 分 成 更 细小 的 块 来 做 迁移 的 。XIV 原 生 的 技术 已 经 文 
持 了 卷 分 块 迁移 ， 相 比 于 上 述 广 商 ， 所 需要 开发 的 模块 就 少 了 很 多 。 














遗憾 的 是 ，XIV 目 前 尚未 有 相关 技术 发 布 。 包 括 有 类 似 潜质 的 
WAEFL， 也 未 见 动静 。 综 上 所 述 ，XIV 将 LUN 当 作 一 个 文件 ， 然 后 在 一 
个 分 布 式 多 节点 系统 内 利用 分 布 式 文 件 系统 来 管理 这 些 LUN， 再 利用 
Interface Module 将 这 些 文件 LUN 以 SCSI 块 的 形式 进行 输出 。 


6. XIV 系 统 的 理论 吞吐 量 计算 


XIV 存 储 系统 在 节点 互 连 带宽 方面 不 是 很 足 。 干 兆 以 太 网 交换 机 ， 
在 15 个 节点 满 配 的 情况 下 ， 其 后 端 整体 互 连 带宽 也 不 过 6x6 十 9x4 三 
72Gb/s 二 9GB/s。 对 于 15 个 节点 的 存储 集群 ， 这 个 数值 是 比较 低 的 ， 也 
是 瓶颈 所 在 。 





由 于 系统 在 处 理 IO 写 的 过 程 中 ， 会 产生 2 次 或 者 3 次 IO 传输 过 程 ， 均 
会 跨越 后 端 交 换 机 。 我 们 在 此 给 出 一 个 理论 计算 推导 出 来 的 XIV 满 配 情 
况 下 的 最 大 读 和 写 否 吐 量 的 计算 过 程 和 结果 。 由 于 系统 包含 6 个 Interface 
Module 和 9 个 Data Module， 所 以 需要 读 写 的 数据 块 地 址 沙 在 前 者 类 型 市 
态 之 上 的 几率 为 6/15 二 0.4， 落 在 后 者 类 型 布点 之 上 的 几率 为 0.6。 我 们 
按照 几率 来 进行 计算 。 





1) 理论 平均 最 大 读 否 吐 量 (Cache Miss) 


假设 ， 在 一 秒 之 内 ， 系 统 接收 到 的 所 有 读 IO 对 应 地 址 的 Primary 或 
者 Secondary 块 均 落 在 了 Interface 类 型 的 节点 之 上 上。 那么 ， 我 们 假设 IO 类 
型 为 大 块 连续 IO， 每 个 Interface Module 的 12 块 SATA 硬 盘 以 额定 速率 发 
送 数 据 ， 即 每 块 便 盘 60MB/s 的 速度 ， 总 速度 为 12x60MB/s 王 720MB/s， 
6 个 节点 后 端 额 定 速度 共 4320MB/s， 前 端 额定 速度 为 2x6x400MB/s 王 
4800MB/S， 所 以 整体 理论 额定 速率 以 后 端 为 准 ， 为 4320MB/s。 


假设 ， 在 一 秒 之 内 ， 系 统 接收 到 的 所 有 读 IO 对 应 地 址 的 Primary 或 
者 Secondary 块 均 落 在 了 Data 类 型 的 节点 之 上 ， 而 且 我 们 同样 假设 IO 类 型 
为 大 块 连续 IO。 此 时 ， 每 个 Interface Module 在 接收 到 读 IO 请 求 之 后 都 需 
要 从 后 方 的 Data Module 上 取 数 据 。 所 有 6 个 Interface Module 的 后 端 链 路 
总 带宽 为 6x6Gb/s 二 36Gb/s 二 4.5GB/s， 而 所 有 9 个 Data ”Module 所 提供 的 
链 路 总 带宽 为 9x4Gb/s 王 36Gb/s 三 4.5GB/Ss， 与 前 方 Interface ”Module 匹 
配 ， 但 是 必须 要 看 后 端 磁 盘 是 否 可 以 满足 这 个 带宽 。 后 端 共 9x12 王 108 
块 SATA 硬 盘 ， 每 块 理论 最 大 带宽 60MB/$， 总 后 端 磁盘 读 宽 二 
108x60MB/s 二 6480MB/s>4.5GB/s， 所 以 ， 按 照 前 端 带宽 为 准 ， 整 体 理 
论 带 宽 为 4.5GB/s。 


按照 几率 比例 将 结果 进行 换算 得 出 系统 读 平 均 理论 最 大 禹 客 为 : 
(4.5GB/s x 0.6) 十 (4320MB/s x0.4) 二 4492.8MB/s。 除 掉 前 端 FC 协 
议 以 及 后 端 以 太 网 与 其 上 层 协议 传输 耗费 的 融 宽 ， 按 照 15% 来 算 ， 再 除 
掉 控 制 器 处 理 所 耗 费 的 延迟 资源 等 ， 按 照 10% 计算 ， 则 最 终 实际 结果 应 
该 接近 于 3369MB/s。 








2) 理论 平均 最 大 写 否 吐 量 (Write Through) 





a 假设 IO 类 型 为 大 块 连续 IO。 由 于 后 端 罕 扯 到 Cache Mirror 过 程 ， 
所 以 计算 起 来 比较 复杂 。 


3) IO 对 应 的 地 址 落 在 Interface 节 点 (几率 0.4) 


4) IO 对 应 的 块 地 址 恰好 沙 在 接收 到 IO 的 Interface 节 点 (几率 
0.4x1/6) 


5) 镜像 块 落 在 了 其 他 Interface 节 点 (几率 0.4x1/6x5/14) 





这 种 情况 下 ， 每 个 接收 到 IO 的 Interface 节 点 可 以 用 后 端 6 条 链 路 全 速 
问 镜 像 块 所 在 的 节点 发 送 数据 ， 即 整体 写 吞 吐 量 为 6x6Gb/s 王 36Gb/s 王 
4.5GB/s。 


m 镜像 块 钞 在 了 某 Data 节 点 〈 儿 率 0.4xl/6x9/14) 。 





这 种 情况 下 ， 同 样 由 于 每 个 接收 到 IO 的 Interface 节 点 只 能 同一 个 
Data 节 点 发 送 数据 ， 则 只 能 够 以 Data 节 点 后 端 链 路 数 为 准 ， 即 整体 写 吞 
吐 量 为 6x4Gb/s 王 3GB/s。 


a IO 对 应 的 块 地 址 落 在 了 非 接收 到 IO 的 IPnterface 节 点 《〈 儿 率 
0.4x5/6) 。 
m 镜像 块 落 在 了 其 他 Interface 节 点 〈 几 率 0.4x5/6x5/14) 。 


这 种 情况 下 ， 要 计算 理论 最 大 带宽 ， 需 要 让 所 有 的 节点 在 收发 数据 
时 不 发 生 冲突 ， 即 每 3 个 Interface 节 点 为 一 组 《接收 到 IO 的 节点 、 一 次 转 
发 节 氮 、 二 次 转发 节点 ) ， 共 两 组 。 整 体 传输 带宽 为 : 2x6Gb/s 二 
1.5GB/s。 





m 镜像 块 落 在 了 某 Data 节 点 〈 儿 率 0.4x5/6x9/14) 。 


这 种 情况 下 ， 要 计算 理论 最 大 带宽 ， 需 要 让 所 有 的 节点 在 收发 数据 
时 不 发 生 冲 突 ， 即 每 两 个 Interface 市 点 为 一 组 (接收 IO 的 节点 、 一 次 转 
发 到 的 节点 ) ， 共 3 组 。 但 是 这 三 组 接收 传送 组 的 终点 是 各 自 对 应 的 
Data 节 点 ， 所 以 按照 Data 节 点 的 最 大 链 路 来 计算 。 整 体 厨 吐 量 为 
3x4Gb/S 王 1.5GPB/S。 





将 以 上 所 有 结果 乘 以 各 自 对 应 的 几率 ， 我 们 得 出 第 一 种 情况 的 吞吐 
量 贡献 值 为 0.736GB/s。 


m IO 对 应 的 地 址 落 在 Data 节 点 〈 几 率 0.6) 。 
a 镜像 块 落 在 了 Interface 节 点 〈 几 率 0.6x6/14) 。 


在 这 种 情况 下 ， 一 个 接收 转发 组 由 接收 到 IO 的 节点 、 一 次 转发 Data 
节点 和 二 次 转发 mterface 节 点 组 成 。 二 次 转发 Interface 节 点 又 可 作为 接收 
到 IO 的 节点 ， 依 次 类 推 串联 ， 每 个 转 皮 组 都 不 会 与 其 他 转发 组 冲突 。 这 
样 一 共 是 5.5 组 。 以 Data 节 点 链 路 数量 为 准 计算 ， 整 体重 吐 量 为 
D.Dx4GB/S 王 2.7DGB/S。 








m 镜像 块 落 在 了 其 他 Data 节 点 〈 几 率 0.6x8/14) 。 


在 这 种 情况 下 ， 一 个 接收 转发 组 由 接收 到 IO 的 节点 、 一 次 转发 Data 
节点 和 二 次 转发 Data 节 点 组 成 ， 共 可 组 成 4.5 组 。 以 Data 节 点 链 路 数量 为 
准 计 算 ， 整 体 吞 吐 量 为 4.5x4GB/s 王 2.25GB/s。 





将 以 上 所 有 结果 乘 以 各 自 对 应 的 几率 ， 我 们 得 出 第 二 种 情况 的 吞吐 
量 贡献 值 为 1.478GB/s。 


将 第 一 种 和 第 二 种 情况 的 贡献 值 相 加 得 出 系统 整体 理论 写 吞 吐 量 为 
2.214GB/s。 除 掉 协 议 层 耗费 的 带宽 以 及 控制 器 处 理 延 迟 总 开销 共 
25% ， 得 出 最 后 实际 写 吞 吐 量 应 接近 1.66GB/s。 





XIV 系 统 在 读 和 写 同 时 进行 的 时 候 ， 由 于 后 端 链 路 会 发 生 严重 的 剖 
突 《〈 读 和 写 都 需要 后 端 链 路 进行 发 送 和 接收 动作 ) ， 所 以 理论 值 更 是 达 
不 到 上 述 分 析 结 果 了 。 其 次 ， 由 于 多 个 LUN 都 均匀 分 布 于 所 有 节点 的 所 
有 硬盘 ， 所 以 ， 在 多 LUN 并 发 连续 大 块 IO 读 或 者 写 的 时 候 ， 很 有 可 能 会 
造成 硬盘 寻 道 冲突 ， 大 大 降低 吞吐 量 〈 这 个 冲突 作用 我 们 会 在 性 能 优化 
章节 中 介绍 和 分 析 ) 。 而 对 于 小 块 随机 IO， 即 OLTP 类 型 的 ID， 分 布 式 
的 LUN 的 设计 会 随 着 节点 的 增加 而 IOPS 正 比 升 高 。 














如 图 15-46 所 示 为 XIV 系 统 的 看 时 量 实测 值 ， 我 们 看 到 与 推导 值 访 为 
接近 ， 但 是 误差 比较 大 ， 这 个 无 法 避免 。 


图 15-46 “吞吐 量 实测 值 





如 图 15-47 所 示 为 XIV 系 统 的 IOPS 实 测 值 (Cache Miss) ， 可 以 看 到 
这 个 值 对 于 一 个 由 180 块 SATA 盘 组 成 的 集群 系统 来 讲 还 是 比较 可 观 的 。 


图 15-47 ”IOPS 实 测 值 





7. 全 打 散 式 LUN 分 布 方式 的 致命 缺 反 


当 遇 到 多 主机 用 大 块 连续 IO 的 方式 并 发 访问 多 个 LUN 的 时 候 ， 此 时 
ee i elt 节 。 机 械 磁盘 最 
怕 寻 道 ， 加 上 XIV 使 用 的 都 是 SATA 盘 ， 平 均 寻 道 速度 更 慢 ， 此 时 便 是 
XIV 最 难受 的 时 候 。 








15.6.2 ”3PAR 公 司 Inserv-T800 集 群 存 储 系统 
1. Inserv-T800 系 统 人 硬件 架构 简 述 


3PAR 公司 设计 的 Inserv-T800 为 一 款 X86 和 集群 式 存储 系统 。 整 个 集 
群 系统 可 以 由 2 一 8 个 节点 组 成 ， 其 中 节点 必须 成 对 添加 ， 每 1 对 为 1 个 单 
元 ， 这 1 对 节点 共享 的 带 起 后 喘 的 两 串 磁 盘 扩 展柜 《〈 每 串 4 个 ) ， 一 个 节 
点 对 不 能 直接 访问 另 一 个 节点 对 所 管理 的 磁盘 。 





每 一 个 节点 都 是 一 台中 高 配置 的 X86 Server。 系 统 内 的 所 有 节点 间 
两 两 直通 ， 每 两 个 节点 都 使 用 一 条 独立 的 100MHz 64bPCI-X 总 线 相 连 。 
在 一 个 8 节点 的 系统 内 ，1 个 节点 需要 与 另外 7 个 节点 互 连 ， 所 以 ， 每 个 


节点 都 需要 7 条 PCI-X 总 线 连接 到 背 板 ， 形 成 一 个 具有 28 条 直通 PCI-X 总 
线 的 星 形 结构 ， 如 图 15.48 右 侧 所 示 。 但 是 由 于 PCI-X 为 半 双 工 传输 ， 所 
以 整体 系统 内 部 互联 带宽 为 28x800MB/s 二 21.875GB/s。 由 于 PCI-X 并 非 
一 种 包 交 换 网 络 传输 模式 ， 所 以 背 板 并 不 需要 加 电 ， 是 一 块 布 满 导线 和 
接口 的 被 动 式 的 背 板 ，PCI-X 编 解码 和 传输 电路 都 位 于 节点 内 部 。 同 样 
是 由 于 被 动 背 板 的 原因 ， 如 果 系 统 节点 数量 达 不 到 8 个 ， 比 如 只 有 两 
， 那 么 此 时 只 能 用 到 后 端的 一 条 PCI-X 线 路 作为 互联 ， 因 为 背 板 没有 
能 j 判 断 连接 的 节点 数量 并 自动 将 电路 开关 切换 以 便 让 当前 连接 的 节 
尽 可 能 多 地 使 用 后 端的 所 有 总 线 。 











起 


如 图 15-48 所 示 为 单个 节点 内 部 的 架构 。 每 个 节点 使 用 两 个 双核 Intel 
的 CPU， 并 使 用 4GB 内 存 作为 3PAR 的 InForm 操 作 系 统 的 运行 空间 。 另 
外 加 一 块 ASIC 蕊 片 来 负责 数据 在 前 端 和 后 端 之 间 的 传输 、 与 其 他 节点 
的 缓存 镜像 操作 、RAID XOR 运 算 、 市 点 间 相 互通 信 以 及 ThinProvision 
和 LUN ”Shrink 功 能 。 这 球 ASIC 的 功能 是 非常 多 的 ， 而 旦 最 新 奇 的 是 ， 
ThinProvision 以 及 LUN Shrink 的 功能 也 被 内 磐 到 了 这 和 天心 片 中 来 执行 
这 在 其 他 厂商 是 从 未 见 过 的 ， 也 是 3PAR 的 一 大 亮点 。 目 前 这 款 芯 片 最 
新 的 一 代为 第 三 代 。 芯 片 内 部 有 3 个 133MHz ”64b 的 PCI-X 总 线 用 于 连接 
前 端 和 后 端的 接口 卡 ， 以 及 7 个 100MHz ”64b 的 PCLX 总 线 专门 用 于 连接 
其 他 节点 。ASIC 心 片 直接 控制 者 12GB 的 数据 缓存。 








图 15-48 ”控制 器 架构 示意 图 


如 图 15-49 所 示 为 节点 控制 器 的 实物 图 。 可 以 看 到 共有 6 个 PCI-X 扩 
展 卡 插 槽 ， 它 们 共享 3 条 PCI-X 总 线 。 图 15-50 左 侧 所 示 为 系统 的 背 板 ， 
可 以 看 到 其 上 的 8 个 高 密度 针 接 口 对 应 着 8 个 节点 。 图 15-50 右 侧 所 示 为 
磁盘 扩展 柜 实物 图 。3PAR 的 扩展 柜 很 有 特色 ， 在 4U 的 空间 内 放置 了 40 








块 3.5 瑞 寸 便 盘 ， 其 原因 是 由 于 磁盘 竖 置 并 且 紧 密 排列 并 且 解 决 了 散热 

和 共振 问题 ， 这 在 其 他 厂商 产品 中 也 是 没有 过 的 。 并 且 ， 节 点 后 端的 每 
个 FC Loop 仅 连接 一 个 扩展 柜 ， 即 40 块 硬盘 。 扩 展柜 同样 也 是 双 Loop 结 
构 ， 一 个 节点 对 中 的 每 个 节点 各 拿 出 一 个 后 端 FC 接口 来 连接 一 串 (4 个 
级 联 ) 扩展 柜 ， 每 个 节点 再 拿 出 另外 一 个 FC 口 连接 对 方 节 点 的 扩展 

柜 。 这 样 ， 每 个 节点 对 最 多 可 以 共同 连接 8 个 扩展 柜 ， 即 320 块 盘 ，4 个 

节点 对 (8 个 节点 ) 共 可 以 连接 的 最 大 磁盘 数 为 1280 块 。 




















图 15-49 ”控制 器 实物 图 





图 15-50“” 背 板 和 扩展 柜 实 物 图 





图 15-51 所 示 为 8 个 市 上 与 各 目 扩 展柜 的 连接 情况 示意 图 。 每 个 市 后 
对 最 大 可 以 连接 8 个 扩展 柜 ， 图 中 未 标识 出 。 





图 15-51 ”8 节点 互联 





图 15-52 所 示 为 Inserv-T400 系 统 ， 最 大 4 市 点 系统 的 机 柜 ， 机 柜上 部 
为 磁盘 扩展 柜 ， 下 部 可 以 放置 4 个 节点 控制 器 。 左 侧 的 背 板 为 8 接口 ， 是 
对 应 T800 的 ， 这 里 只 是 示意 图 。T400 使 用 的 是 4 接口 的 背 板 。 











图 15-52 ” T400 系 统 示 意图 


2. Inserv 集 群 存储 系统 架构 人 简 评 


Inserv 集 群 存储 系统 是 一 球 特 点 很 多 的 产品 。 


首先 ， 它 使 用 直 连 的 廉价 PCI-X 总 线 作 为 节点 间 互 连 的 通道 ， 但 是 





由 于 PCI-X 半 双 工 的 限制 ， 使 得 8 节点 间 互 连带 宽 只 有 21.875GB/s。 而 且 
由 于 采用 点 对 点 直 连 而 非 交 换 方式 ， 这 就 造成 系统 的 扩展 性 大 受 限制 ， 
N 节 点 的 系统 就 要 求 每 个 节点 提供 N 一 1 条 PCI-X 总 线 ， 不 适合 扩充 到 更 
多 的 节点 。 

















其 次 ， 节 点 内 部 使 用 专用 ASIC 图 15-53 Thin ASIC 
来 实现 大 部 分 数据 操作 ， 并 还 负责 执 
行 ThinProvision 和 LUNShrink (或 者 叫 LUN Space Reclaiming) 的 功能 ， 
这 又 会 大 大 降低 系统 主 CPU 的 负担 。 再 次 ， 磁 盘 扩 展柜 的 高 密度 设计 ， 
大 大 减少 了 空间 占用 以 及 连 线 ， 一 定 程度 上 也 降低 了 耗 电 。 如 图 15-53 
所 示 为 这 款 ASIC 芯 片 的 实物 图 。 








Inserv 集 群 存储 系统 的 一 个 比较 显著 的 瓶颈 点 在 于 每 个 节点 使 用 3 条 
1GB/s 的 PCI-X 总 线 来 支撑 6 个 扩展 卡 共 24 个 4Gb/s 的 FC 接口 ， 这 实在 有 
点 捉襟见肘 。 这 也 注定 了 这 球 产 品 在 满 配 8 个 节点 ， 前 端 128 个 4Gb/s 的 
FC 接口 的 情况 下 ， 系 统 整体 带宽 否 吐 量 上 不 去 ， 停 留 在 不 到 6.5GB/s 的 
级 别 上 。 





但 是 系统 整体 的 IOPS 吞 吐 量 是 很 不 错 的 ， 如 图 15-54 所 示 ，SPC-1 测 
试 取 得 了 224990 IOPS 的 成 绩 。 而 且 曲 线 非 常平 滑 和 趋 缓 ， 显 示 了 系统 
整体 极 高 的 IO 消化 能 





图 15-54 ”IOPS SPC-1 值 








15.6.3 EMC 公司 Symmetrix V-MAX 集 群 存 储 系统 
1. Symmetrix V-MAX 集 群 存 储 系 统 硬件 架构 简 述 


Symmetrix V-MAX 是 EMC 在 2009 年 中 旬 推 出 的 一 于 集群 存储 系 





统 。 其 使 用 X86 Server 作 为 节点 ， 每 个 节点 配备 两 颗 四 核 Intel CPU 以 及 
几 十 GB 的 内 存 ， 大 和 干 扩展 卡 ， 另 外 当然 也 少不了 用 于 节点 互联 的 网 络 
通道 卡 一 一 RapidIO 适 配 卡 。V-MAX 集 群 采 用 RapidIO 网 络 来 作为 集群 
内 部 互联 通道 ， 整 体 采用 两 个 外 部 独立 RapidIO 交 换 机 来 提供 交换 介质 





如 图 15-55 所 示 为 V-MAX 系 统 满 配 时 的 拓扑 图 ， 共 16 个 Director 〈 节 
点 ) ， 每 两 个 Director 组 成 一 对 共同 挂 起 后 端 一 串 磁 盘 扩 展柜 。 每 对 
Director 被 称 做 一 个 Engine， 满 配 最 大 8 个 Engine。 如 图 15-55 右 侧 所 示 为 
单个 节点 〈Director) 内 部 的 带宽 情况 。 节 点 便 件 指标 方面 ， 这 里 就 不 
作 过 多 描述 了 ， 因 为 x86 Server 都 差不多 。 这 里 主要 描述 一 下 RapidIO 这 
个 网 络 。 





图 15-55” 满 配 时 示意 图 





图 15-56 所 示 为 单个 Engine 的 物理 视图 。 两 个 Director 组 成 一 个 
Engine 并 放置 于 同一 个 机 箱 之 内 。 





图 15-56 ”单个 Engine 物 理 视图 


RapidIO 是 一 种 高 速 网 络 ， 目 前 被 广泛 用 于 和 众 入 式 半 导体 器 件 之 间 
的 互 连 。 像 任何 高 速 传输 网 络 协议 集 一 样 ，RapidIO 也 定义 了 一 套 自己 
的 传输 协议 层次 ， 在 OSI 各 层 都 有 相关 定义 。 物 理 层 可 以 采用 并 行 传输 
或 者 串 行 传输 ， 但 是 目前 广泛 被 应 用 的 是 串 行 传输 ，8/10b 编 码 机 制 |， 
目前 单 向 传输 速率 为 3.125GBaud/s， 合 2.5Gb/s 二 312.5MB/s。 同 样 可 以 4 
条 串 行 链 路 捆绑 形成 4X 链 路 ， 加 上 全 双 工 设计 ， 一 条 4X 的 RapidIO 链 路 
可 以 提供 双 同 20Gb/s 二 2.5GB/s 的 市 宽 。 链 路 层 采 用 成 帧 传输 ， 具 有 和 链 路 
层 流 控 和 传输 层 流 控 机 制 。 网 络 层 ，RapidIO 定 义 了 8b 或 者 16b 的 地 址 用 








于 路 由 /交换 每 个 Packet。 传 输 层 ，RapidIO 根 据 不 同 应 用 行为 规定 了 多 
种 传输 类 型 。 相 比 Fibre Channel 来 讲 ，RapidIO 协 议 更 加 高 效 。 目 前 最 多 
文 持 一 个 交换 域内 16 个 端点 ， 所 以 这 个 限制 也 是 目前 V-MAX 存 储 系统 
的 节点 限制 ， 即 16 个 节点 。 


RapidIO 目 前 已 经 成 为 一 种 标准 开放 的 芯片 通信 网 络 标准 ， 有 多 家 
厂商 参与 了 这 个 标准 的 制定 和 维护 ， 比 如 德州 仪器 、 上 天 讯 、EMC 等 。 
RapidIO 下 个 速率 级 别 为 6.25Baud/s， 合 单 向 20Gb/s 的 速率 。 





RapidIO 提 供 对 所 有 节点 共享 内 存 的 文 持 ， 即 在 一 个 RapidIO 网 络 之 
内 的 所 有 节点 上 的 内 存 共同 组 成 一 个 逻辑 的 大 内 存 空间 ， 每 个 节点 都 可 
以 寻 址 这 个 全 局 内 存 。 当 目标 地 址 位 于 本 地 内 存 的 时 候 ， 数 据 请 求 无 须 
经 过 外 部 网 络 ， 当 目标 地 址 位 于 其 他 节点 的 内 存 的 时 候 ， 那 么 本 地 点 
的 数据 请 求 会 经 过 外 部 RapidIO 网 络 被 发 送 到 对 应 的 节点 并 将 对 应 数据 
取 回 。 如 果 本 地 寻 址 不 命中 ， 则 由 于 经 过 了 外 部 网 络 ， 所 以 整体 响应 时 
间 就 会 增加 。 








Symmetrix V-MAX 系 统 就 是 一 个 共享 全 局 内 存 的 集群 存储 系统 。 
2. Symmetrix V-MAX 集 群 存储 系统 IO 处 理 流 程 示例 


每 个 Director 的 内 存 被 分 为 三 大 区 域 : CS (Control Store) 、 
GM (Global Memory) 和 S and F (Store and Forward) 。CS 区 域 保存 着 
运行 在 每 个 Director 上 的 操作 系统 所 必需 的 运行 时 数据 ; GM 区 域 用 于 存 
放 被 缓存 的 写 IO 数 据 或 者 被 Prefetch 的 待 读 IO 数 据 ; S and F 区 域 用 来 存 
放 Director 后 端 之 间 相 互 等 待 交 换 的 数据 队列 。 下 面 我 们 通过 几 个 示例 
来 了 解 这 些 逻 辑 区 域 的 角色 。 


1) 1 个 Director 参 与 ， 本 地 Read Hit 


如 图 15-57 所 示 ， 茶 Direcor 茶 时 刻 接收 到 了 一 个 主机 发 送 的 读 IO 请 
求 ，Director 在 接收 到 这 个 IO 请 求 之 后 ， 碍 询 系统 全 局 内 存 中 是 否 有 针 
对 这 个 IO 地 址 的 缓存 数据 存在 。 本 例 中 ，Director 恰 好 发 现 对 应 的 缓存 
Slot 就 在 本 地 的 GM 中 ， 所 以 Director 在 S and F 区 域 生成 一 条 针对 这 份 数 
据 在 GM 区 域 中 的 指针 ， 然 后 追加 到 S and F 区 域 队 列 尾部 等 待 发 送 。 随 
着 S and F 区 域 队列 不 断 被 执行 ， 这 份 数据 被 发送 到 主机 客户 站 。 








图 15-57 ”IO 流程 1 





2) 两 个 Director 参 与 ，Read Hit 于 远程 Director 








如 图 15-58 所 示 ，Directorl 接 收 到 主机 的 一 个 读 IO 请 求 ， 首 先 碍 询 
系统 全 局 GM 是 否 有 对 应 的 缓存 Slot， 发 现在 远程 Director2 的 GM 中 存在 
针对 这 个 IO 地 址 的 缓存 数据 Slot，Director1 立 即 通过 后 端 RapidIO 网 络 向 
Director2 发 起 请 求 ， 将 Director2 的 GM 中 对 应 的 数据 通过 RapidIO 网 络 传 
送 到 Director1 的 S and F 区 域 队列 中 。 数 据 收 到 后 ， 随 着 Director1 的 S and 
FE 区域 队列 不 断 被 执行 ， 这 份 数据 最 终 被 发 送 到 主机 客户 端 。 








图 15-58 IO 流程 2 


3) 3 个 Director 人 参与，Read Miss 








如 网 15-59 所 示 ，Directorl 接 收 到 主机 的 一 个 读 IO 请 求 ， 首 先 查 询 
系统 全 局 GM 中 是 否 有 针对 这 个 IO 地 址 的 缓存 Slot， 发 现 系统 全 局 GM 内 
没有 针对 这 个 地 址 的 缓存 Slot， 所 以 Director1 会 为 这 个 IO 对 应 的 地 址 分 
配 一 段 缓 存 ， 此 时 Director1l 会 根据 某 种 策略 ， 在 集群 内 任何 一 个 节点 的 
GM 上 都 可 以 进行 分 配 。 本 例 中 假设 Director1l 选 择 了 在 Director2 的 GM 中 








为 这 个 IO 对 应 的 地 址 分 配 缓存 ， 则 Director1 会 通过 RapidIO 网 络 回 
Director2 发 起 这 个 命令 请 求 。Director2 收 到 命令 后 ， 在 本 地 GM 为 这 个 
IO 地 址 分 配对 应 的 缓存 ， 并 同时 根据 IO 地 址 来 判断 这 个 IO 所 请 求 的 数据 
存在 于 哪个 节点 的 磁盘 上 。 本 例 中 假设 数据 存在 于 Director3 的 磁盘 上 ， 
则 Director2 向 Director3 请 求 这 份 数 据 ，Director3 收 到 请 求 后 ， 从 其 后 挂 
的 磁盘 中 将 这 份 数据 读 出 并 存 入 本 地 S and F 区 域 等 竺 被 发 送 。Director2 
收 到 Director3 发 送 的 数据 后 ， 将 其 放 入 已经 分 配 的 位 于 GM 中 的 绥 存 Slot 
中 ， 并 在 本 地 Ss and F 区 域 队 列 尾部 追加 这 份 数据 在 GM 中 的 指针 。 最 
终 ， 队 列 中 这 份 数据 被 发 送 到 了 Director1， 然 后 被 发 送 到 主机 客户 端 。 


图 15-59 IO 流程 3 





上 上面 这 个 例子 中 所 述 的 过 程 可 能 有 点 让 人 琢磨 不 透 ， 即 为 何 此 时 
Director2 会 参与 进来 ， 在 发 生 Read Cache Miss 时 ， 系 统 为 何不 直接 根据 
IO 对 应 的 卷 和 卷 中 的 地 址 来 判断 所 请 求 的 数据 沙 在 哪个 节点 管理 的 后 端 
磁盘 中 。 如 果 直 接 在 包含 IO 请 求 数据 对 应 磁盘 的 那个 节点 来 分 配 缓存， 
那么 束 会 节省 一 次 多 余 的 数据 传送 过 程 ， 节 约 后 端 网 络 带宽 。 对 于 这 个 
问题 ， 后 文 会 有 阐述 。 


4) 4 个 Director 参 与 ，Write IO 


如 图 15-60 所 示 ，Directorl 接 收 到 主机 的 一 个 写 IO 操作 ，Direcotr1 根 
据 这 个 IO 针 对 的 卷 和 卷 中 的 地 址 判断 ， 对 应 数据 的 磁盘 不 在 本 地 ， 所 以 
立即 在 系统 全 局 GM 中 分 配 两 份 缓存 以 用 于 保存 这 份 IO 数 据 。 本 例 中 ， 
Director1 选 择 了 在 Director2 和 3 的 GM 中 各 分 配 一 块 缓存 用 于 存放 这 份 数 
据 ，Director1 将 数据 指针 追加 至 本 地 S 。 and ”F 区 域 队列 准备 肥 送 到 
Director 2 和 3 为 其 分 配 的 缓存 中 。 人 至 此 ， 这 份 写 IO 数 据 成 功 的 在 系统 内 
部 保留 了 两 份 ， 避 免 了 单 点 故障 ， 可 防止 一 旦 数据 未 写 入 硬盘 之 前 整个 








节点 发 生 故 障 所 造成 的 数据 丢失 。Director 在 完成 缓存 镜像 的 操作 之 

后 ， 立 即 同 主机 返回 写 入 成 功 的 消 恕 。 之 后 ，Director2 和 3 中 的 一 个 
CPrimary 镜 像 )》， 比 如 Director2， 根 据 IO 针 对 的 卷 和 卷 中 的 地 址 判断 出 

此 IO 的 目标 数据 对 应 的 磁盘 存在 于 Director4 上 ， 所 以 Director2 将 数据 指 

针 奶 加 到 本 地 S and FF 中 ， 将 数据 发 送 到 Director4 的 S and FE 中 ，Director4 

收 到 数据 之 后 将 其 写 入 后 端 对 应 的 硬盘 中 。 





图 15-60 IO 流程 4 





对 于 写 IO 的 处 理 ，V-MAX 也 同样 可 能 产生 额外 的 不 必要 操作 。 比 
如 上 个 例子 中 ， 数 据 完全 可 以 只 在 接收 到 IO 的 Director 即 Director1 与 数 
据 所 保存 的 磁盘 所 在 的 Director 即 Director4 的 GM 中 保存 两 份 即 可 ， 当 数 
据 写 入 硬盘 之 后 ， 对 应 GM 中 的 缓存 Slot 自然 变 为 Prefetch 类 型 的 绥 存 。 
但 是 上 个 例子 中 ， 数 据 被 多 余 的 传送 了 两 次 。 








当然 上 面 所 有 示例 中 的 情况 都 是 最 极端 的 情况 ， 实 际 中 有 可 能 接收 
到 IO 的 Director 绥 存 将 被 耗 尽 ， 或 者 处 理 资 源 耗 尽 ， 或 者 由 于 其 他 各 种 
原因 ， 导 致 缓存 Slot 必须 在 其 他 节点 分 配 ， 这 种 情况 是 有 可 能 发 生 的 ， 
一 旦 发 生 ， 就 需要 额外 的 操作 来 解决 这 些 问 题 ; 同时 ， 额 外 的 操作 使 得 
系统 IO 响应 时 间 延 长 ， 相 应 主机 端 IO 的 压力 就 会 随 之 降低 ， 使 得 系统 资 
源 状况 得 以 恢复 ， 然 后 再 次 轮回 发 生 ， 这 也 在 一 定 程度 上 做 到 了 压力 目 
缓解 。 





对 于 一 个 集群 存储 系统 ， 主 机 理应 可 以 连接 到 集群 中 任何 一 个 市 点 
来 癌 整 个 集群 中 存在 的 卷发 起 IO 请 求 而 不 关心 这 个 卷 对 应 的 实际 数据 存 
放 在 哪个 节点 上 或 自己 是 否 就 正在 同 这 个 节点 发 送 IO 请 求 。 当 主机 将 IO 
发 送 到 一 个 其 所 挂 的 后 问 磁 盘 中 并 不 包含 对 应 数据 的 节点 的 时 候 ， 就 要 
求 节 点 通过 后 器 互 连 通道 进行 数据 转发 动作 了 ， 这 一 点 是 无 论 如 何不 可 











避免 的 。 因 为 不 可 能 强制 让 主机 连接 到 磁盘 上 有 对 应 数据 的 节点 ， 这 样 
的 话 就 失去 了 集群 的 意义 。 况 且 ， 有 些 集群 比如 XIV 会 将 卷 数 据 分 块 存 
放 于 集群 中 的 每 个 节点 的 磁盘 上 。 虽 然 集 群 内 部 数据 互 转 在 所 难免 ， 但 
是 我 们 依然 需要 考虑 节约 后 端 有 限 的 互联 带宽 。 





V-MAX 的 这 种 设计 使 得 缓存 Slot 可 以 脱离 数据 对 应 的 磁盘 所 依附 的 
节点 而 存在 于 任何 市 点 上 ， 游 离 于 各 个 市 反之 间 ， 填 合 非 闸 松 ， 有 很 大 
的 灵活 性 和 压力 自 缓 解 功 能 。 当 系统 资源 压力 不 大 的 时 候 ， 系 统 应 当选 
择 最 优 的 缓存 分 配方 式 以 降低 IO 延迟 和 节约 后 端 互 连 通道 带宽 。 











V-MAX 的 这 种 设计 可 以 说 与 操作 系统 内 核 使 用 Page Cache 机 制 ( 见 
本 书后 面 章节 ) 是 同 源 的 ， 操 作 系 统 可 以 将 各 种 实体 比如 文件 、 设 备 映 
冉 到 内 存 空间 中 ， 访 问 内 存 空间 就 等 于 访问 文件 或 者 设备 对 应 的 地 址 。 
实际 上 ，V-MAX 采 用 某 种 hash 算 法 〈 比 如 DHT) ， 根 据 IO 的 发 出 主 
机 、 目 标 地 址 、 长 度 等 信息 ， 做 一 致 性 hash 计 算 ， 从 而 映射 到 集群 中 的 
某 个 节点 ， 对 应 该 目标 地 址 的 缓存 一 定位 于 某 固定 节点 中 国定 的 内 存 区 
域 ， 使 用 这 种 算法 可 以 避免 每 次 IO 都 得 表 来 确定 其 缓存 位 置 ， 能 够 节省 
计算 资源 ， 提 升 速度 ， 但 是 却 可 能 由 于 多 次 转发 而 降低 速度 ， 这 是 个 矛 
盾 。 其 思想 与 缓存 与 RAM 之 间 的 映射 类 似 ， 都 各 有 收益 和 牺牲 。 

















FC SAN 集 群 存储 系统 小 论 : EMC 与 3PAR 之 间 一 直 火 药 味 比 
较 浓 ，EMC 长 期 以 来 一 直 诉 病 3PAR 的 PCI-X 总 线 、 不 支持 8Gb 
的 FC 和 10Gb 的 以 太 网 、 不 文 持 SSD 和 不 文 持 分 级 迁移 等 。 
3PAR 也 时 第 调 候 EMC 的 一 些 策略 。HDS 和 EMC 之 间 也 在 互相 
拿 对 方 的 架构 指 指点 点 。 其 实 本 来 就 没什么 可 指点 的 ， 表 现 上 
可 能 不 一 样 ， 但 是 骨子里 却 都 一 个 样 。 

这 次 ，EMC 来 了 个 大 翻转 ， 一 改 DMX 的 直 连 矩阵 架构 ， 全 面 
转 同 基于 包 交 换 互 联网 络 的 集群 存储 架构 ， 一 改 Power PC， 全 


面 转向 开放 的 Intelx86。 仔 细 的 读者 可 能 会 发 现 ，V-MAX 其 至 
与 3PAR 的 Inserv-T 系 列 集 群 架 构 有 些许 相似 之 处 ， 即 节点 都 是 
成 对 出 现 。3PAR 和 V-MAX 之 所 以 必须 以 节点 对 的 形式 出 现 ， 
是 为 了 使 用 这 一 对 节点 共同 连接 一 串 磁 盘 扩展 柜 ， 以 避免 单 点 
故障 。 比 如 ， 一 旦 某 个 节点 Down 机 故障 ， 如 果 其 后 挂 的 扩展 
柜 没 有 另外 节点 来 接管 的 话 ， 那 么 所 有 存储 于 这 串 扩展 柜上 的 
数据 将 无 法 再 被 访问 到 。 这 里 不 得 不 提 一 下 XIV，XIV 的 镜像 
保护 方式 和 动态 随时 迁移 数据 的 设计 ， 让 其 可 以 只 用 一 个 节点 
连接 后 端的 磁盘 ， 虽 然 它 目前 还 没有 扩展 柜 ， 但 是 不 见得 未 来 
不 支持 扩展 ， 毕 竟 X86 Server 是 个 很 开放 的 架构 ， 只 要 插 上 一 
堆 扩 展 卡 ， 没 有 做 不 到 的 事情 。 

V-MAX 在 节点 内 部 使 用 了 PCI-E，8Gb 的 FC 和 10Gb 的 以 太 网 ， 
节点 互 连 通 道 使 用 了 基于 包 交 换 的 RapidIO 网 络 ， 这 些 用 料 比 
起 3PAR 来 可 是 足 足 高 了 不 少 。 

目前 HDS 公 司 尚 未 发 布 集群 存储 系统 ， 并 一 贯 坚持 着 其 基于 
Crossbar 的 大 型 主机 架构 控制 器 。 随 着 IJBM、EMC 这 两 家 巨头 
相继 发 布 了 纯 集 群 存储 系统 ， 不 知道 这 三 家 巨头 中 的 最 后 一 家 
HDS 还 能 坚持 多 久 。 

目前 X86 系 统 越 来 越 普 及 ， 性 价 比 越 来 越 高 ， 作 为 开放 系统 ， 
逐渐 地 被 存储 厂商 用 于 新 的 集群 存储 系统 上 来 。 而 存储 厂商 可 
以 基于 这 些 开放 系统 ， 研 发 更 加 高 级 、 更 加 智能 化 和 移植 性 良 
好 的 存储 软件 模块 ， 可 能 这 就 是 激发 X86 集群 普遍 被 应 用 的 原 
因 之 一 。 

存储 系统 中 ， 硬 件 的 发 展 前 景 已 经 变 得 缓慢 ， 而 真正 更 加 需要 
的 ， 不 是 数据 存储 方面 ， 而 是 数据 管理 方面 。 

集群 NAS 系 统 和 集群 文件 系统 : ”前 面 介绍 并 分 析 了 几 个 基于 
Block SAN 方 式 访 问 的 集群 存储 系统 。 另 一 大 阵营 ， 即 NAS 存 
































储 系统 ， 一 样 可 以 集群 化 ， 而 且 已 经 变 成 了 一 种 趋势 。 促 成 集 
群 NAS 发 展 的 一 个 最 大 原因 就 是 因为 NAS 系 统 前 端 以 太 网 速率 
较 低 ， 传 统 NAS 设 备 单个 控制 器 性 能 不 高 ， 能 够 满足 的 吞吐 量 
也 很 低 ， 导 致 传统 NAS 存 储 系统 常用 于 二 线 应 用 ， 比 如 文件 共 
享 或 者 一 些 非 关 键 而 且 对 性 能 要 求 不 高 的 应 用 。 然 而 ， 一 些 特 
殊 的 应 用 ， 需 要 多 点 共同 读 写 某 个 文件 的 应 用 系统 ， 比 如 3D 
泻 染 集 群 、 电 影 演 染 集群 等 ， 这 些 集群 中 包含 几 百 甚至 上 千 台 
服务 器 节点 ， 它 们 可 能 需要 同时 读 或 者 写 某 个 大 文件 ， 这 种 需 
求 如 果 使 用 Block 级 别 的 存储 系统 的 话 ， 那 么 务必 需要 在 应 用 
程序 中 引入 文件 锁 机 制 ， 就 会 大 大 造成 应 用 程序 设计 的 负担 并 
且 不 具有 通用 性 ， 每 种 应 用 都 自行 设计 集群 模块 ， 是 没有 必要 
的 。 此 时 ， 需 要 一 个 公共 的 集群 层 ， 而 NAS (NFS、CIFS) 自 
喘 就 已 经 有 文件 锁 机 制 ， 所 以 只 要 应 用 程序 在 设计 的 时 候 调 用 
对 以 NAS 协 议 提供 的 锁 API 即 可 。 

苦于 NAS 系 统 的 性 能 问题 ， 在 客户 端 节 点 过 多 而 NAS 服 务 端 性 
能 又 太 低 时 ， 系 统 整体 的 性 能 将 会 很 差 。 这 就 迫切 需要 NAS 存 
储 系统 进行 集群 化 扩展 ， 将 客户 端的 IO 压力 分 摊 到 集群 中 的 每 
个 节点 上 。 除 了 将 NAS 系 统 集群 化 之 外 ， 还 有 另 一 种 选择 ， 即 
集群 文件 系统 。 

下 面 介绍 几 种 集群 NAS 系 统 或 者 称 集群 文件 系统 的 设计 架构 。 
所 谓 “ 谁 才 是 真正 的 Scale-Out? ”: IBM 自 从 亮相 了 XIV 之 
后 ，EMC 接 着 出 了 V-Max， 接 着 HDS 也 推出 了 VSP。 这 三 者 都 
宣称 目 己 是 Scale-Out 架 构 ， 在 业界 也 引发 了 一 些 讨 论 ， 有 人 认 
为 只 有 XIV 才 是 真正 的 Scale-Out， 而 V-Max 与 YSP 则 不 算 Scale- 
Out。 对 于 这 个 问题 ， 我 是 这 么 看 的 。 

大 家 知道 服务 器 多 CPU 架构 变迁 过 程 ， 一 开始 是 单 CPU， 后 来 
发 展 到 双 CPU 或 者 多 CPU 的 SMP 架 构 ， 也 就 是 多 CPU 共享 相同 


























的 内 存 、 总 线 、 操 作 系统 等 资源 ， 每 个 CPU 访问 全 局 内 存 任何 
地 址 耗费 的 时 间 都 是 相等 的 。 还 有 一 类 AMP 架 构 ， 即 不 同 CPU 
做 的 事情 是 不 同 的 。 但 是 由 于 共享 访问 冲突 ，SMP 架 构 扩 展 
性 -效率 曲线 已 经 达到 瓶颈 。 为 了 进一步 提高 CPU 数量 的 同时 
保证 效率 ，NUMA 架 构 出 现 了 ， 也 就 是 将 多 个 SMP 进 行 松 一 点 
的 耦合 ， 多 个 SMP 之 间 通 过 CrossBar ”Switch 高 速 交换 矩阵 互 
联 ， 每 个 SMP 都 有 各 自 自己 的 内 存 ， 一 个 SMP 内 部 的 CPU 访 问 
自己 的 内 存 时 与 之 前 没什么 两 样 ， 但 是 要 访问 其 他 SMP 处 的 内 
存 ， 就 需要 走 交 换 和 矩阵 ， 导 致 延迟 增加 ， 所 以 ，NUMA 通 过 牺 
牲 了 内 存 访问 的 时 延 来 达到 更 高 的 扩展 性 ， 比 如 可 以 将 数 百 个 
CPU 组 成 NUMA 架 构 。SMP 和 NUMA 架 构 对 于 软件 程序 方面 的 
影响 不 大 ， 同 一 台 主 机 内 都 使 用 单一 操作 系统 。 但 是 由 于 
NUMA 访 问 远 端 内 存 时 的 时 延 问题 ， 导 致 NUMA 架 构 下 的 效率 
也 不 能 随 着 CPU 数量 的 增加 而 线性 增长 ， 只 是 比 SMP 要 好 轴 
了 。 此 时 ，MPP 架 构 就 出 现 了 。MPP 可 以 说 已 经 与 CPU 已 经 关 
系 不 大 了 ，MPP 说 白 了 就 是 将 多 台独 立 的 主机 使 用 外 部 网 络 来 
组 成 一 个 集群 ， 显 然 MPP 架 构 下 ， 每 个 节点 都 有 各 自 的 CPU、 
内 存 、IO 总 线 和 操作 系统 ， 属 于 最 松 的 耦合 ， 而 且 运 行 在 MPP 
集群 中 的 软件 程序 的 架构 也 需要 相应 改变 ， 变 为 大 范围 并 行 
化 ， 并 尽量 避免 节点 之 间 的 消息 传递 。 由 于 软件 程序 发 生 了 变 
化 ， 那 么 MPP 的 效率 随 节 点 数量 的 增长 就 可 以 呈 线 性 关系 了 。 
其 实 ， 如 果 在 NUMA 架 构 下 ， 软 件 也 可 以 避免 尽量 少 读 取 远 端 
内 存 的 话 ， 那 么 NUMA 效 率 也 会 线性 增长 ， 但 是 NUMA 架 构 下 
的 操作 系统 仍然 是 同一 个 ， 内 存 仍然 是 全 局 均匀 的 ， 而 程序 染 
构 又 尽量 保持 不 变 ， 那 么 就 不 可 避免 的 时 不 时 访问 远 端 内 存 
了 。MPP 相 当 于 把 内 存 强制 分 开 ， 把 操作 系统 强制 分 开 ， 把 程 
序 架构 也 强制 改变 从 而 保持 海量 计算 下 的 效率 线性 增长 。 























那么 再 说 回 到 存储 系统 。 与 服务 器 CPU 架构 演进 相同 ， 可 以 把 
存储 系统 的 控制 器 类 比 为 CPU， 而 后 端 磁 盘 柜 类 比 为 一 条 条 的 
内 存 。 一 开始 的 单 控 ， 后 来 的 双 控 互 备份 (传统 双 控 存储 〉， 
一 直到 双 控 并 行 处 理 ( 目 前 只 有 HDS 的 AMS2000 存 储 系 统 为 双 
探 并行 架构 ) ， 到 这 个 阶段 就 类 似 于 AMP〈 双 控 互 备 ) 和 
SMP 〈 双 控 并 行 ) 架构 ， 后 来 则 有 多 控 并 行 对称 处 理 架 构 ， 
Oracle 的 RAC 集 群 也 可 以 视 作 一 种 多 点 SMP， 各 种 共享 底层 存 
储 的 集群 文件 系统 及 基于 这 种 文件 系统 所 构建 的 存储 系统 也 属 
于 多 点 对 称 SMP。 

同样 ， 由 SMP 到 NUMA 的 过 度 也 出 现在 了 存储 系统 中 ， 比 如 
EMC 的 V-Max， 相 当 于 多 个 SMP〈 一 对 控制 器 组 成 一 个 
Director 等 价 于 一 个 SMP 和 矩阵 利用 高 速 交 换 和 矩阵 (RapidIO) 
来 共享 访问 每 个 SMP 上 掌管 的 内 存 。 

由 NUMA 到 MPP 的 过 度 一 样 也 出 现在 存储 系统 中 ，IBM 的 XIV 
就 属于 松 耦 合 MPP 架 构 ， 多 个 节点 之 间 彻 底 松 耦合 ， 各 自 都 有 
各 自 的 CPU/ 内 存 / 总 线 /磁盘 /IO 接口 ， 使 用 外 部 以 太 网 交换 机 ， 
使 用 TCPIP 协 议 互相 通信 。 而 HDS 的 VSP 则 更 像 是 一 个 紧 耦 合 
的 MPP，MPP 对 软件 架构 变化 很 大 ， 所 以 传统 存储 厂商 很 难 将 
之 前 的 架构 演变 到 MPP 上 来 。 男 外 一 种 属于 MPP 架 构 的 存储 系 
统 就 是 各 种 分 布 式 文件 系统 注意， 并非 共 享 存储 的 集群 文件 
系统 ) 。 

至 于 谁 才 是 真正 的 Scale-Out， 这 个 是 个 无 定论 的 问题 了 。 
SMP/NUMA/MPP 其 实 都 算 Scale-Out， 只 不 过 程度 和 形态 都 不 
同 轩 了 。 有 人 说 MPP 才 是 真正 的 Scale-Out， 可 能 是 基于 MPP 流 
行 的 原因 。 但 是 不 能 一 概 而 论 。MPP 架 构 的 存储 ， 例 如 XIV， 
由 于 特定 场景 下 ， 由 于 单 路 IO 就 可 能 导致 整个 MPP 集 群 中 的 磁 
盘 资 源 全 部 牵动 〈 每 磁盘 同一 时 刻 只 能 执行 一 个 IO) ， 在 多 路 





























大 块 连 续 IO 并 发 的 情况 下 ， 反 而 效率 很 差 ( 比 如 多 流 大 块 连续 
地 址 IO〉; 而 某 些 特定 场景 下 ， 多 路 1O 之 则 罕 制 很 少 ， 则 表现 
出 线性 增长 的 性 能 《比如 小 块 高 随机 IO) 。 这 也 可 以 类 比 为 将 
一 个 程序 并 行 分 解 成 多 个 执行 颗粒 《类 比 为 高 随机 IO ) ， 条 粒 
间 的 关联 性 越 少 ， 则 节点 间 通 信 量 融 越 少 ， 则 并 行 执行 的 效率 
越 高 ， 一 个 道理 ， 所 以 MPP 目 身 为 Share-Nothing 架 构 ， 那 么 运 
行 在 它 上 面 的 程序 颗粒 之 间 最 好 也 Share-Nothing。 对 XIV 的 具 
体 分 析 可 以 参见 后 面 的 一 节 。 

SMP、NUMA 和 MPP 各 有 各 的 好 处 ， 也 各 有 各 的 应 用 场景 。 比 
如 SMP 适 用 于 扩展 性 要 求 不 太 高 而 义 不 想 对 程序 改变 太 大 的 场 
景 ， 而 MPP 则 使 用 海量 数据 下 的 高 扩展 性 需求 场景 ， 需 要 对 程 
序 有 较 大 改变 才能 获得 良好 性 能 。 同 样 对 于 存储 也 是 这 样 ， 比 
如 一 旦 决定 用 MPP 架 构 的 存储 ， 那 么 束 需 要 面 对 多 流 大 块 连续 
IO 场景 下 性 能 不 佳 以 及 效率 -扩展 曲线 的 线性 不 佳 这 两 个 事 
实 。 或 者 你 去 修改 上 层 应 用 ， 将 大 块 连续 IO 改 为 高 随机 IO， 而 
这 显然 死 唐 。 并 且 为 了 适应 存储 去 修改 应 用 ， 这 一 般 是 不 可 能 
被 接受 的 。 而 MPP 架 构 却 被 广泛 用 于 互联 网 运营 商 的 底层 Key- 
Value 分 布 式 数 据 库 ， 其 高 随机 小 块 谈 访 问 场景 下 能 获得 巨 量 
的 性 能 以 及 线性 的 效率 -扩展 曲线 。 






































15.7 和 集群 NAS 系 统 和 集群 文件 系统 
15.7.1 HP 公司 的 Ibrix 集 群 NAS 系 统 


IBRIX 是 一 家 专 做 集群 文件 系统 的 公司 ， 近 年 来 被 HP 收购 。IBRIX 
的 集群 文件 系统 称 为 Fusion”， 其 架构 中 包含 Fusion Segment 
Server/Client 和 Fusion Manager。 下 面 了 解 一 下 IBRIX 的 架构 。 


如 图 15-61 所 示 为 IBRIX Fusion 集群 文件 系统 部 署 之 后 的 整体 系统 

架构 示意 图 。Fusion Segment Server 是 IBRIX 集 群 的 主体 软件 包 ， 需 要 将 
其 安装 到 集群 中 的 每 一 台 PC Se 集群 中 的 所 有 节点 从 后 端的 磁盘 
阵列 中 获取 存储 空间 以 便 存 放 文 件 ， 这 些 存储 空间 可 以 被 所 有 节点 共 
享 ， 也 可 以 单个 节点 独 享 。 集群 中 的 节点 也 可 以 使 用 本 地 存储 空 :间或 者 
DAS 和 直 连 存储 的 存储 空间 来 存放 文件 。 推 荐 使 用 共享 存储 空间 ， I 
且 某 个 节点 发 生 故 障 ， 那 么 系统 会 自动 将 共享 的 存储 空间 挂 载 到 正常 
点 之 上 继续 提供 服务 。 客 户 端 主机 可 以 使 用 三 I 
群 ， NFS、CIFS、Fusion Client。 集 群 中 的 每 个 节点 都 有 各 自 的 不 同 的 
IP 地 址 ， 客 户 端 只 要 访问 任何 一 个 节点 即 可 访问 到 集群 内 所 有 的 数据 资 
源 。 集 群 内 的 节点 各 自 有 各 上 自 所 管理 的 文件 系统 和 Mount Point， 但 是 每 
个 节点 都 可 以 同 外 部 Export 所 有 市 点 上 的 Mount Point (Export 其 他 节点 
的 Mount Point 之 前 ， 本 地 节点 中 必须 提前 也 创建 这 个 Mount Point。 当 然 
也 可 以 手动 控制 那些 只 有 Export 自 己 管理 的 Mount Point) ， 客 户 端 如 果 
一 旦 试图 访问 不 受 本 地 管理 的 数据 ， 那 么 这 个 节点 束 会 从 管理 这 份 数 据 
的 那个 节点 将 这 份 数据 对 应 的 Metadata 拿 过 来 ， 然 后 通过 Metadata 来 获 
取 这 份 数据 在 后 端 存储 空间 内 的 位 置 ， 比 如 哪个 volume， 哪 个 磁盘 ， 
然后 通过 后 端 存储 网 络 将 数据 读 出 来 再 返回 给 客户 端 。 如 采 使 用 非 共 孚 
存储 ， 则 收 到 IO 请 求 的 节点 会 通过 前 端 以 太 网 从 保存 对 应 数据 的 节点 把 





























数据 拿 到 本 地 然后 返回 给 客户 端 。 
图 15-61 IBRIX 整 体 拓扑 图 


客户 端 可 以 采用 NFS 或 者 CIFS 方 式 访问 集群 节点 ， 也 可 以 安装 一 个 
Fusion Client 代理 程序 从 而 通过 这 个 代理 来 访问 集群 节点 。NEFS 和 CIFS 
方式 下 ， 如 果 某 节点 所 连接 的 客户 问 试 图 访问 一 个 不 受 本 地 管理 的 目录 
或 者 文件 的 话 ， 就 会 发 生 上 文 所 述 的 过 程 ， 需 要 耗费 一 定 的 开销 。 但 是 
如 果 使 用 Fusion Client 代 理 来 访问 集群 的 话 ，Fusion Client 会 预先 从 集群 
i 出 绥 存 ， 这 个 Metadata 描 述 了 哪些 Mount Point 受 
哪些 节点 管理 ， 所 以 ，Fusion ioe th 出 发 出 的 访问 请 求 转发 到 
集群 中 实际 管理 被 请 求 数据 的 那个 节点 这 样 ， 虽 然 客户 端 只 显 式 挂 载 
了 集群 中 一 个 节点 上 的 Mount Point， 但 是 Fusion Client 却 会 在 底层 隐 式 
地 将 所 有 请 求 对 号 入 座 转发 到 对 应 的 节点 ， 这 样 束 避 免 了 节点 之 间 互 相 
要 求 Metadata 的 开销 ， 系 统 性 能 有 所 提升 。 








如 图 15-62 所 示 为 上 图 中 所 示 的 一 个 Fusion Segment Server 内 部 的 软 
件 层次 架构 图 。Segment Server 首 先 包 含 了 一 个 Cluster Aware Logical 
Volume Manager， 即 CLVM。 由 于 集群 中 多 个 节点 可 以 共享 后 端 存储 ， 
所 以 这 里 的 卷 管 理 软件 也 要 文 持 多 市 点 共享 卷 。 其 他 功能 与 普通 LVM 
无 异 ，LVM 先 将 物理 LUN 组 成 VG， 然 后 在 VG 中 最 终 做 成 的 Logical 
Volume 即 LV， 被 Segment Server 称 为 一 个 “Segment”， 即 分 段 的 意思 。 
每 个 Segment 必 须 只 隶属 于 一 个 Segment Server 管 理 ， 但 是 一 个 Segment 
Server 可 以 管理 多 个 LV， 即 Segment。 当 某 个 节点 故障 之 后 ， 正 常 的 节 
点 可 以 直接 接管 故障 节点 原先 所 管理 的 Segment， 并 且 接 管 故 障 节 点 原 
本 承担 的 所 有 前 端 数据 访问 ee k 享 的 ， 
那么 管理 这 个 Segment 的 节点 故障 后 ， 正 常 节点 无 法 接管 ) 。Segment 之 
上 便 是 IBRIX Fusion 文 件 系统 ，Fusion so 并 且 























将 Segment 挂 载 到 一 个 Single Name Space 路 径 之 下 ， 每 个 节点 的 挂 载 动 
作 都 会 通知 到 集群 中 所 有 节点 以 避免 冲突 和 统一 口径。 集群 内 的 通信 是 
通过 以 太 网 进行 的 ， 后 端 数据 路 径 则 通过 后 端 SAN 交 换 机 或 者 本 地 存储 
和 DAS 直 连 存 储 ， 后 端的 SAN 可 以 是 FC 方式 也 可 以 是 iSCSI 方 式 ， 本 地 
存储 或 者 DAS 的 话 可 以 是 通过 RAID 卡 挂 JBOD 或 者 本 地 磁盘 等 。 








图 15-62 ”Segment Server 内 部 架构 图 


在 Segment 上 创建 文件 系统 的 时 候 ， 可 以 只 使 用 一 个 Segment 作 为 这 
个 文件 系统 对 应 的 存储 空间 。 然 而 ， 也 可 以 使 用 多 个 Segment 作 为 这 个 
文件 系统 的 存储 空间 ， 每 个 Segment 又 可 以 隶属 于 单一 或 不 同 的 Segment 
Server 来 管理 ， 文 件 和 目录 在 多 个 Segment 之 间 的 存放 策略 由 Allocation 
Policy 模 块 管 理 ， 其 提供 了 多 种 Polic， 比 如 ROUNDROBIN (新 文件 或 
者 目录 轮流 地 在 各 个 Segment 之 间 存 放 ) 、STICKY (新 文件 或 者 目录 都 
存放 到 某 个 固定 Segment 中 直到 这 个 Segment 的 剩余 容量 达到 一 定 效 
值 ) 、DIRECTORY (新 文件 或 者 目录 将 被 存放 在 与 其 父 目录 所 在 
Segment 相 同 的 Segment 上 ) 、LOCAL (将 新 文件 或 目录 存放 到 接受 客 
户 端 请 求 的 节点 所 管理 的 Segment 中 ) 、RANDOM (新 文件 或 者 目录 随 
机 选择 一 个 Segment 进 行 存 放 ) 等 。 





这 些 策 略 可 以 让 管理 员 充 分 调节 以 平衡 系统 的 负载 。 如 有 果 客 户 并 使 

用 Fusion Client 来 访问 集群 ， 由 于 其 可 以 直接 与 所 有 Segment Server 通 
信 ， 所 以 这 些 策 略 必 须 放 到 Client 端 执行 ， 如 果 客 户 端 使 用 NFS/CIFS 协 
议 来 访问 集群 ， 则 由 于 客户 端 只 能 直接 访问 它 所 Mount 的 那个 Segment 
Server， 所 以 Policy 必 须 在 所 有 Segment Server 上 执行 。Segment 有 三 种 类 
型 ， 第 一 种 是 只 可 以 存放 目录 的 ， 第 二 种 是 文件 目录 都 可 以 存放 的 

CMixed) ， 第 三 种 是 只 可 以 存放 文件 的 ， 除 非 有 特殊 用 途 ， 默 认 情 况 
下 皆 使 用 Mixed 模 式 。 

















Segment 的 Owner 可 以 动态 地 从 一 个 Segment Server 迁 移 到 男 一 个 ， 
迁移 过 程 对 前 端 访问 没有 影响 。 由 于 集群 底层 使 用 了 CLVM， 在 一 个 节 
点 上 创建 的 Segment， 在 其 他 节点 上 都 会 同步 显示 。 在 选择 一 个 或 者 几 
个 Segment 建 立 文 件 系统 的 时 候 ， 可 以 指定 用 何 种 Policy 以 及 将 哪个 
Segment 分 配给 哪个 节点 。Segment 的 大 小 可 以 不 同 。 如 果 使 用 多 个 
Segment 来 作为 某 文 件 系统 的 存储 空间 ， 那 么 在 创建 文件 系统 的 时 候 可 
以 指定 其 中 哪个 为 Root Segment， 谁 管理 Root Segment， 谁 就 是 掌控 这 
个 文件 系统 MounVUnmount 的 首席 执行 者 。 








文件 系统 被 创建 之 后 ， 需 要 在 图 15-63” 挂 载 点 之 下 的 Segment 
Segment Server 上 创建 Mount Point。 
可 以 只 在 一 个 或 多 个 或 者 全 部 节点 上 创建 菜 Mount ”Point。 创 建 Mount 
Point 其 实 就 是 在 系统 虚拟 目录 下 创建 一 个 新 路 径 ， 创 建 命令 只 需要 在 一 
个 节点 上 执行 ， 指 定 所 有 需要 创建 Mount Point 的 节点 ， 即 可 将 同时 在 对 
应 节点 上 创建 。Mount Point 被 创建 之 后 ， 束 需要 将 先前 创建 好 的 文件 系 
统 挂 载 到 Mount Point 中 ， 可 以 选择 只 在 一 个 或 者 多 个 或 者 全 部 节点 上 挂 
载 某 个 文件 系统 到 某 个 Mount Point， 同样， 命令 也 只 需要 在 一 个 市 点 上 
执行 ， 但 是 这 个 节点 必须 是 管理 Root Segment 的 节点 。 文 件 系统 可 以 通 
过 加 其 中 加 入 新 Segment 的 方式 进行 空间 扩展 。 如 图 15-63 所 示 为 一 个 名 
为 TEST-FS 的 文件 系统 的 底层 存储 空间 由 4 个 Segment 组 成 ， 第 一 个 
Segment 为 Root Segment， 这 个 文件 系统 被 挂 载 到 了 路 径 /clustervdatal 之 
ms 





挂 载 了 文件 系统 之 后 ， 如 果 需 要 访问 对 应 数据 的 应 用 程序 与 
Segment ”Server 处 于 同一 操作 系统 内 ， 那 么 就 可 以 直接 读 写 了 。 然 而 ， 
Fusion 集 群 还 可 以 将 这 个 Mount ”Point 以 NFS 或 者 CIFS 的 方式 Export 出 
去 ， 可 以 选择 在 一 台 、 多 台 或 者 全 部 市 点 上 Export， 当 然 ， 这 些 节 点 必 


须 已 经 Mount 了 对 应 的 文件 系统 。 


Export 之 后 ， 客 户 端 就 可 以 通过 NFS 或 者 CIFS 协 议 来 访问 对 应 的 目 
录 了 。 也 可 以 使 用 Fusion Client 来 访问 。Fusion Client 并 不 直接 访问 集 
群 ， 而 也 是 通过 下 层 的 NFS Client 或 者 CIFS Client 来 访问 集群 。Fusion 
Client 只 不 过 在 NFS Client 和 CIFS Client 之 上 再 增加 一 层 控制 逻辑 以 便 执 
行 更 多 功能 比如 File Allocation 等 。 


Fusion Manager 是 运行 在 一 个 单独 PC 上 的 组 件 ， 通 过 前 端 以 太 网 来 
与 集群 所 有 节点 通信 ， 可 以 用 来 管理 和 监控 整个 集群 ， 但 是 集群 数据 IO 
的 过 程 并 不 经 过 Fusion Manager。 创 建 VG、LV、FS、Mount Point 等 任 
务 可 以 在 Fusion ” Manager 中 进行 。Fusion Client 的 Mount Point 信 息 、 
Mounted ”Filesystem 信 息 都 需要 从 Fusion Manager 中 获取 ， 所 以 对 于 
Fusion Clietn 来 讲 ，Fusion Manger 是 必需 的 。 


IBRIX 己 经 与 Mellanox 公 司 进行 了 合作 ， 推 出 了 可 以 使 用 Infiniband 
网 络 来 传输 NFS 协 议 的 集群 系统 ， 其 后 端 使 用 Fusion FS， 前 端 使 用 NFS 
Gateway，Gateway 使 用 Mellanox 公 司 提供 的 NFS/RDMA SDK 以 实现 NFS 
over Infiniband。 实 测 结果 令 人 兴奋 ， 单 个 Gateway 的 否 吐 量 就 可 以 达到 
读 1400MB/s 和 写 400MB/s。 通 过 增加 更 多 的 Gateway， 整 体系 统 性 能 会 
线性 增长 。 





说 明 : ”至 此 ， 第 10 章 的 最 终 幻 想 也 被 实现 ， 只 有 想不到 ， 没 
有 做 不 到 ， 这 就 是 科技 。 


15.7.2 Panasas 和 PNEFS 





Panasas 公 司 是 一 家 生产 高 性 能 集群 NAS 存 储 系统 的 厂商 。 其 生产 的 
ActiveStor 集 群 存储 系统 由 于 使 用 了 刀片 设计 ， 密 度 非常 高 ， 在 一 个 机 


箱 中 可 以 插 满 11 个 刀片 ， 其 中 每 个 刀片 包含 一 块 1TB 的 SATA 人 硬盘 和 一 
块 32GB 的 SSD 人 硬盘 以 存放 Metadata， 加 速 Metadata 的 存 取 。 每 个 刀片 最 
大 4GB 的 内 存 ， 这 样 每 个 机 箱 就 可 以 包含 10TB 的 数据 存储 空间 、320GB 
的 Metadata 存 储 空间 以 及 40GB 的 内 存 空间 。 最 大 10 个 机 箱 可 以 共同 加 入 
集群 。 如 网 15-64 所 示 为 ActiveStor 存 储 系统 示意 图 。 





图 15-64 ”ActiveStor 示 意图 





Panasas 将 自己 的 集群 文件 系统 称 为 PanFS。 与 IBRIX 所 不 同 的 是 ， 
PanFS 集 群 中 不 是 每 个 节点 都 可 以 提供 NFS 或 者 CIFS 服 务 端 功能 的 ， 
个 机 箱 中 只 有 几 个 特殊 的 刀片 (节点 ) 可 以 提供 Mount Point 和 Share 
Directory， 客 户 病 只 能 与 这 些 节 点 通信 才能 够 挂 载 相关 目录 。 只 有 这 些 
节点 上 维护 着 整个 集群 的 文件 目录 映射 信息 ， 所 以 这 些 节点 又 被 称 为 
Metadata Server， 即 MDS。 整 个 集群 内 的 所 有 MDS 形 成 一 个 小 集群 ， 专 
门 负 贡 提 供 客户 端 访问 入 口 和 维护 集群 内 所 有 Metadata， 以 及 锁 管 理 。 








与 IBRIX 相 同 ，PanFS 也 同 外 提供 了 三 种 访问 方式 : NFS、CIFS、 
DirectFlow。 像 IBRIX 一 样 ， 前 两 种 访问 方式 下 ， 客 户 端 并 不 能 并 行 的 
直接 访问 集群 内 其 他 节点 ， 数 据 只 能 够 从 MDS 获 得 ， 对 于 不 在 MDS 上 
存储 的 数据 ，MDS 会 先 同 数 据 所 被 存储 的 节点 请 求 这 份 数 据 然 后 再 将 其 
发 送 给 客户 端 。 而 DirectFlow 方 式 加 类 似 于 IBRIX 中 的 Fusion Client。 其 
实 ，DirectFlow 其 本 质 是 基于 Object _ Storage 的 PNFS (Parallel NFS， 即 
NFS 4.1) ，pNFS 是 一 个 IETF 的 标准 协议 。pNFS 的 架构 其 本 质 与 Fusion 
Client 的 实现 方式 相同 ， 即 客户 端 首先 从 MDS 上 获取 需要 访问 的 目标 文 
件 分 块 所 被 存储 的 所 有 节点 的 信息 ， 包 括 地 址 、 分 块 信息 等 ， 然 后 客户 
端 根 据 得 到 的 映射 信息 ， 并 行 的 向 分 块 所 被 存储 的 所 有 节点 发 起 数据 请 
求 将 数据 取 回 。 














提示 : ”PanFS 男 一 个 最 大 的 特点 是 使 用 对 象 存储 方式 。 关 于 对 
象 存储 我 们 在 下 面 章节 会 有 介绍 。 男 一 个 集群 文件 系统 Lustre 
的 架构 与 PanFS 基 本 上 类 似 ， 这 里 就 不 做 过 多 介绍 了 。 


15.7.3 ”此 “文件 系统 ” 非 彼 “ 文 件 系统 ” 








传统 意义 上 的 文件 系统 ， 比 如 FAT16/32、NTFS、EXT2/3、JFS1/2 
等 ， 都 是 实 实在 在 的 文件 系统 ， 也 就 是 说 ， 它 们 是 真正 管理 着 某 个 文件 
和 底层 存储 卷 上 某 个 Sector 或 者 Block 的 对 应 关系 的 。 而 所 谓 “ 网 络 文件 
系统 ”， 它 们 根本 不 管理 文件 与 扇 区 的 对 应 ， 所 以 称 NFS/CIFS 等 为 一 个 
文件 系统 ， 从 某 种 角度 来 讲 有 一 点 歧义 ， 更 准确 地 可 以 称 NFS/CIFS 等 
为 “网 络 文 件 访 问 系 统 ”"， 而 NTFS 等 传统 文件 系统 可 以 更 准确 地 称 为 “ 文 
件 管理 系统 ”。 














同样 ， 对 于 集群 并 行 分 布 式 文件 系统 或 者 San 文 件 系 统 来 讲 ， 在 
Unix 平 台 下 它们 底层 有 些 则 直接 使 用 Ext3 文 件 管理 系统 来 管理 文件 ， 而 
Windows 平 台 则 使 用 NTFS。 有 些 厂 了 商 则 对 EXT3 进 行 了 些许 修改 之 后 来 
使 用 ， 比 如 Lustre; 有 些 则 选择 全 部 重 写 一 套 自己 的 FS， 比 如 Sotrnext。 





在 底层 文件 管理 系统 之 上 ， 增 加 一 层 集群 分 布 式 文件 映射 管理 系 
统 ， 外 围 再 包 庄 上 一 层 NFS/CIFS 网 络 文件 访问 系统 ， 便 成 了 一 个 分 布 
式 集 群 并 行文 件 系统 了 。 


如 图 15-65 所 示 为 集群 文件 系统 与 操作 系统 文件 系统 生态 图 。 








图 15-65 ”底层 文件 系统 与 上 层 集群 文件 系统 的 关系 


15.7.4 什么 是 Single Name Space 


Single Name Space 被 翻译 为 “统一 命名 空间 ”。 在 理解 这 个 名 词 之 
前 ， 首 先 要 理解 文件 系统 对 外 提供 的 访问 方式 。 我 们 都 知道 文件 系统 在 
底层 管理 着 上 层 文件 对 应 底层 存储 卷 或 者 磁盘 上 的 书 区 的 情况 。 在 上 
层 ， 文 件 系统 将 文件 放 到 某 个 目录 中 ， 然 后 目录 还 可 以 在 目录 中 。 当 我 
们 需要 访问 某 个 文件 的 时 候 ， 必 须 首 先知 道 这 个 文件 在 哪个 目录 中 ， 比 
如 Windows 下 的 “D: \data\file.exe” 束 是 一 个 文件 的 路 符 ， 它 表示 DD 分 区 
下 的 Data 目 录 下 的 fle.exe 文 件 。 又 例如 Unix 系 统 下 
的 “/usersomeone/file.exe”。 为 何 Unix 不 像 Windows 有 C 盘 、D 稻 之 类 的 往 
符 呢 ? 这 个 问题 完全 取决 于 设计 方式 。Windows 默 认 就 是 以 各 个 分 区 为 
总 入 口 ， 然 后 在 入 口 下 建立 一 级 一 级 的 目录 。 而 Unix 的 文件 系统 则 是 以 
全 局 为 入 口 ， 各 个 分 区 都 被 “ 挂 载 ?到 某 个 目录 下 。 比 如 ， 可 以 将 分 区 
sda2 挂 载 到 “/home/mnt” 下 ， 那 么 我 们 如 果 要 访问 分 区 sda2 中 的 数据 ， 束 
需要 进入 “/home/mnt”， 就 相当 于 进入 了 sda2 分 区 文件 系统 的 根 入 口 。 当 
然 ， 如 果 用 户 习 惯用 Windows， 想 让 Unix 文 件 访问 方式 与 Windows 类 
似 ， 那 么 可 以 将 分 区 sdal 挂 载 到 “sdal1”， 分 区 sda2 挂 载 到 “sda2”， 依 此 
类 推 。 其 实在 Windows 上 也 可 以 将 分 区 挂 载 到 某 个 其 他 目录 下 。 这 种 目 
录 叫 做 虚拟 目录 ， 或 者 Virtual Directory， 即 目录 中 存放 的 并 不 是 原本 隶 
属于 这 个 目录 下 的 文件 或 目录 ， 而 古田 外 一 个 存储 空间 的 目录 树 。 虚 拟 
目录 更 应 该 理解 为 一 个 路 径 ， 这 种 意义 上 的 路 径 与 目录 和 文件 本 身 没有 
直接 关联 了 ， 路 径 的 唯一 意义 驶 是 提供 一 个 标记 ， 束 像 路 牌 一 样 ， 路 牌 
上 对 应 的 路 名 并 不 等 于 那 条 路 本 里。 


























在 一 个 多 点 集群 环境 中 ， 每 个 节点 都 有 各 自 的 虚拟 目录 ， 或 者 说 路 
径 。 然 而 ， 集 群 之 所 以 称 为 集群 ， 是 因为 这 个 集群 对 外 应 当 表 现 为 一 个 
整体 ， 内 部 不 存在 冲突 或 者 重复 的 事物 。 比 如 这 个 集群 对 外 用 NFS 
Export 的 某 个 路 径 “/cluster/datal”， 客 户 端 不 管 同 集群 中 的 哪个 节点 发 起 
请 求 使 用 NFS 来 Mount 这 个 Export 之 后 ， 所 看 到 的 数据 内 容 都 应 当 是 相 





同 的 。 这 束 要 求 集群 内 部 不 会 在 多 个 节点 上 共同 存在 多 份 独立 

的 %clustervdatal”。 比 如 ， 集 群 中 的 某 个 节点 A 将 自己 所 管理 的 某 个 分 区 
sdal 挂 载 到 了 “clusterdatal1” 路 径 下 面 ， 而 这 个 路 径 是 将 要 被 NFS Export 
出 去 供 客 户 端 访问 的 ， 那 么 这 个 节点 就 应 当 同 时 通知 其 他 所 有 节点 都 生 
成 这 条 Mount Point， 只 不 过 其 他 布点 会 感知 到 这 个 路 径 对 应 的 实际 存储 
空间 并 不 位 于 本 地 所 管理 的 存储 空间 ， 而 位 于 市 点 A 上 。 那 么 一 旦 非 A 
的 其 他 节点 接收 到 针对 这 个 路 径 的 访问 请 求 ， 就 需要 将 请 求 发 送 到 A 市 
点 执行 然后 取 回 结果 并 返回 给 客户 端 〈 节 点 后 端 不 共享 存储 ) ， 或 者 问 
节 点 A 发 起 请 求 将 这 个 路 径 对 应 的 实体 数据 空间 的 映射 信息 传送 过 来 ， 
然后 自己 从 后 端 存 储 空 间 中 读 取 数据 并 返回 给 客户 端 《〈 节 点 共享 后 端 存 
储 ) 。 已 经 被 某 节 点 使 用 的 路 径 ， 不 能 再 在 其 他 节点 上 再 次 挂 载 ， 因 为 
会 引起 神 突 ， 但 是 其 他 节点 可 以 将 自己 所 管理 的 存储 空间 挂 载 

到 “/cluster/data1” 的 下 一 级 路 径 比 如 “/cluster/datal/othernode” 中 ， 这 样 是 
不 冲突 的 。 














在 一 个 非 集群 环境 中 ， 如 果 有 两 个 NAS Server 端 ， 同 时 存在 两 个 名 
称 相同 的 路 径 比 如 ”%clustervdata1”， 而 且 都 使 用 NFS Export 出 去 了 ， 此 时 
客户 病 挂 载 的 束 是 两 份 完 全 不 同 的 独立 存储 空间 了 。 集 群 中 所 有 节点 上 
的 供 客户 端 挂 载 的 路 径 不 重复 并 且 所 有 节点 统一 协作 ， 统 一 口径， 对 外 
表现 一 台 单 一 的 NAS Server， 这 就 是 所 谓 “Single Name Space”。 








15.7.5 Single Filesystem Image 与 Single Path Image 

前 面 提 到 过 Single Name Space， 也 惑 是 所 谓 的 全 局 统一 命名 空间 。 
这 个 词 的 反义词 就 是 非 全 局 多 命名 空间 ， 也 就 是 说 有 多 个 独立 的 文件 系 
统 空间 。 这 两 个 词 都 是 用 于 集群 文件 系统 环境 中 的 。 




















实现 单一 命名 空间 有 两 种 方式 。 第 一 种 是 将 分 布 到 多 个 节点 上 面 的 


多 个 独立 文件 系统 进行 松绑 定 。 比 如 将 a 节点 上 的 /fs/a 以 及 b 节 点 上 

的 /fs/b 缆 定 成 同一 个 /fs 下 面 的 两 个 目录 : /fs/a 和 /fs/b， 客 户 端 访问 集群 
中 的 任何 一 个 节点 ， 比 如 访问 a 节 点 ， 那 么 客户 端 所 看 到 的 目录 就 是 /fs/a 
或 者 /fs/b， 在 未 实现 单一 命名 空间 之 前 ， 客 户 端 通过 a 节点 只 能 看 到 /fs/a 
而 看 不 到 /fs/b。 或 者 也 可 以 这 样 搞 : 两 个 集群 节点 各 目 管 理 自 己 的 文件 
系统 空间 ， 用 一 个 虚拟 化 模块 将 这 两 个 实际 的 文件 系统 空间 虚拟 成 一 个 
大 空间 ， 比 如 原来 是 /a 和 / 必 ， 而 虚拟 化 之 后 ， 这 两 个 目录 共同 融合 成 了 
一 个 /a， 心 下 面 的 子 目 录 和 文件 现在 都 融合 到 了 /a 下 面 。 或 者 /a 和 /b 下 的 
数据 都 被 虚拟 到 了 一 个 虚拟 目录 /c 下 面 。 通 过 这 样 的 简单 松 耦 合 方式 来 
实现 将 多 个 独立 文件 系统 空间 虚拟 化 融合 成 一 个 大 和 伦 套 空间 的 做 法 ， 驶 
属于 Multiple Filesystem Image， 因 为 这 种 整合 方式 并 没有 影响 到 各 个 市 
点 上 的 本 地 文件 系统 ， 只 是 在 其 上 层 做 了 一 层 缆 盖 虚 拟 化 ， 只 是 将 目录 
路 径 进 行 了 奶 套 虚拟 ， 这 束 必 然 导 致 其 条 粒度 将 会 非常 大 ， 比 如 时 个 文 
件 或 者 某 个 目录 的 内 容 只 能 被 存放 在 集群 中 的 一 个 节点 上 。 当 客户 站 通 
过 a 挂 载 /fs 目录 却 太 起 了 对 /fs/b 下 茶 文 件 的 访问 ， 那 么 此 时 a 节 扣 会 将 这 
个 请 求 通过 集群 间 内 部 互联 网 络 发 送 给 b 节 点 ，b 市 点 处 理 之 后 将 结果 返 
回 给 a， 然 后 a 再 将 结果 封装 返回 给 客户 端 。 所 以 说 ，Multiple Filesystem 
Image 更 准确 的 应 该 被 称 为 Single Path Image， 即 单一 路 径 影像 。 



































相对 于 Single Path Image，Single Filesystem Image 则 是 直接 在 每 个 
节点 的 文件 系统 中 作 彻底 的 染 构 改变 。 当 然 ， 这 里 所 谓 “ 彻 抵 ” 只 是 相对 
的 ， 很 多 Single Filesystem Image 实 现 方式 其 实 还 是 在 诸如 EXT3 这 样 的 
本 地 文件 系统 之 上 增加 一 层 虚 拟 化 逻辑 ， 只 不 过 这 层 逻 辑 与 本 地 文件 系 
统 以 及 其 他 点 之 间 结 合 得 更 加 紧密 了 ， 箱 粒度 大 大 降低 ， 属 于 一 种 紧 
耦合 方式 了 。 比 如 某 个 文件 虽然 在 客户 端 看 来 是 存放 在 /fs/a 下 面 ， 但 是 
底层 可 能 是 这 个 文件 的 前 半 部 分 被 放 在 a 节 点 ， 而 后 半 部 分 则 被 存放 在 b 
节点 中 。 在 Single Filesystem Image 中 ， 集 群 中 的 所 有 节点 都 可 以 看 到 整 








个 集群 中 的 这 个 大 的 虚拟 的 文件 系统 ， 并 且 知 道具 体 哪 个 目录 或 者 哪个 
文件 的 哪个 部 分 存放 在 集群 中 的 哪个 节点 ， 多 个 节点 相当 于 被 同一 个 文 
件 系 统 所 管理 的 多 个 “人 磁盘”"。 而 Single Path Image 模 式 下 的 集群 ， 每 个 
节点 只 能 看 到 和 管理 它 本 地 所 存储 的 文件 ， 对 于 其 他 节点 上 的 文件 ， 更 
准确 地 说 应 该 是 路 符 ， 是 靠 一 个 松 灯 合 的 虚拟 化 层 简单 的 散 套 来 实现 
的 。 











松 炎 合 可 以 容易 地 实现 更 多 节点 的 扩充 ， 紧 耦合 就 不 是 那么 好 扩展 
了 ， 紧 厢 合 需要 维护 的 状态 、 元 数据 等 信息 量 都 显著 提升 ， 随 看 集群 中 





源 以 及 网 络 资源 。 在 实现 难度 上 ，Single Path Image 基 本 上 没有 太 大 难 
度 ， 而 Single Filesystem Image 则 实现 难度 很 大 。 


SPI 其 实 就 是 多 个 独立 文件 系统 的 松 耦 合 ， 如 果 客 户 端 程 序 从 布 点 a 
进入 ， 而 访问 的 文件 却 位 于 节点 b， 那 么 此 时 a 会 将 收 到 的 IO 请 求 直 接 通 
过 内 部 网 络 通 路 转发 给 bp， 同 理 ， 其 他 市 点 所 收 到 的 针对 b 节 后 中 文件 的 
访问 都 会 被 直接 转 友 给 b， 这 样 台 相 当 于 b 这 个 独立 文件 系统 像 传 统 方式 
一 样 接受 外 部 的 JO。 而 在 SFI 模 式 下 ， 接 收 到 客户 并 IO 请 求 的 节点 需要 
将 对 应 的 IO 进行 解析 ， 获 得 这 个 IO 对 应 的 数据 到 底 落 在 哪个 或 者 哪些 市 
点 上 ， 然 后 将 IO 拆 分 后 分 别传 送 到 对 应 的 集群 节点 中 进行 读 取 或 者 写 
A 


15.7.6 ”集群 中 的 分 布 式 锁 机 制 


在 单个 节点 的 单一 操作 系统 内 ， 存 在 多 个 应 用 程序 进程 ， 如 果 某 时 
刻 ， 应 用 程序 A 试 图 访问 一 个 记录 文件 FE，F 中 包含 有 地 址 短 和 电话 信 
恩 ，A 将 其 打开 之 后 ， 又 有 一 个 应 用 程序 B 也 将 FE 打开 ， 此 时 ，F 同 时 存 
在 于 A 和 B 的 Buffer 内 。 之 后 ，A 将 F 中 的 对 应 某 人 的 电话 号 码 做 了 更 








改 ， 并 且 将 更 改写 入 了 F。 而 此 时 B 的 Buffer 中 的 FE 的 内 容 依然 是 A 做 更 改 
之 前 的 ， 此 时 B 将 F 中 对 应 这 个 人 的 电话 号 码 改 成 了 与 A 之 前 改 的 所 不 同 
的 值 ， 并 且 保 存 到 了 F 中 ， 那 么 ，F 的 内 容 就 会 变 为 B 所 更 改 的 ，A 做 的 
更 改 将 丢失 。 在 Windows 系 统 下 ，MS Office 在 打开 文件 时 是 对 整个 文件 
加 锁 的 ， 而 记事 本 是 不 加 锁 的 。 大 家 可 以 做 个 实验 ， 打 开 两 个 记事 本 程 
序 ， 打 开 同 一 个 文件 各 自 编 辑 ， 谁 最 后 一 个 保存 退出 ， 谁 做 的 编辑 就 被 
保存 到 了 文件 中 。 我 们 也 可 以 使 用 CIFS 协 议 来 分 别 打 开 一 个 文本 文件 和 
一 个 Word 文 件 ， 如 图 15-66 所 示 ， 在 数据 包 中 ， 上 面 为 打开 TXT 文 档 时 
程序 的 行为 ， 可 以 看 到 程序 并 没有 对 文件 加 任何 锁 ， 甚 至 允许 删除 〈 在 
本 地 也 是 同样 的 行为 ， 已 经 打开 的 TXT 文件 可 以 被 其 他 程序 删除 ) 。 下 
面 为 用 MS Word 程 序 打开 Word 文 档 时 的 数据 包 ， 可 以 看 到 程序 只 允许 
其 他 程序 读 取 此 文件 。 














图 15-66 ” Word 文件 与 TXT 文 件 的 加 锁 情况 


这 显然 是 一 个 很 大 的 问题 。 所 以 ， 所 有 文件 系统 都 会 提供 一 种 
API， 让 一 个 程序 在 打开 一 个 文件 的 时 候 ， 顺 便 给 这 个 文件 上 锁 ， 其 他 
程序 不 可 以 打开 或 者 只 能 以 只 读 方 式 打开 这 个 文件 ， 只 有 当 加 锁 的 程序 
退出 之 后 ， 或 者 将 锁 释 放 了 之 后 ， 其 他 程序 才 可 以 修改 这 个 文件 。 即 ， 
一 旦 过 到 多 个 程序 需要 修改 同一 个 文件 ， 那 么 这 些 程序 只 能 排队 一 个 一 
个 的 来 ， 如 果 某 个 程序 给 文件 加 了 锁 ， 但 是 却 迟 迟 不 作为 ， 比 如 操作 员 
离开 ， 而 其 他 操作 员 终 端 就 只 能 等 待 ， 那 么 时 间 束 被 白白 的 滔 费 了 。 上 
图 中 所 示 的 Share Mode 只 是 windows 下 提供 给 程序 的 一 个 简易 粗 粒 度 锁 
API， 以 整个 文件 为 单位 设 定 共享 模式 ，Windows 还 提供 了 Lockfile 
Extend 高 级 锁 API〈 见 下 文 ) 。 








不 锁 不 是 ， 锁 也 不 是 ， 那 么 有 没有 两 全 其 美的 解决 办 法 呢 ? 当然 
有 。 


1， 字 节 锁 (Byte Range Lock) 





应 用 程序 可 以 不 要 求 加 锁 整 个 文件 ， 而 是 只 加 锁 文 件 中 的 茶 段 或 者 
茶几 段 字 市 ， 这 些 字 市 是 这 个 程序 当前 读 入 并 且 打 算 更 改 的 。 而 其 他 程 
序 如 果 访 问 这 个 文件 的 字 节 偏 移 不 处 于 被 加 锁 的 范围 内 ， 则 多 个 程序 就 
可 以 并 行 地 读 写 这 个 文件 的 不 同 部 分 ， 互 不 影响 。 这 样 ， 锁 的 粒度 就 家 
极 大 的 降低 了 ， 对 应 地 可 以 并 行 读 写 同一 个 文件 的 程序 也 就 可 以 并 行 执 
行 了 ， 提 高 了 系统 性 能 。 








2. 并 行 冲突 访问 锁 仲 裁 


在 Byte Range Lock 的 基础 上 ， 如 果 有 多 个 应 用 程序 同时 访问 一 段 字 
节 ， 或 者 访问 的 字 节 段 有 交集 ， 那 么 一 次 只 能 够 由 一 个 应 用 程序 掌握 对 
这 上 段 交 集 的 更 改 权 ， 其 他 应 用 程序 可 以 处 于 只 读 状 态 。 





应 用 程序 一 般 不 会 被 设计 为 多 个 进程 同时 写 同 一 文件 的 同一 段 字 
市 ， 如 果真 的 需要 这 种 应 用 场景 ， 那 么 必须 加 锁 一 更 改 一 释放 ， 之 后 由 
其 他 程序 再 加 锁 一 更 改 一 释放 ， 这 样 才 可 以 保证 一 致 性 。 


3. 集群 中 的 分 布 式 锁 


同样 ， 一 个 集群 就 相当 于 一 全 大 的 虚拟 的 独立 系统 ， 集 群 外 的 多 个 
客户 端 束 相当 于 多 个 应 用 程序 ， 它 们 共同 并 行 地 访问 集群 中 的 资源 ， 如 
果 它 们 也 需要 同时 并 行 访问 一 个 文件 或 者 一 个 文件 的 各 个 字 市 段 ， 那 么 
同样 也 需要 锁 机 制 。 如 果 要 保证 一 臻 性， 那么 程序 在 打开 文件 的 时 候 必 
须 显 式 地 对 对 应 字 贡 段 加 对 应 权限 的 锁 。 然 而 ， 由 于 集群 毕竟 是 由 多 个 
节点 而 组 成 ， 那 么 维护 所 有 的 锁 这 件 工作 需要 由 哪个 节点 负责 呢 ? 一 般 
有 两 种 实现 方式 ， 第 一 种 是 在 集群 所 有 市 点 中 选择 一 个 节 扣 专门 负 员 锁 

















的 维护 ， 第 二 种 是 所 有 的 节点 共同 维护 锁 ， 锁 信息 在 所 有 节点 上 同步 。 
前 者 称 为 集中 式 锁 管 理 ， 用 于 非 对 称 式 集群 ， 后 者 则 称 为 分 布 式 锁 管 
理 ， 用 于 对 称 式 集群 。 


4， 元 数据 锁 与 实际 数据 锁 


在 一 个 共享 存储 型 的 对 称 式 集群 〈 见 下 文 ) 中 ， 所 有 节点 均 可 以 掌 
管 文件 系统 元 数据 ， 所 有 市 点 中 的 元 数据 信息 是 完全 同步 的 ， 一 个 市 皮 
的 元 数据 变化 均 要 通知 到 其 他 节点 。 当 茶 个 节点 需要 为 东 个 文件 分 配 物 
理 存储 空间 的 时 候 ， 会 锁 住 相关 受 影 响 的 元 数据 ， 比 如 空余 空间 位 图 。 
为 何 要 锁 住 ? 因为 此 时 只 有 这 个 节操 知道 具体 要 分 配 哪 些 空余 块 给 这 个 
文件 ， 如 果 不 锁 住 位 图 ， 其 他 节点 如 果 也 在 分 配 空余 块 给 其 他 文件 ， 那 
么 这 两 个 市 点 所 分 配 的 空余 块 残 有 可 能 冲突 ， 导 致 文件 数据 被 错误 才 
话 ， 后 琳 严 重 。 所 以 这 个 节点 需要 利用 分 布 式 锁 机 制 来 通知 其 他 所 有 市 
扩 ， 此 时 由 它 来 操控 位 图 ， 分 配 完 成 之 后 ， 将 元 数据 的 变化 通告 给 所 有 
其 他 节点 ， 其 他 市 点 同步 更 新 自己 的 元 数据 缓存 。 元 数据 锁 的 重要 性 就 
体现 在 这 里 。 而 实际 数据 的 锁 一 般 是 由 应 用 自己 来 申请 的 ， 集 群 各 个 市 
扩 不 会 自己 去 锁定 用 户 实际 文件 的 某 段 字 节 。 元 数据 锁 是 集群 为 了 保证 
目 身 一 致 性 而 必须 要 有 的 ， 用 户 是 见 不 到 也 调用 不 到 这 种 锁 的 。 而 实际 
数据 锁 是 文件 操作 语义 层面 的 。 元 数据 锁 与 实际 数据 锁 要 分 清 。 


15.7.7 ”集群 文件 系统 的 绥 存 一 致 性 


集群 文件 系统 一 般 都 会 有 读 绥 存 ， 即 在 集群 中 的 每 个 节点 上 都 会 维 
护 一 个 读 缓 存 ， 一 旦 某 个 客户 端 应 用 程序 更 改 了 某 个 节点 上 存储 的 内 
容 ， 而 这 段 内 容 恰 好 又 与 其 他 节点 缓存 中 的 缓存 数据 有 交集 ， 那 么 有 交 
集 节 点 的 缓存 中 对 应 的 数据 就 会 馈 作 废 ， 不 再 缓存 ， 或 者 恋 入 最 新 数据 























继续 缓存 。 利 用 这 种 “ 写 即 作废 ”(Invalidate on Write) 机 制 来 保证 全 局 
缓存 一 致 性 。 





对 于 共 衬 存储 方式 的 集群 ， 写 入 数据 的 时 候 最 好 刷 盘 ， 这 样 其 他 
点 就 可 以 通过 读 磁 盘 来 看 到 这 些 最 新 的 数据 。 相 当 于 公用 物品 ， 用 完 之 
后 要 放 回 原 处 别人 才 可 以 继续 用 ， 而 不 能 先 暂 存在 你 这 里 。 茶 些 复杂 的 
系统 也 可 以 使 用 写 缓存 ， 对 于 绥 存 的 脏 数 据 会 通知 到 集群 中 所 有 其 他 市 
点 作废 对 应 的 缓存 ， 同 时 其 他 节点 针对 这 段 数 据 的 操作 都 与 缓存 及 数据 
的 节点 联系 而 获取 这 段 数据 而 不 是 从 磁盘 读 入 ， 其 他 点 如 果 需 要 更 改 
这 段 数 据 ， 则 作废 之 前 的 其 他 节点 上 对 应 的 这 段 脏 数据 ， 写 一 次 即 可 。 











而 对 于 非 共 至 存储 的 集群 ， 写 入 的 数据 可 以 缓存 在 本 节点 中 而 无 须 
考虑 缓存 一 致 性 问题 ， 因 为 所 有 其 他 节点 谁 想 访问 这 份 数据 的 话 就 必须 
从 这 拿 ， 所 以 不 存在 不 一 致 性 问题 。 








对 于 共 至 存储 型 集群 ， 由 于 改 层 苍 是 所 有 市 点 共 译 的 ， 所 以 除了 元 
数据 之 外 其 他 实际 数据 最 好 都 不 要 缓存 ， 以 便 将 数据 实时 地 体现 在 底层 
共享 卷 中 ， 谁 用 谁 拿 。 写 缓存 最 好 关闭 ， 但 是 也 可 以 有 ， 一 旦 写 缓存 被 
打开 ， 那 么 系统 需要 花费 额外 的 沟通 成 本 来 保证 缓存 一 致 性 了 。 读 缓存 
一 般 部 是 有 的 。 对 于 非 共 译 存 储 的 集群 ， 读 写 绥 存 都 有 。 














如 末 录 集群 文件 系统 是 作为 一 个 外 服务 的 存储 集群 而 存在 的 ， 那 么 
写 缓存 最 好 一 律 和 关闭， 因为 集群 节点 中 并 没有 类 似 SAN 磁 盘 阵 列 一 样 的 
电池 保护 机 制 ， 一 旦 掉 电 ， 缓 存 中 的 脏 数据 将 丢失 。 





15.7.8 ”集群 NAS 的 本 质 





集群 NAS， 说 白 了 ， 就 是 一 网 络 文件 系统 RAID 0 (或 者 RAID 
10) 。 如 果 建 立 几 个 独立 的 NAS Server， 客 户主 机 分 别 Mount 这 些 


Server， 然 后 将 不 同 的 数据 手动 分 类 存放 在 不 同 Server 的 目录 内 ， 这 样 
也 可 以 做 到 一 定 的 负载 均衡 能 力 ， 其 本 质 与 集群 NAS 要 解决 的 问题 相 
同 ， 只 不 过 在 其 他 方面 不 如 集群 NAS 系 统 灵 活 。 统 一 集群 NAS 相 对 于 手 
动 Mount 多 个 NFS Server 所 带 来 的 好 处 如 下 。 


(1) 能 做 到 Single Name Space。 比 如 某 个 应 用 程序 需要 在 一 个 目 
录 下 存放 几 十 万 个 小 文件 ， 而 如 有 果 将 这 么 多 文件 放 在 传统 非 集群 NAS 上 
的 同一 个 目录 下 ， 其 性 能 往往 是 非常 低下 的 。 此 时 ， 需 要 考虑 将 这 些 文 
件 分 在 NAS 中 分 开 不 同 的 目录 存放 以 提升 性 能 。 但 是 这 样 做 的 结果 是 ， 
NAS 系 统 必须 对 每 个 目录 都 Export 出 来 ， 应 用 服务 器 上 也 必须 对 每 一 个 
Export 点 进行 Mount， 所 以 也 会 显示 为 多 个 目录 。 这 就 无 法 满足 应 用 程 
序 的 要 求 了 。 你 难道 可 以 强行 更 改 这 个 应 用 程序 ， 比 如 ， 和 开发 人 员 商 
量 一 下 ， 别 让 他 将 这 么 多 的 文件 都 放 在 一 个 目录 下 ， 能 不 能 分 多 个 目录 
放 ? 如 采 是 某 个 系统 管理 员 提出 这 种 要 求 的 话 ， 那 就 非常 不 合适 和 无 理 
了 。 过 到 性 能 冲突 的 时 候 ， 修 改 应 用 程序 只 能 是 最 后 的 对 应 方法 。 而 集 
群 NAS 却 可 以 在 解决 性 能 问题 的 基础 上 又 不 影响 应 用 ， 比 如 将 这 个 文件 
系统 承载 于 多 个 Segment 上， 每 个 Segment 叉 分 配 到 不 同 的 Segment 
Server 主 机 上 进行 管理 ， 而 Export 的 时 候 只 需要 Export 一 个 单一 Mount 
Point， 应 用 主机 也 只 需要 Mount 单 一 目录 ， 这 就 很 好 地 解决 了 问题 。 




















(2) 能 做 到 统一 管理 、 故 障 切 换 和 在 线 迁 移 乎 衡 负载 。 手 动 部 署 
多 个 NAS Server，Mount 多 个 目录 ， 手 动 平衡 负载 ， 不 但 会 与 应 用 程序 
设计 造成 冲突 ， 而且 还 有 其 他 诸多 不 便 。 比 如 ， 如 果菜 个 NAS Server 出 
现 性 能 瓶 贷 ， 而 其 他 NAS Server 的 负载 却 很 低 ， 此 时 只 能 是 望 洋 兴叹 ， 
累 的 累 死 ， 闲 的 闲 死 。 而 对 于 集群 NAS 系 统 来 说 就 大 不 一 样 了 ， 可 以 随 
时 将 负载 过 高 的 节点 上 对 应 的 Segment 动 态 迁 移 到 负载 低 的 Segment 
Server 上 同时 又 不 影响 应 用 ， 而 且 这 种 迁移 根本 不 涉及 到 数据 移动 过 程 








(Segment Server 之 间 共 享 后 端 存 储 ) ， 执 行 的 速度 是 非常 快 的 ， 得 到 
的 性 能 提升 也 是 立竿见影 的 。 其 次 ， 如 果 多 台独 六 NAS Server 中 某 台 发 
生 故 障 ， 那 么 它 所 管理 的 数据 也 就 无 法 访问 了 ， 而 集群 NAS 系 统 由 于 后 
端 可 以 共享 存储 ， 所 以 在 某 节 点 发 生 故 障 之 后 ， 可 以 由 正和 营 的 节点 接管 
所 有 资源 ， 包 括 后 端 Segment 以 及 前 端 接口 卫 地 址 ， 客 户 问 访 问 继续 执 
行 ， 当 然 集 群 NAS 也 允许 任何 节点 使 用 非 共 享 存储 。 但 使 用 非 共 享 存储 
就 不 会 享受 到 HA 切换 和 在 线 迁移 Segment 所 带 来 的 好 处 了 。 最 后 ， 多 台 
独立 的 NAS ”Server 已 经 形成 了 数据 了 玲 咏 ， 不 便于 数据 统一 管理 ， 比 如 


Snapshot、Mirror 等 。 











将 集群 文件 系统 中 的 文件 用 NAS 协 议 输出 ， 这 就 是 集群 NAS。 使 用 
SPI 模 式 或 者 SFI 模 式 的 集群 文件 系统 均 可 以 输出 为 集群 NAS 系 统 ， 其 表 
现 出 来 的 优 务 与 SPI 和 SFI 集 群 文件 系统 本 里 的 优 劣 相同 。 


15.7.9 块 级 集群 与 NAS 集 群 的 融合 猜想 


统一 存储 这 个 概念 是 近 几 年 一 直 在 炒 的 概念 ， 即 在 同一 台 存 储 设 备 
中 同时 实现 FC、ISCSI、NFS 和 CIFS 等 存储 协议 支持 ， 也 就 是 常 说 的 
SAN 和 NAS 融 合 。 对 于 传统 的 非 Scale-Out 存 储 系统 ，NAS 与 SAN 的 融合 
一 般 都 是 通过 在 SAN 设 备 前 加 一 个 NAS 机 头 来 实现 ，NetApp 则 是 完全 通 
过 一 个 机 头 来 实现 ， 其 他 诸如 EMC、HDS 等 都 是 采用 前 一 种 方式 。 





面 对 市 场 上 如 此 多 的 集群 NAS 系 统 以 及 集群 文件 系统 ， 可 以 说 它们 
早 就 实现 了 Scale-Out 架 构 。SAN 方 面 也 是 从 2008 年 开始 由 EMC 的 V-Max 
以 及 IBM 的 XIV 两 款 产 品 宣布 了 SAN 存 储 也 开始 走向 Scale-Out 架 构 ， 其 
实在 此 之 前 3PAR 的 SAN 设 备 也 早 就 属于 Scale-Out 架 构 了 ， 一 时 间 包 括 
Dell Equalogic、HP P4000、Infortrend ESVA 等 可 横向 扩展 的 x86 和 集群 
SAN 存 储 系统 都 突然 变 得 被 广泛 关注 ， 这 些 产 品 共同 打造 出 了 所 谓 “ 新 


型 高 端 ” 存 储 ， 开 始 侵蚀 以 EMC Symmtrix DMX 和 HDS USP 为 代表 的 传 
统 高 端 SAN 阵 列 市 场 。 


至 此 ，Scale-Out 架 构 的 硬件 同时 承载 了 NAS 和 SAN， 它 们 二 者 势必 
也 要 进行 融合 ， 以 后 ，SAN 与 NAS 将 会 共同 被 承载 于 Scale-Out 架 构 的 便 
件 平台 之 上 。 


15.8 对象 存储 系统 


对 象 存储 系统 (Object Storage System，OSS) ， 或 者 也 叫 对 象 存储 
设备 〈Object Storage Device，OSD) ， 本 书 选 用 OSD 作 为 这 种 技术 的 代 
名 词 。 


OSD 的 第 形 是 由 卡耐基 梅 隆 大 学 的 Garth Gibson 在 1994 年 提出 的 ， 
当时 被 叫做 Network Attached Secure Disks (NASD) 。 几 年 后 ，National 
Storage Industry Consortium (NSIC) 对 NASD 进 行 了 完善 和 修改 ， 最 终 
被 ANSI T10 收 录 成 为 一 个 标准 项 目 ， 命 名 为 T10/1355-D。 几 年 之 后 ， 也 
就 是 2004 年 ，SNIA 组 织 对 这 个 技术 改头换面 ， 成 为 JANSI T10 SCSI 
OSD v1 标 准 ， 随 后 又 继续 对 其 进行 发 展 ， 形 成 了 ANSI T10 SCSI OSD 
v2 标准 。 





那么 ，OSD 到 底 是 为 何 而 生 的 呢 ? 我们 都 知道 NAS 协 议 设备 ， 主 机 
客户 端 不 需要 维护 文件 一 块 映 射 ， 只 需要 将 对 文件 的 操作 请 求 发 送 到 
NAS 服 务 端 即 可 得 到 相应 回复 ，NAS 相 当 于 把 文件 系统 逻辑 Offload 到 了 
主机 之 外 。NAS 协 议 中 的 NFS 协 议 是 Sun 公 司 在 1984 年 元 右 提 出 的 。10 
年 之 后 ， 也 就 是 1994 和 年， 卡耐基 梅 隆 大 学 所 发 布 的 NASD 也 同样 使 用 这 
种 将 文件 系统 底层 存储 映射 管理 外 置 的 思想 ， 即 把 块 映射 逻辑 移出 主机 
之 外 ， 放 到 外 部 存储 设备 中 执行 。 但 是 ， 与 NFS 不 同 的 是 ，NASD 的 设 
计 之 初 的 构想 是 把 文件 系统 逻辑 直接 放置 在 磁盘 中 ， 因 为 设计 者 认为 磁 
盘 内 部 处 理 蕊 片 已 经 足够 强大 到 可 以 执行 这 些 高 层 复杂 逻辑 了。 这样 的 
话 ， 主 机 直接 可 以 并 行 地 访问 每 块 硬盘 来 获取 文件 数据 ， 而 不 是 块 数 
据 。 如 图 15-67 所 示 为 NASD 的 系统 架构 示意 











图 15-67 NASD 架 构 示意 图 











NASD 设 计 之 初 束 与 NFS 在 架构 上 有 着 本 质 不 同 ， 针 对 同一 个 
Export 目 录 ，NFS 客 户 庙 只 能 够 从 一 个 NFS 服 务 节 点 Mount 一 次 ， 而 且 今 
后 所 有 和 针对 这 个 目录 中 文件 的 IO 访 问 都 只 能 够 发 送 给 这 个 NFS 服 务 节 点 
来 处 理 ， 一 个 节点 的 处 理 能 力 、 网 络 带宽 都 是 有 限 的 。 而 NASD 打 算 打 
破 这 种 限制 ，NASD 可 以 让 客户 端 主机 直接 并 行 地 访问 所 有 Disk， 上 所 有 
Disk 同 时 为 客户 端 主机 服务 ， 这 样 ， 就 打破 了 传统 NFS 的 瓶颈 ，IO 访 问 
数据 束 可 以 并 行 地 被 处 理 和 传输 ， 性 能 有 很 大 提升 。 然 而 主机 客户 端 如 
何 知 道 要 访问 的 文件 被 存储 在 哪个 Disk 上 呢 ? 难道 需要 在 客户 端 本 地 维 
护 一 份 映 射 信 息 么 ? 这 样 做 不 就 与 普通 文件 系统 无 异 了 人 么 ?解决 这 个 问 
题 的 办 法 是 ，NASD 在 系统 中 引入 了 一 个 独立 的 Metadata 
Server (MDS) ， 这 人 台 Server 上 维护 着 整个 系统 内 的 “文件 一 所 在 Disk 及 
块 * 映 射 关系 ， 任 何 客 户 端 访问 任何 文件 ， 都 需要 先 通 过 网 络 同 MDS 进 
行 查 询 目 标 文件 所 被 存储 的 Disk 和 块 列表 ( 某 个 文件 可 以 以 Stripe 的 形 
式 分 散 到 存储 在 多 个 Disk 上 〉 ; 任何 客户 端 打算 创建 文件 或 者 对 文件 进 
行 号 入 ， 也 需要 首先 告知 MDS， 由 MDS 来 决定 文件 将 被 存储 在 哪个 或 
者 哪些 Disk 抉 上 ， 并 将 信息 返回 给 客户 端 。 在 得 到 列表 及 其 他 必要 信息 
之 后 ， 客 户 端 主机 直接 向 对 应 的 Disk 地 址 发 起 数据 IO 请 求 来 读 出 或 者 写 
入 数据 。 MDS 不 仅 负责 元 数据 管理 ， 而 且 还 负责 客户 端 认 证 以 及 文件 权 
限 认 证 ， 只 有 通过 认证 的 客户 端 才能 够 访问 Disk 以 及 对 应 的 文件 、 目 录 


有 
等 。 

















以 上 仅 为 NASD 设 想 中 的 理想 状况 ， 请 勿 对 写 入 座 。 我 们 知道 ， 将 
文件 系统 逻辑 移 到 Disk 上 这 个 构想 ， 人 至 今 仍然 只 是 一 个 梦 。 在 人 磁盘 上 实 
现 高 级 复杂 的 逻辑 的 想法 毕竟 太 过 超前 与 首 狂 ， 甚 至 比 集群 化 并 行 访问 
的 思想 更 加 超前 ， 所 以 我 真是 佩服 Garth Gibson。 





人 


我 们 总 结 一 下 NASD 的 设计 架 图 15-68 单 台 主机 内 部 





构 : 将 文件 系统 逻辑 从 主机 端 移出 放 到 网 络 上 的 一 台 MDS 上 ， 上 所 有 的 智 
能 Disk 也 放 到 网 络 上 ， 主 机 端 通 过 某 种 NASD 客 户 端 程序 来 向 MDS 获 取 
元 数据 信息 ， 并 且 在 得 到 信息 之 后 根据 这 些 信 息 直接 访问 网 络 上 的 智能 
Disk 存 储 文件 。 我 们 再 仔细 思考 一 下 这 种 架构 ， 这 其 实 和 单 台 主机 的 内 
部 架构 本 质 上 没 啥 两 样 。 如 图 15-68 所 示 ， 在 传统 的 单 台 主 机 内 部 ， 程 
序 如 果 打 算 访 问 某 个 文件 ， 文 件 系统 也 会 查找 对 应 的 元 数据 以 获得 对 应 
文件 所 处 的 Disk 以 及 Disk 上 的 Setcor 的 位 置 ， 查 到 之 后 ， 也 会 通过 磁盘 
控制 器 来 并 行 地 对 多 块 磁盘 进行 访问 (Raid)〉 以 存 取 数 据 。 它 与 NASD 
的 架构 的 差别 只 在 于 : 文件 系统 块 映 射 逻 辑 在 主机 中 运行 ，Disk 位 于 磁 
盘 控制 器 之 后 而 不 是 网 络 上 。 但 是 单 台 主机 所 获得 的 性 能 可 是 要 远 高 于 
NASD， 因 为 文件 系统 运行 在 主机 内 存 中 ， 通 信也 是 在 内 存 中 ;， 和 磁盘 控 
制 器 的 主机 总 线 以 及 控制 器 连接 磁盘 的 总 线 速 率 均 远 高 于 外 部 网 络 。 




















虽然 NASD 的 架构 设计 并 不 能 取代 传统 主机 客户 端的 文件 访问 ， 但 
是 它 却 可 以 超越 传统 的 NFS/CIFS 架 构 。 


如 图 15-69 所 示 ， 左 侧 的 传统 NAS 访 问 架 构 ， 虽 然 磁 盘 数量 相同 ， 
但 是 NFS 客 户 端 只 能 够 通过 一 条 网 络 链 路 来 访问 NFS 服 务 端 节点 ， 而 且 
每 份 数据 都 是 串 行 存 取 的 ，NFS 服 务 端 节点 也 只 有 一 条 链 路 连接 网 络 ; 
而 右 侧 的 NASD 架 构 中 ， 磁 盘 数量 没有 变化 ， 但 是 每 个 NFS 客 户 端 节 点 
却 可 以 直接 并 行 地 访问 每 个 数据 服务 端 节点 〈Disk) ， 并 且 ， 随 着 服务 
端 节 点 〈Disk) 的 增多 ， 系 统 性 能 会 线性 增长 。 而 如 果 向 传统 的 NFS 服 
务 端 中 增加 再 多 的 磁盘 ， 其 所 获得 性 能 也 没有 什么 本 质 提升 。 











图 15-69 NASD 与 传统 NAS 架 构 比 较 





那么 是 人 否 传统 的 NAS 也 可 以 改 为 这 种 架构 呢 ? 当然 可 以 ， 我 们 可 以 
手动 地 将 文件 分 别 放 入 多 个 节点 的 多 个 Export 中 存放 ， 再 在 客户 端 主机 





上 分 别 Mount 这 些 NFS Server 所 输出 的 目录 ， 然 后 修改 应 用 程序 ， 访 问 A 
文件 请 走路 径 a， 访 问 B 文 件 请 走路 径 b 。 这 样 也 可 以 达到 并 行 访问 的 目 
的 ， 但 是 由 于 同一 个 文件 只 能 放 到 同一 个 Server 节 点 ， 所 以 不 能 并 行 同 
一 个 文件 ; 而 且 这 样 做 也 是 不 可 行 的 ，Mount 多 个 节点 、 修 改 应 用 程 
序 ， 这 是 完全 的 强盗 逻辑 。 所 以 ， 传 统 NAS 虽 然 在 物理 上 也 可 以 改 为 这 
种 架构 ， 但 是 ， 由 于 传统 文件 系统 中 的 目录 、 文 件 、 路 径 等 概念 ， 以 及 
NFS 所 使 用 的 Mount Point 的 做 法 ， 却 注定 它 不 能 够 实现 对 同一 文件 的 并 
行 。NASD 并 没有 Mount 的 概念 ， 它 对 “文件 ?和 “目录 ”等 抽象 概念 进行 重 
新 定义 和 封装 〈 详 见 下 文 ) ， 正 因 如 此 ，NASD 才 可 以 做 到 对 任何 要 访 
问 对 象 的 并 行 操作 。 





至 此 我 们 明白 了 NASD 的 价值 所 在 。Disk 这 个 词 是 不 是 可 以 在 
NASD 的 概念 中 消失 了 呢 ? 因为 至 今 也 没有 实现 智能 Disk。 所 以 下 文中 
不 再 用 Disk， 而 将 Disk 改 为 OSD， 即 Object ”Storage ”Device。 这 里 何 
谓 *“Object" 呢 ? 如 图 15-70 所 示 为 OSD 层 在 系统 IO 路 径 中 的 示意 图 。 图 中 
右 侧 下 部 即 为 一 个 OSD。 左 侧 则 为 传统 Block 级 访问 模型 。 








图 15-70” ”OSD 协议 在 系统 IO 路 径 中 的 位 置 和 作用 方式 











可 以 看 到 ，OSD 在 协议 层面 与 NAS 协 议 本 质 上 是 相同 的 。 它 之 所 以 
被 称 为 “Object Storage Device”， 是 因为 在 OSD 的 概念 中 ， 文 件 不 叫 File 
了 ， 叫 Object;， 目 录 也 不 叫 Directory 了 ， 叫 Partition。 在 此 之 上 ，OSD 相 
比 NAS 增 加 了 一 些 改进 ， 比 如 安全 认证 等 方面 。 其 次 ，OSD 中 每 个 
Object 都 用 一 个 128b 的 Object ID 〈OID ) 表示 ， 说 白 了 这 个 OID 也 就 对 应 
了 NAS 协 议 中 的 File Handle。 


如 图 15-71 所 示 为 O0SD 中 的 各 种 主要 概念 。 像 普通 文件 系统 一 样 ， 
OSD 设 备 一 样 需要 维护 每 个 文件 ， 哦 ， 应 该 说 是 Object 的 块 映 射 、 元 数 





据 、 属 性 和 OID 等 信息 。Object 分 为 多 种 类 型 ， 每 种 类 型 的 Object 含义 如 
Ts 














图 15-71 OSD 中 的 各 种 概念 











ma Root Object: 表示 OSD 设 备 本 喘 。 

ma User Object : 被 客 户 端 主机 所 创建 的 Object。 

mn Collection Object: 一 组 按照 某 种 条 件 而 聚集 起 来 的 Object 组 合 ， 
比如 “*.exe”， 即 “所 有 exe 文 件 的 集合 ” 束 是 一 种 Collection 
Object。 

sm_ Partition Object: 一 个 用 来 盛 放 User Object 的 容器 ， 相 当 于 目录 。 





OSD 不 可 能 由 一 个 磁盘 来 充当 了 ， 那 么 谁 来 充当 呢 ? 当然 只 能 用 一 
台独 立 的 服务 器 来 充当 。 这 台 服 务 器 与 NFS 服 务 器 底层 处 理 方式 类 似 ， 
都 是 维护 一 个 本 地 文件 系统 ， 管 理 Object 与 底层 磁盘 块 的 映射 关系 以 及 
其 他 元 数据 等 信息 ， 对 外 使 用 一 种 专门 的 协议 来 供 客 户 剖 访问 其 保存 的 
Object。 


可 以 说 NASD 是 一 种 极其 超前 的 思想 和 技术 。 它 早 就 将 集群 环境 考 
虑 在 内 ， 可 惜 的 是 ，20 世 纪 80 年 代 ， 集 群 并 未 得 到 发 展 ， 所 以 NASD 也 
并 没有 成 为 潮流 技术 ， 而 被 随后 出 现 的 NFS 和 SMB 协 议 超过 了 。 


但 是 NASD 却 一 直 没 有 停止 发 展 ， 一 直到 被 SNIA 推 进 并 最 终 在 2004 
年 被 收入 T10， 成 为 一 个 标准 ， 也 就 变 为 现在 俗称 的 OSD 了 。 


有 人 可 能 会 问 ， T10 不 是 专门 搞 SCSI 协 议 的 组 织 么 ?怎么 开始 搞 起 
文件 级 访问 协议 了 呢 ? 说 对 了 。 也 正 是 因为 T10 只 搞 SCSI， 所 以 才 会 收 
录 它 ， 因 为 ，OSD 就 是 使 用 SCSI CDB 来 传输 针对 文件 的 IO 请 求 的 。 对 


于 当初 NASD 是 否 也 是 使 用 SCSI， 不 得 而 知 ， 但 是 SNIA 提 区 到 T10 的 
OSD 协 议 确实 是 使 用 了 SCSI CDB 来 描述 文件 级 的 请 求 。 如 图 15-72 所 示 
为 OSD 协 议 在 SCSI 协 议 层次 中 所 处 的 位 置 。 


图 15-72” ”OSD 协议 在 SCSI 协 议 层次 中 所 处 的 位 置 











思考 : 其 实 读者 此 时 应 该 已 经 早 就 了 解 了 所 谓 的 “IO 三 大 
件 * 了 ， 每 个 JO， 不 管 是 标准 协议 ， 还 是 私有 函数 调用 ， 基 本 
上 都 是 由 “目标 ">、“ 起 始 地 址 ”和 “长 度 ” 这 三 大 件 组 成 的 。 对 于 
块 IO， 这 三 大 件 就 是 目标 LUN ”ID、 起 始 LBA 地 址 、 要 IO 的 
LBA 地 址 长 度 ; 而 对 于 文件 JO， 这 三 大 件 就 是 文件 名 、 起 始 字 
节 地 址 、 要 IO 的 字 节 长 度 。 可 以 看 到 文件 和 块 这 两 种 IO 方式 ， 
其 本 质 是 一 样 的 ， 本 来 文件 底层 也 就 是 对 应 的 数据 块 ， 文 件 系 
统 只 不 过 做 了 一 层 地 址 翻译 封装 和 组 织 。 那 么 这 两 种 IO 从 本 质 
上 来 讲 就 可 以 被 融合 。 对 象 存 储 系统 从 某 种 意义 上 讲 结合 了 块 
级 访问 的 高 效 与 文件 访问 的 灵活 性 和 便捷 性 。 











OSD 将 文件 访问 协议 也 统一 到 了 SCSI 协 议 集中 ， 做 到 了 Block 和 文 
件 级 访问 的 大 统一 。NASD 所 做 的 最 大 页 献 其 实 并 不 是 Object， 也 不 是 
后 来 被 标准 化 的 OSD 协 议 ， 而 是 其 针对 集群 环境 下 文件 的 高 性 能 访问 所 
作 的 设计 ， 这 个 思想 最 终 催生 了 一 大 批 有 着 类 似 架 构 的 集群 文件 系统 ， 
包括 Lustre、PolyServe、Ibrix、PanFS 等 。 





这 些 集群 文件 系统 拥有 共同 的 基础 架构 ， 如 图 15-73 所 示 为 这 种 染 
构 的 示意 图 。 











图 15-73 ”基于 OSD 的 集群 文件 系统 普遍 架构 











它们 有 些 使 用 OSD 来 作为 访问 协议 ， 也 有 些 使 用 私有 的 但 是 与 OSD 


类 似 的 协议 。 目 前 几乎 所 有 的 集群 文件 系统 都 同时 提供 了 基于 

NAS (CIFS/NFS) 的 访问 接口 。 客 户 端 主机 可 以 选择 使 用 OSD 或 者 
NAS 方 式 来 访问 集群 。 至 于 具体 的 访问 方法 ， 请 参考 本 章 其 他 部 分 ， 这 
里 就 不 做 过 多 介绍 了 。 


部 团 OSD， 不 但 需要 OSD 存 储 设备 ， 还 需要 在 客户 端 主 机 上 安装 
OSD Initiator， 就 像 NFS 或 CIFS 需 要 使 用 对 应 的 NFS Client 模 块 和 SMB 模 
块 一 样 。Panasas 的 DirectFlow 就 是 一 种 OSD Initiator。 


用 户 程 序 本 身 无 须 做 任何 更 改 即 可 使 用 OSD 作 为 存储 设备 。 用 户 可 
以 挂 载 一 个 由 MDS 虚 拟 出 来 的 路 径 ， 当 在 这 个 路 径 下 创建 一 个 文件 或 者 
访问 这 个 路 径 中 的 某 个 文件 时 ，OSD Initiator 会 与 操作 系统 内 核 的 目录 
虚拟 层 〈 比 如 Linux 下 的 VEFS 层 ) 进行 对 接 ， 将 用 户 程序 针对 VEFS 路 径 下 
被 Mount 的 OSD 路 径 下 某 文 件 的 访问 ， 翻 译 封 装 为 相应 的 OSD SCSI 
CDB 并 发 向 OSD 设 备 以 执行 这 个 IO 请 求 ， 当 然 ， 之 前 应 当先 去 MDS 查 
询 待 访问 目标 所 被 存储 的 OSD 设 备 和 块 列表 。OSD Initiator 向 OSD 发 送 
的 请 求 中 只 需要 给 出 Object ID 即 可 ， 而 无 须 像 传统 NAS 协 议 一 样 给 出 这 
个 Object 的 绝对 路 径 。OSD 设 备 会 自行 得 找 这 个 OID 所 对 应 的 底层 块 并 
做 相应 操作 。 











OSD 目 前 被 使 用 的 非常 少 。 根 据 一 些 极力 推广 OSD 的 广 丙 的 态度 ， 
他 们 认为 传统 的 文件 系统 ， 不 定 是 从 请 层 的 元 数据 组 织 方式 上 ， 还 是 上 
层 的 访问 接口 方面 来 讲 ， 己 经 不 能 够 满足 海量 文件 的 存储 和 访问 了 。 而 
OSD 却 能 够 从 根本 上 解决 这 个 问题 。 








集群 文件 系统 提供 的 NFS 或 者 CIFS 访 问 接口 ， 客 户 端 主机 只 能 够 从 
集群 中 的 某 台 节点 上 来 Mount 某 个 Export 和 输出 目录 ， 而 所 有 的 数据 IO 也 
都 是 通过 这 个 节点 进行 ， 这 也 就 从 根本 上 限制 住 了 传统 NAS 协 议 访问 集 








群 所 能 够 获得 的 最 大 性 能 。 而 OSD 从 一 开始 就 考虑 到 了 这 种 限制 ，OSD 
冲破 了 这 种 限制 。 所 有 使 用 OSD 协 议 访 问 集群 的 客户 端 主机 ， 它 们 都 首 
先 从 Metadata Server 上 查询 待 访问 的 目标 文件 /Object 都 分 布 在 哪些 OSD 
节点 上 ， 得 到 所 需 的 信息 之 后 ， 客 户 端 主机 的 OSD ”Initiator 会 同时 并 行 
地 加 所 有 存储 有 这 个 目标 文件 雁 放 的 OSD 点 发 起 IO 请 求 ， 并 行 地 存 取 
数据 ， 这 就 比 传统 的 NAS 协 议 有 了 质 的 飞跃 。 








思考 : 我 们 观察 一 下 图 15-73， 可 以 发 现 一 些 玄 妙 的 东西 。 
妈 ， 在 这 整个 集群 内 ，OSD 相 当 于 Disk，MDS 相 当 于 FS， 每 个 
Client 主 机 相当 于 应 用 程序 ， 以 太 网 交换 机 相当 于 系统 总 线 。 
我 们 仔细 思考 一 下 ， 这 整个 集群 ， 是 不 是 就 像 一 台 单独 的 计算 
机 一 样 呢 ? 多 个 应 用 程序 同时 通过 文件 系统 来 访问 磁盘 上 的 数 
据 。 








而 我 们 再 仔细 观察 一 下 图 15-69 左 侧 的 传统 NAS 架 构 ， 再 观察 一 下 
右 侧 的 NASD 架 构 。 你 发 现 这 其 中 的 奥妙 了 么 ? 是 的 。NASD 相 当 于 把 
上 面 所 述 的 “系统 总 线 ” 扩 充 了 ， 由 单条 串 行 改 为 多 条 并 行 ， 还 有 ， 
NASD 相 当 于 把 底层 做 了 Raid0 了 。 








这 就 是 “轮回 ”二 字 的 奥妙 所 在 。 


传统 NAS 也 不 甘 示弱 ，NFS 的 最 新 升级 版 NFS 4.1， 即 
PNEFS (Parallel ”NFS)〉， 也 玉 用 了 这 种 集群 架构 以 及 OSD 访 问 协 议 标 
准 。 而 CIFS/SMB 协 议 的 始祖 Microsoft 在 其 Windows Vista/Server 2008/7 
操作 系统 中 提供 了 SMB 1.0 的 升级 换代 版 一 一 SMB 2.0， 其 在 单机 访问 
时 相 比 SMB 1.0 有 了 很 大 的 效率 和 速度 提升 ， 而 使 用 MS 提供 的 DFS 也 可 
以 达到 与 集群 FS 类 似 的 效果 ， 但 并 不 是 那么 纯粹 。 传 统 NAS 与 OSD 将 会 
走向 融合 。 





15.9 当前 主流 的 集群 文件 系统 架构 分 类 与 对 比 


存储 系统 中 的 集群 系统 可 以 分 为 两 大 部 分 ， 一 个 是 像 V-Max、 
XIV、InserveT 这 样 的 集群 SAN 系 统 ， 它 们 的 集群 化 对 客户 端 来 说 是 完 
全 透明 的 ; 第 二 种 惑 是 集群 文件 系统 ， 集 群 文件 系统 又 可 以 分 为 其 他 多 
种 类 别 。 下 面 我 们 从 不 同 的 角度 分 析 一 下 目前 的 集群 文件 系统 的 分 类 。 


15.9.1 共享 与 非 共 享 存储 型 集群 























如 末 茶 个 集群 中 的 所 有 节点 是 共享 使 用 后 端 存储 的 〈 这 里 的 共 且 不 
古 说 共享 一 人 台 和 磁盘 阵列 ， 而 是 共 吝 访问 同一 个 或 者 多 个 LUN) ， 那 么 这 
个 集群 吏 属 于 共 衬 存储 型 集群 ， 否 则 便 是 非 共 孚 存储 型 集群 。 如 图 15- 
74 所 示 ， 左 侧 为 共 储 存储 型 集群 示意 图 ， 右 侧 为 非 共 至 存 储 型 。 但 是 不 
要 被 图 中 所 示 的 场景 所 误导 ， 非 共享 存储 型 集群 不 一 定 每 个 三 点 痢 必须 
用 目 己 本 地 的 磁盘 ， 点 当然 也 可 以 连接 到 一 人 台 或 者 几 台 磁盘 阵列 中 来 
获取 各 目的 存储 空间 ， 但 是 各 目的 存储 空间 只 能 目 己 访问 ， 其 他 节点 不 
可 访问 ， 这 就 是 非 共 胖 的 意义 。 















































图 15-74 ”共享 存储 与 非 共享 存储 型 集群 保 构 











二 


< 盏 与 非 共 孚 存储 型 集群 对 比如 下 。 


S 


(1) 非 共 圣 模式 的 集群 文件 系统 ， 当 菏 市 点 需 要 访问 其 他 节点 上 
的 数据 时 ， 这 些 数据 需要 在 前 端 交 换 机 中 (一般 是 以 太 网 ) 传输 ， 速 度 
偏 慢 ， 而 共享 存储 型 则 每 个 节点 可 以 直接 对 后 端 存储 设备 对 应 的 LUN 进 
行 读 写 ， 在 前 端 传输 的 只 有 集群 间 的 元 数据 沟通 流量 而 不 是 实际 数据 流 


用. 
里 。 


























(2) 缓存 一 致 性 ， 共 享 式 需 要 考 夸 ， 非 共 孚 式 不 需要 考 夸 。 





(3) 对 于 非 共 享 式 集群 文件 系统 ， 为 了 防止 单 点 故障 ， 需 要 将 每 
个 节点 上 的 数据 镜像 一 份 存在 其 他 节点 ; 而 共享 式 集群 ， 一 个 节点 故 
障 ， 另 外 的 节点 可 以 同时 接管 前 端 和 后 端 ， 因 为 后 端 存储 是 所 有 节点 共 
享 访问 的 。 








(4) 非 共享 式 集群 可 以 不 使 用 SAN 阵 列 ， 服 务 器 节点 本 地 模 位 多 
的 话 使 用 本 地 磁盘 也 可 以 满足 大 部 分 需求 ， 不 可 以 使 用 DAS 磁 盘 箱 等 ; 
共 主 存储 型 集群 则 必须 使 用 SAN 阵 列 。 


非 共 至 存储 型 文件 系统 又 可 被 称 为 “分 布 式 文件 系统 "， 即 数据 个 分 
布 存 放 在 集群 中 多 个 节点 之 上 。 


15.9.2 对称 式 与 非 对 称 式 集群 








如 图 15-75 所 示 为 对 称 式 集群 示意 图 。 所 谓 对 称 式 集群 文件 系统 是 
集群 中 所 有 节点 的 角色 和 任务 都 相同 ， 完 全 等 价 。 在 对 称 式 集群 文件 
系统 中 ， 每 个 市 点 都 很 “聪明 ”， 它 们 每 时 每 刻 都 能 够 保持 精确 的 沟通 与 
合作 ， 共 同 掌 管 着 全 局 文件 系统 的 元 数据 ， 每 个 节操 要 更 新 条 元 数据 时 
都 会 先 锁 住 ， 这 样 其 他 节点 就 必须 等 等 ， 束 这 样 轮值 执行 任务 ， 保 证 了 
文件 系统 元 数据 的 一 臻 性， 同时 也 精确 地 保持 大 缓存 一 致 性 。 各 个 市 皮 
间 沟 通 量 很 大 。 








图 15-75 “对称 式 集 群 文件 系统 架构 











如 图 15-76 所 示 为 非 对 称 式 集群 示意 图 。 在 非 对 称 式 集群 中 ， 只 有 
少数 节操 是 “聪明 ”的 ， 其 余部 是 傻 节 点 。 也 束 是 说 ， 只 有 少数 节操 (一 
般 为 两 个 主 备 关 系 的 方 点) 掌管 厦 系 统 内 全 局 的 文件 系统 信息 ， 其 他 市 











点 均 不 清楚 。 当 其 他 节点 需要 访问 某 文件 时 ， 需 要 首先 联系 这 个 聪明 节 
点 ， 后 者 将 前 者 要 访问 的 文件 所 对 应 的 具体 信息 《比如 存放 在 后 端 哪个 
LUN 的 哪 段 地 址 ， 或 者 存放 在 哪个 节点 中 ) 告诉 前 者 ， 前 者 得 到 这 些 信 
恩 之 后 便 直接 从 后 端的 LUN 或 者 对 应 节点 中 访问 该 数据 。 每 个 傻 太 点 上 
安装 一 个 代理 客户 端 程序 来 与 聪明 节点 通信 。 图 中 可 以 看 到 一 些 具体 的 
通信 过 程 。 这 个 “聪明 ”节点 叫做 “Metadata Server”"”， 简 称 MDS 或 者 
MDC (Metadata Controller) 。MDS 是 系统 中 唯一 掌握 文件 系统 元 数据 
的 角色 ， 下 文中 还 会 有 涉及 MDS 的 描述 ， 请 注意 阅读 和 关联 理解 。 





图 15-76” 非 对 称 式 集群 文件 系统 架构 


对 称 式 集群 文件 系统 的 典型 代表 有 Veritas ClusterFS、HP Ibrix。 非 
对 称 式 集群 文件 系统 的 典型 代表 有 Stornext SNFS、EMC MPFS、IBM 
SanFS。 显 然 ， 由 于 第 二 种 方式 易于 实现 ， 集 群 间 沟 通 成 本 低 ， 所 以 对 
应 的 产品 也 多 。 对 于 对 称 式 集群 ， 客 户 端 可 以 通过 挂 载 任何 一 个 节点 上 
的 目录 输出 即 可 访问 到 集群 中 所 有 数据 ， 或 串 行 或 并 行 ， 但 是 对 于 非 对 
称 式 集群 ， 客 户 端 只 能 通过 MDS 市 点 来 挂 载 ， 一 定 程 度 上 造成 MDS 节 
点 瓶 贷 。 但 是 由 于 对 称 式 集群 的 沟通 复杂 度 太 高 ， 不 利于 扩展 到 太 多 节 
点 数量 ; 而 非 对 称 式 集群 可 以 通过 引入 多 个 MDS 市 点 来 均 挫 负载 。 在 节 
点 数量 较 少 ， 也 就 是 在 对 称 式 集群 的 可 容忍 范围 之 内 时 ， 对 称 式 集群 由 
于 每 个 节点 都 可 以 充当 非 对 称 式 集群 中 MDS 的 角色 ， 所 以 往往 能 够 表现 
出 更 好 的 性 能 。 











15.9.3 ”自助 型 与 服务 型 集群 


上 面 图 示 中 的 拓扑 结构 均 为 “自助 型 ”文件 系统 集群 。 何 谓 “ 自 助 
型 ”， 顾 名 思 义 ， 也 就 是 谁 用 谁 融 形成 集群 ， 目 我 集群 ， 目 种 目 收 。 比 
如 有 个 视频 编辑 应 用 集群 ，100 台 PC Server， 每 个 节点 上 装 有 视频 编辑 


程序 ， 形 成 了 应 用 集群 ， 现 在 这 些 节 点 想 使 用 一 种 集群 文件 系统 来 共 吾 
地 访问 系统 内 的 所 有 文件 ， 那 么 束 可 以 在 这 些 应 用 节点 上 直接 安装 部 署 
集群 文件 系统 ， 应 用 集群 同时 也 变 成 了 文件 系统 集群 ， 每 个 布点 既是 形 
成 集群 的 服务 者 ， 同 时 还 是 数据 的 生产 者 (数据 由 其 上 的 应 用 程序 生 
产 ) ， 同 时 又 是 直接 访问 撒 层 文件 数据 的 消费 者 ， 这 融 是 所 谓 “ 目 助 
型 的 含义 。 























那么 再 来 看 看 图 15-77 所 示 的 拓扑 染 构 ， 框 内 的 古 一 个 集群 文件 系 
统 ， 框 外 又 增加 了 一 排 客 户 并 主机 ， 左 右 两 侧 分 别 为 对 称 式 和 非 对 称 式 
集群 。 在 这 个 拓扑 中 ， 集 群 内 的 服务 市 点 目 映 并 不 是 数 据 的 消费 者 ， 而 
只 是 服务 者 、 提 供 者 ， 而 集群 之 外 的 客户 端 主机 通过 茶 种 访问 协议 来 访 
问 集群 内 的 文件 数据 。 这 就 是 所 谓 “ 服 务 型 集群 文件 系统 ”。 








图 15-77 ”服务 型 集群 文件 系统 染 构 








为 何 会 出 现 服 务 型 文件 系统 集群 呢 ? 上 自助 型 不 是 很 好 么 ?还 节约 了 
服务 器 主机 的 数量 。 客 其 原因 主要 有 如 下 两 个 。 





a 降低 成 本 。 目 助 型 集群 中 每 个 节点 均 需 要 高 速 IJO 适 配器 比如 FC 
来 访问 阵列 存储 空间 ， 随 看 集群 规模 扩大 ， 适 配 卡 、 交 换 机 、 线 
绕 等 的 成 本 不 断 攀 升 。 

可 以 接 入 更 多 的 客户 端 。 服 务 型 集群 可 以 用 较 少 的 集群 节点 服务 
于 较 多 的 客户 端 主机 。 集 群 内 部 的 沟通 成 本 可 以 控制 ， 实 现 局 速 
高 效 。 同 时 外 部 客户 端 之 间 不 需要 互相 沟通 ， 所 以 客户 端 数量 可 
以 大 幅 增加 。 对 于 自助 型 集群 ， 如 果 市 点 数量 太 多 的 话 ， 集 群 内 
部 沟通 信息 量 以 及 复杂 上 度 将 会 成 几何 数量 上 升 ， 不 利于 扩充 。 

















15.9.4 SPI 与 SFI 型 集群 


为 了 实现 集群 所 必须 实现 的 Single Name Space， 有 两 种 方式 ， 如 图 
15-78 所 示 。 





图 15-78 SFI 与 SPI 集 群 文件 系统 架构 








a 懒 人 做 法 : 既然 每 个 节点 上 都 有 各 自 的 文件 系统 ， 我 就 把 他 们 输 
出 的 路 径 虚 拟 化 一 下 ， 倒 一 下 手 ， 集 中 管理 起 来 ， 然 后 再 次 向 外 
输出 成 一 个 Single Path Image (SPI) 。 我 只 管 路 径 统 一 ， 不 管 文 
件 放 在 哪里 。 典 型 代表 : 微软 的 DFS。 

a 勤快 人 做 法 : 每 个 节点 都 知道 所 有 文件 的 位 置 ， 在 文件 系统 底层 
进行 整合 而 不 是 表层 的 路 径 整合 ， 即 Single Filesystem 
Image (SFI) 。 典 型 代表 : CFS 等 大 多 数 集群 FS 。 


一 分 耕耘 一 分 收获 ，SFI 可 以 做 到 将 一 个 文件 切 开 分 别 存放 到 各 个 
节点 中 ， 而 SPI 无 法 做 到 。 但 有 时 也 不 得 不 服 投机 取 巧 的 效果 : SFI 人 往往 
扩展 能 力 有 限 ， 而 SPI 则 可 以 整合 大 量 的 路 径 《〈 节 点 ) 。 








因为 对 于 SFI 模 式 的 集群 FS， 其 节点 之 间 需 要 时 刻 同步 各 种 复杂 的 
状态 ， 每 个 节点 所 维护 的 状态 机 非常 复杂 ， 同 步 这 些 状 态 需 要 不 少 通信 
量 ， 但 是 外 部 网 络 速度 永远 比 不 上 内 存 速度 ， 所 以 这 些 通 信 会 增加 每 个 
方 点 状态 机 变化 的 延迟 ， 导 致 处 理 速 度 有 所 降低 。 尤 其 是 当 市 点 数量 增 
多 时 ， 比 如 几 十 个 甚至 上 百 个 ， 那 么 对 于 SFI 模 型 的 汲取 FS 来 讲 束 是 梦 
魔 了 ， 几 十 个 状态 机 之 间 的 相互 协作 ， 加 上 外 部 网 络 带 来 的 延迟 ， 此 时 
所 有 这 些 劣势 将 会 加 成 ， 可 能 导致 性 能 不 升 反 降 。 而 SPI 模 式 的 集群 FS 
就 没有 这 个 问题 ， 节 点 之 间 相 互 独 立 ， 所 以 需要 同步 的 信息 很 少 ， 如 果 
主机 端 不 使 用 特殊 客户 端 访问 ， 而 只 是 通过 传统 的 NFS 或 者 CIFS 等 访问 
的 话 ， 那 么 集群 节 氮 间 可 能 会 出 现实 际 数据 的 交换 ， 此 时 惑 需 要 一 个 高 




















速 的 内 部 交换 矩阵 才能 获得 较 高 的 性 能 
15.9.5 ” 串 行 与 并 行 集群 


a 客户 端 可 以 通过 两 种 方式 来 访问 这 个 集群 所 提供 
的 数据 : 第 一 种 是 毕 行 方式 ， 即 客户 端 通过 挂 载 集 群 中 茶 个 节点 所 输 出 
的 目录 ， oa 是 过 这 个 节点 执行 ， 第 二 种 则 是 并 行 访 
问 方 式 ， 首 先 客户 端 初 始 时 也 是 通过 集群 中 的 某 个 节点 挂 载 对 应 的 输出 
目录 ， 但 是 挂 载 之 后 ， 客 户 问 只 通过 这 个 节点 来 获取 竺 访问 文件 的 元 数 
据 信 息 〈 见 图 15-76 所 示 的 过 程 ) ， 得 到 文件 对 应 的 块 地 址 等 信息 之 
后 ， 客 户 端 可 以 直接 利用 所 获 得 的 信息 访问 集群 中 的 其 他 节点 来 访问 对 
应 的 数据 ， 如 宋 东 两 个 文件 分 别 存放 在 集群 中 不 同 的 节点 ， 或 者 茶 个 文 
件 补 分 散 存 放 在 多 个 节点 中 ， 那 么 客户 端 可 以 并 行 地 访问 这 多 个 节点 从 
而 并 行 地 读 写 对 应 的 文件 。 


























图 15-79 所 示 为 对 称 / 非 对 称 式 两 种 模式 并 行 访 问 文件 系统 集群 架构 
示意 图 。 如 图 15-80 所 示 为 一 个 非 对 称 式 集群 并 行 访问 过 程 中 的 示意 
图 。 图 中 的 OID 表 示 对 象 存储 协议 中 的 Object ID。 对 于 并 行 访问 集群 来 
讲 ， a i Pet on 
Lustre、Panasas 等 ) ， 当 然 ， 也 有 依然 采用 NFS 方 式 来 并 行 访问 集群 中 
数据 节点 的 ee Client) 。 








图 15-79 ”两 种 并 行 访问 模式 




















图 15-80 “并 行 访问 集群 时 的 步骤 示意 图 








并 行 访问 集群 与 串 行 访问 集群 对 比如 下 。 





a 在 单条 链 路 速率 相同 的 情况 下 ， 并 行 永远 强 于 串 行 。 


目前 前 端 客 户 端 一 般 都 是 用 1GbE 以 太 网 来 访问 集群 ， 如 果 是 串 
行 方式 ， 客 户 端 只 能 与 一 个 节点 通过 这 条 链 路 通信 ， 如 果 这 个 节 
点 的 处 理 能 力 不 足 或 者 本 地 带宽 饱和 ， 那 么 对 应 的 客户 端 所 获得 
的 数据 带宽 也 就 会 受 限 ， 可 能 连 1Gb 带 宽 都 远 未 达到 。 为 此 ， 让 
这 个 客户 端 并 行 地 与 多 个 节点 通信 来 访问 数据 ， 则 可 以 最 大 程度 
地 饱和 链 路 带宽 。 实 际 测试 显示 ，10GbE 的 链 路 下 ， 单 条 NFS 流 
远 远 无 法 满足 带宽 ， 最 差 时 可 能 只 有 10% 的 带宽 能 够 利用 。 这 也 
是 之 后 pNFS 并 行 访问 协议 被 引入 的 原因 。 








提供 并 行 访问 能 力 的 集群 典型 代表 : Ibrix、EMC MPFS、Lustre、 
Panasas。 基 本 上 上 所 有 的 集群 文件 系统 都 提供 并 行 访 问 客户 端 。 


15.9.6 ”集群 /并 行 /分 布 式 /共享 文件 系统 各 论 


大 家 平时 可 能 听 到 过 多 种 叫 法 : 集群 文件 系统 、San 共 享 文件 系 
统 、 分 布 式 文件 系统 、 并 行文 件 系 统 是 四 种 主流 的 叫 法 ， 那 么 这 些 概念 
之 间 到 后 有 什么 联系 呢 ? 





San 共 享 式 文件 系统 : 其 实 这 种 叫 法 狭义 上 指 的 就 是 自助 型 、 共 
享 存储 型 的 集群 文件 系统 。 广 义 上 则 也 可 以 泛 指 共享 存储 型 的 集 
群 文 件 系统 ， 可 以 是 自助 型 ， 也 可 以 是 服务 型 。 但 是 最 常用 的 还 
是 诸如 Stornext 和 IBM SanFS 这 样 的 自助 型 共享 存储 集群 。San 共 
享 文件 系统 又 可 被 简称 为 “San 文 件 系 统 ”。Stornext 的 SNFS 共 享 文 
件 系 统 最 新 版 本 已 经 发 布 了 Distributed Lan Client (DLC)〉， 从 自 
助 型 转 癌 了 服务 型 ，DLC 可 以 让 集群 外 的 客户 问 并 行 地 访问 集群 
节点 ， 也 就 是 并 行文 件 系 统 所 提供 的 并 行 访问 客户 端 代 理 程序 。 
分 布 式 文件 系统 : 同一 个 文件 系统 下 的 文件 (或 者 同一 个 文件 的 
多 个 部 分 ) 不 是 被 放 在 单一 节点 内 ， 而 是 被 分 开 存 放 在 多 个 节点 














之 内 ， 这 就 是 所 请“ 分布 式 ”的 意义 。 分 布 式 与 共享 式 是 对 立 的 ， 
所 以 分 布 式 文件 系统 等 价 于 非 共 至 存储 型 的 集群 文件 系统 。 

并 行文 件 系统 : 可 以 提供 并 行 访问 的 集群 文件 系统 。 客 户 端 访问 
这 些 被 分 开 存 放 的 文件 时 ， 可 以 直接 从 多 个 节点 并 行 地 读 取 多 个 
文件 ， 或 者 一 个 文件 的 多 个 部 分 ， 也 就 是 并 发 地 直接 从 存 有 对 应 
数据 的 市 皮 上 来 读 写 这 些 数据 ， 这 就 是 所 请 “并 行 "。 相 对 于 并 行 
的 是 吕 行 ， 串 行文 件 系 统 ， 束 是 指 客户 疹 只 能 从 所 有 节点 中 的 一 
个 节点 来 读 写 所 有 数据 ， 如 果 需 要 读 写 的 数据 不 在 所 连接 的 市 扣 
上 ， 那 么 需要 由 这 个 节点 来 癌 存 有 对 应 数据 的 节点 发 起 请 求 ， 将 
数据 从 对 应 的 布点 通过 内 部 交换 矩阵 传输 过 来 之 后 ， 再 传递 给 客 
户 端 。 也 瓯 是 说 数据 是 串 行 地 传输 的 。 分 布 不 一 定 并 行 ， 但 是 并 
行 一 定 是 分 布 的。 并 行文 件 系 统 均 需 要 在 主机 客户 端 安装 一 个 代 
理 ， 或 者 一 个 新 的 文件 系统 挂 载 器 ， 用 来 专门 实现 并 行 访问 。 
集群 文件 系统 ， 分 布 式 文件 系统 、 并 行文 件 系统 、 共 享 式 文件 系 
统 ， 三 者 统称 集群 文件 系统 。“ 分 布 式 * 和 “ 共 至 式 ” 指 的 是 集群 中 
数据 分 布 的 方式 ， 而 “并 行 ” 指 的 是 用 户 对 这 些 数 据 的 访问 方式 。 
分 布 、 访 问 ， 两 个 层面 ， 两 种 含义 。 




















15.9.7 集群 NAS 系 统 的 三 层 架 构 


这 里 再 提 一 下 集群 NAS。 一 个 集群 NAS 系 统 其 实 可 以 被 分 为 三 层 架 
构 ， 第 一 层 是 底层 存储 空间 层 ， 这 一 层 可 以 是 Share ”Everything (共享 
型 ) 或 者 Share Nothing〈 非 共享 型 ) 两 种 模式 ; 第 二 层 是 集群 FS 层 ， 集 
群 FS 层 建立 在 底层 任何 一 种 模式 〈 共 享 或 者 非 共 享 型 ) 的 存储 空间 之 
上 ， 这 一 层 可 以 做 成 Single Path Image 和 Single Filesystem Image。 对 应 
第 一 层 ， 第 一 层 模 式 为 Share Everything 的 一 般 都 在 第 二 层 使 用 Single 
Filesystem Image 模 式 ; 而 第 一 层 使 用 Share Nothing 模 式 的 ， 第 二 层 既 可 




















以 使 用 Single Path _ Image 模式， 也 可 以 使 用 Single Filesystem Image 模 
式 。 第 三 层 就 是 NAS 协 议 输 出 层 了 ， 这 一 层 有 四 种 访问 模式 传统 
CIFS、 传 统 NFS、pPNEFS 并 行 客户 端 以 及 私有 客户 端 。 后 两 者 可 以 并 行 
访问 ， 前 两 者 只 能 串 行 访问 。 


15.9.8 实际 中 的 各 种 集群 拓扑 一 览 


上 面 介绍 了 5 大 类 共 10 种 不 同 角 上 度 的 集群 文件 系统 架构 ， 利 用 这 10 
种 不 同 的 方式 ， 可 以 两 两 组 合成 任意 模式 的 集群 文件 系统 。 下 面 列 一 下 
实际 中 主要 的 集群 FS 拓扑 。 





1. 直 连 后 端 FC/ISCSI SAN 


这 种 形式 的 集群 文件 系统 就 是 上 文 所 述 的 SAN 共 享 文件 系统 。 客 户 
端 代理 程序 在 查询 MDC 得 到 信息 后 直接 访问 后 端的 SAN 磁 盘 阵 列 ， 碍 
询 MDC 的 时 候 走 前 端 以 太 网 ， 执 行 实际 IO 请 求 的 时 候 走 后 端 FC 网 ，IO 
请 求 遵循 SCSI3 SBC 纯 磁盘 级 块 协议 ， 如 图 15-81 所 示 。 这 种 模式 的 集群 
文件 系统 典型 代表 有 : Stornext SNFS、EMC MPFS、IBM SanFS。 











图 15-81 ” 直 连 后 端 FC/ISCSI SAN 








2. 引入 IO 节点 


在 上 图 中 再 插入 一 层 处 理 模块 ， 将 后 端的 LUN 虚 拟 化 管理 起 来 ， 然 
后 再 通过 另外 一 种 形式 进行 输出 从 而 被 客户 端 以 另外 的 方式 访问 ， 那 么 
系统 的 架构 如 图 15-82 所 示 。 如 果 在 LUN 上 层 引 入 一 种 对 象 存储 网 关 设 
备 ， 那 么 客户 端 就 需要 使 用 支持 OSD 协 议 的 客户 端 代理 ， 比 如 pNFS 客 
户 端 ， 如 果 引 入 一 种 广 丙 自行 开发 的 私有 设备 ， 比 如 Ibrix 的 Segment 


Server， 那 么 客户 端 也 需要 安装 相应 的 代理 程序 ， 如 果 被 引入 的 是 一 个 
NAS 头 ， 那 么 客户 端 只 需要 使 用 标准 的 NFS 或 者 CIFS 客 户 端 即 可 。 人 至 于 
引入 IO 节点 的 原因 和 优势 ， 请 参考 后 文 的 论述 。 这 种 模式 的 典型 代表 
有 : Panasas、Lustre、Ibrix。 其 中 Panasas 使 用 标准 的 OSD 节 点 以 及 pNFS 
协议 ; Lustre 则 也 是 用 OSD 节 点 ， 但 是 客户 端 并 非 使 用 标准 pNFS 协 议 访 
问 ， 而 是 一 种 私有 协议 ; Ibrix 则 使 用 独自 设计 的 IO 节点 ， 客 户 端 代 理 也 
是 使 用 私有 协议 访问 IO 节点 。 








图 15-82 ”引入 IO 节点 之 后 


3. 用 OSD 作 为 IO 节点 


同上 ， 其 结构 如 图 15-83 所 示 。 暴 型 代表 : Panasas、Lustre。 





图 15-83 ”用 OSD 作 为 IO 节点 





4. 使 用 标准 PNES 协 议 访问 IO 节点 


见 上 文 ， 其 结构 如 图 15-84 所 示 。 典 型 代表 : Panasas。 (Pnasas 的 
IO 节点 并 非 连 接 SAN 后 端的 LUN， 而 是 使 用 自己 本 地 的 磁盘 。 ) 


图 15-84 用 pNFS 协 议 访问 IO 节点 
5. 使 用 标准 NFS/CIFS 协 议 访问 IO 节 点 


如 图 15-85 所 示 为 一 个 Isilon 的 OneFS 架 构 简 图 。 其 实 并 不 复杂 ， 
Isilon 使 用 多 个 NAS 头 联合 起 来 组 成 一 个 集群 NAS 系 统 ， 每 个 NAS 头 都 
是 用 自己 本 地 磁盘 作为 存储 空间 ， 所 有 NAS 头 的 角色 都 相同 。 整 个 系统 
可 以 做 到 Single Name Space， 访 问 任 何 一 台 NAS 头 ， 就 可 以 访问 到 全 局 








的 数据 。 如 果 待 访问 的 目标 数据 不 在 所 连接 的 NAS 头 管辖 范围 内 ， 那 么 
对 应 的 NAS 头 会 通过 后 端的 以 太 网 或 者 IB 网 络 从 管辖 对 应 数据 的 那个 
NAS 头 上 将 数据 取 过 来 然后 返回 给 客户 痢 ， 写 也 是 类 似 动作 。 这 种 架构 
本 身 并 没有 对 单 客 户 端 或 者 单 文件 访问 的 速度 有 任何 加 成 作用 ， 但 是 它 
却 做 到 了 所 有 节点 平等 化 以 及 真正 的 全 局 命名 空间 。 








图 15-85 ”使 用 标准 NFS/CIFS 协 议 访问 IO 节 点 





6. 所 有 节点 角色 一 致 的 集群 系统 


见 图 15-61。 典 型 代表 : Ibrix、Isilon。 这 种 模式 下 ， 集 群 中 所 有 的 
节点 既 充 当 IO 节 点 ， 又 充当 MDC 控 制 器 ， 访 问 任何 一 个 节点 均 可 访问 
到 全 局 数据 。 








7. 所 有 IO 节点 均 使 用 本 地 磁盘 的 集群 系统 


见 图 15-64。 典 型 代表 : Isilon、Panasas。JIsilon 使 用 机 架 式 服务 器 ， 
Panasas 使 用 刀片 服务 器 。 这 种 模式 下 ，IO 市 点 并 不 连接 后 端 第 三 方 磁 
盘 阵 列 来 获取 存储 空间 ， 而 是 使 用 每 个 刀片 或 者 机 架 中 本 地 的 磁盘 ， 利 
用 大 量 的 节点 来 获取 高 容量 存储 空间 。 




















综 上 所 述 ， 集 群 文件 系统 其 实 最 后 演化 为 了 两 大 阵营 : 一 个 是 客户 
端 直接 访问 后 端 SAN 的 模式 ， 另 一 个 则 是 在 客户 端 和 后 端 FC SAN LUN 
之 间 引 入 基于 以 太 网 链 路 访问 的 IO 节点 的 模式 。 后 者 又 可 以 根据 客户 端 
访问 IO 节点 使 用 协议 的 不 同 而 分 为 更 多 的 种 类 。 





两 大 阵营 各 有 利 浆 。 直 接 访 问 后 端 SAN 的 模式 下 ， 客 户 端 与 后 端的 
磁盘 阵列 之 间 没 有 任何 其 他 处 理 模 块 ， 所 以 其 IO 的 效率 是 最 高 的 ， 而 且 











加 上 FC 网 络 的 速度 ， 整 个 系统 的 速度 和 效率 均 较 高 。 但 是 相对 来 讲 ， 
其 成 本 也 将 随 着 客户 端 数 量 的 增 大 而 正比 增加 ， 因 为 目前 FC 适 配 卡 的 
价格 依然 居 高 不 下 ， 如 果 为 每 个 客户 端 安装 一 块 或 者 两 块 FC 卡 ， 也 是 
一 笔 不 小 的 投资 。 此 外 ， 由 于 后 端的 LUN 丝 由 MDC 来 挂 载 和 管理 ， 而 
系统 中 的 MDC 数 量 有 限 ( 目 前 最 多 两 个 ) ， 所 以 一 旦 两 个 MDC 都 出 问 
题 ， 那 么 整个 系统 就 瘫痪 了 。 引 入 IO 节 点 之 后 ， 一 方面 客户 端 可 以 使 用 
廉价 的 以 太 网 来 访问 IO 节 点 了 ， 花 费 降 低 ; 男 一 方面 ， 对 于 像 Ibrix 这 种 
架构 ， 所 有 节点 都 同时 作为 MDC 和 IO 节点 ，IO 节 点 本 身 可 以 共享 访问 
后 端 所 有 的 LUN， 所 以 一 旦 某 个 IO 节点 故障 ， 那 么 其 他 任何 一 个 IO 节点 
就 可 以 接管 故障 节点 之 前 所 挂 载 的 LUN 以 及 文件 系统 ， 继 续 提 供 服 务 ， 
只 要 系统 中 还 剩 下 一 个 IO 节 点 /MDC， 那 么 整个 系统 就 不 会 瘫痪 ， 也 就 
是 说 ， 这 种 模式 下 的 系统 容错 率 高 了 很 多 。 但 是 ， 随 之 而 来 的 问题 就 是 
IO 效 率 相 对 低 了 ， 以 及 客户 端 IO 速 度 的 限制 ， 以 太 网 毕竟 只 有 1Gb/s 的 
速度 ， 在 单 客 户 端 或 者 单 文件 访问 的 情况 下 ， 集 群 系统 显示 不 出 多 少 优 
势 ， 但 是 直接 访问 后 端 SAN 的 模式 下 ， 不 管 是 单 客户 端 还 是 单 文件 访 
问 ， 其 依然 能 够 达到 较 高 的 速度 。 


























提示 : ”关于 单 客户 端 和 单 文件 访问 的 问题 ， 下 文 会 有 更 详细 
的 论述 。 


15.10 ” 带 外 共享 SAN 文 件 系 纺 


在 广电 领域 经 常会 用 到 一 种 架构 ， 束 是 带 外 共 至 文件 系统 。 这 种 染 
构 允许 多 台 主 机 共 至 访问 同一 个 或 者 一 批 Luan， 但 是 必须 在 一 个 特殊 的 
文件 系统 的 协调 下 进行 ， 这 个 文件 系统 掌握 全 局 的 文件 系统 元 数据 ， 
台 主 机 虽然 可 以 直接 读 写 Lun， 但 是 在 读 写 之 前 必须 询问 和 经 过 这 个 文 
件 系统 的 同音， 文件 系统 会 告诉 主机 应 该 上 怎么 访问 以 及 访问 哪些 地 方 。 











15.10.1 SAN 共 享 文件 系统 


多 主机 能 否 同 时 读 写 同一 个 LUN 中 的 文件 而 同时 保证 数据 一 致 性 ， 
一 直 是 很 多 人 在 反复 问 的 问题 ， 答 案 也 是 固定 的 ， 即 必须 通过 使 用 特定 
的 共享 式 文件 系统 来 实现 。 即 便 所 有 客户 端 主机 同时 使 用 DIO 十 
WriteThrough 模 式 的 IO 方式 来 访问 对 应 的 文件 ， 由 于 文件 的 Metadata 始 
终 是 被 缓存 在 所 有 客户 端 节点 的 ， 而 DIO 和 WT 是 不 能 把 Metadata 也 同步 
刷 入 磁盘 的 ， 所 以 这 种 做 法 只 适用 于 Metadata 永 不 改变 的 情况 下 ， 而 且 
性 能 也 得 不 到 保证 。 














这 个 问题 的 本 质 原 因 就 是 因为 整个 系统 内 存在 多 个 独立 的 文件 系统 
逻辑 ， 即 每 个 客户 端 都 要 维护 自己 的 文件 系统 缓存 ， 而 它们 之 间 又 互 不 
通信 ， 各 做 各 的 。 那 么 很 显然 ， 解 决 这 个 问题 的 根本 办 法 ， 就 是 让 整个 
系统 内 只 存在 一 份 文件 系统 逻辑 和 缓存 。 这 种 做 法 的 一 个 例子 就 是 NFS 
或 者 CIFS 等 NAS 协 议 访 问 方式 ， 全 局 的 文件 都 由 一 台 单 一 的 NAS 服 务 器 
来 处 理 ， 客 户 端 不 需要 处 理 文件 系统 逻辑 。 这 样 的 话 ， 只 要 客户 端 应 用 
使 用 同步 IO 调用 ， 即 可 完全 保证 数据 一 致 性 了 。 


至 此 ， 多 主机 共享 访问 同一 个 LUN 下 面 的 文件 的 问题 ， 有 了 一 种 解 


决 办 法 ， 即 使 用 NAS。 然 而 ， 还 有 另外 一 种 办 法 ， 即 保持 客户 端的 访问 
协议 和 后 层 链 路 速度 不 变 ， 直 接 把 多 余 的 文件 系统 实例 去 除 挥 ， 只 保留 
一 份 文件 系统 逻辑 。 这 种 思想 也 束 沽 变 为 了 共 至 式 SAN 文 件 系 统 了 。 





如 图 15-86 所 示 ， 左 侧 为 整个 系统 原先 的 染 构 ， 多 个 主机 共同 访问 
同一 个 LUN 中 的 文件 ， 会 产生 数据 不 一 致 ， 因 为 每 台 主 机 都 各 目 为 政 ， 
当 任意 一 台 客 户 问 打算 访问 目标 文件 的 时 候 ， 它 们 各 目 会 癌 目 身 内 存 中 
的 文件 系统 用 起 请 求 ， 从 而 执行 IO 操作 。 














图 15-86 ”传统 文件 系统 与 AN 文件 系统 比较 


右边 所 示 的 架构 则 为 进化 之 后 的 架构 ，5 人 台 客 户 端 中 的 4 台 上 的 文件 
系统 定理 逻辑 被 剔除 《所 谓 被 吻 除 ， 并 不 是 说 将 操作 系统 中 的 文件 系统 
去 挥 ， 而 是 引入 一 个 可 挂 载 的 新 文件 系统 ) ， 只 在 其 中 一 个 客户 端 主 机 
上 保留 了 一 份 。 当 其 他 4 个 客户 器 需要 访问 文件 的 时 候 ， 由 于 对 应 的 文 
件 系 统 已 经 不 在 本 地 了 ， 而 位 于 第 5 个 客户 端 之 上 ， 所 以 它们 需要 通过 
网 络 来 回 位 于 第 5 个 客户 端 上 的 文件 系统 发 起 请 求 〈 由 一 个 代理 程序 模 
块 发 起 ) ， 也 就 是 图 示 的 以 太 网 络 。5 号 客户 端 上 的 文件 系统 接收 到 碍 
询 请 求 之 后 ， 将 对 应 的 信息 ， 比 如 待 访问 部 分 所 对 应 的 LUN 以 及 LUN 中 
的 LBA 地 址 段 等 及 送 回 其 他 客户 端 ， 友 起 俘 询 请 求 的 客户 端 收 到 这 些 数 
据 之 后 ， 需 要 上 自己 来 从 存储 设备 中 读 出 或 者 写 入 对 应 的 数据 块 。 





经 过 这 样 的 改造 ， 就 可 以 避免 同时 访问 时 造成 的 数据 不 一 致 状况 。 
而 运行 唯一 文件 系统 管理 模块 的 那个 客户 端的 身份 也 进化 了 ， 我 们 称 它 
为 “Metadata Server” 或 者 “Metadata Controller”， 即 MDS 或 者 MDC。MDS 
如 此 重要 ， 上 所 以 一 般 都 会 使 用 两 个 或 者 多 个 MDS 组 成 一 个 HA 的 Failover 
组 以 实现 容错 ， 有 些 甚至 可 以 实现 双 Active 负 载 均 衡 。 








至 此 ， 还 有 一 点 比较 重要 的 东西 需要 理解 ， 即 在 图 15-86 左 侧 所 未 
的 传统 方式 下 ， 数 据 的 查询 和 数据 的 IO 都 是 由 同一 个 客户 端 执行 的 ， 而 
石 侧 的 架构 中 俘 询 由 MDS 上 的 中 央 文 件 系 统 来 执行 ， 而 数据 IO 则 需要 
每 个 客户 端 目 行 执 行 〈 直 接 访问 后 端 存储 设备 ， 无 须 经 由 MDS) 。 这 一 
扩 与 单一 NAS 服 务 右 不 同 ，SAN 文 件 系 统 属于 一 种 带 外 染 构 ， 而 单一 
NAS 服 务 器 属于 带 内 架构 。 理 解 这 一 点 ， 是 理解 后 面 并 行 访问 集群 化 进 
化 的 关键 。 











15.10.2 ”针对 NAS 和 SAN 文 件 系 统 的 并 行 化 改造 


由 于 传统 NAS 系 统 属于 带 内 架构 ， 所 以 NAS 前 端的 有 限 以 太 网 链 路 
以 及 单一 NAS 服 务 器 后 端的 带宽 限制 最 终 制 约 了 单一 NAS 服 务 器 的 性 
能 ， 为 了 解决 这 个 问题 ， 集 群 NAS 以 及 对 应 的 并 行 访问 协议 比如 pNFS 
等 被 开发 了 出 来 ，NAS 领 域 也 出 现 了 带 外 MDS 的 概念 。 客 户 端 使 用 
pNFS ClientIJMDS 查 询 待 访问 目标 的 位 置 等 信息 ， 得 到 信息 之 后 ， 自 行 
向 目标 发 起 访问 。 与 单一 NAS 服 务 器 架构 不 同 的 是 ， 集 群 NAS 系 统 中 存 
在 多 个 存储 节点 ， 客 户 端 可 以 同时 从 所 有 这 些 存储 节点 中 读 写 数据 ， 这 
就 是 所 谓 的 “并 行 访问 * 了 ， 所 以 也 就 是 一 个 集群 。pNFS 使 用 了 OSD 来 
作为 客户 端 与 存储 设备 之 间 交 互 的 协议 。 














同样 ，SAN 文 件 系统 本 身 就 是 一 个 带 外 架构 ， 它 实现 并 行 集群 化 访 
问 是 原生 就 支持 的 ， 只 要 在 系统 内 添加 更 多 的 存储 阵列 、 更 多 的 LUN 即 
可 。 如 图 15-87 所 示 为 集群 化 并 行 SAN 文 件 系统 和 集群 化 并 行 NAS 系 统 
的 示意 图 。 


图 15-87 集群 化 并 行 系统 示意 图 








我 们 分 析 到 这 里 就 可 以 发 现 ， 其 实 集群 NAS 和 SAN 共 享 文件 系统 这 
两 者 的 本 质 是 一 样 的 ， 殊 途 同 归 ， 最 终 两 者 都 使 用 了 MDS 作 为 中 央 单 一 
文件 系统 管理 者 ， 各 个 客户 端 使 用 对 应 的 代理 程序 〈 比 如 PNFS 客 户 
端 、SAN 文 件 系 统 客户 端 ) 来 直接 并 行 地 访问 存储 设备 。 只 不 过 在 进化 
的 过 程 中 ，SAN 文 件 系 统 是 一 步 到 位 ， 而 NAS 则 经 历 了 比较 复杂 的 演 
化 。 


集群 系统 的 再 进一步 进化 的 形态 ， 就 是 类 似 Ibrix 这 样 的 ， 任 何 一 个 
节点 都 可 以 充当 MDS， 使 得 集群 中 的 每 个 市 点 都 共有 相同 的 地 位 。 








经 过 集群 化 改造 之 后 ， 整 个 系统 变 成 了 彻 砍 的 Scale-Out 以 构 ， 随 独 
系统 内 部 存储 市 点 的 增加 ， 客 户 疹 所 获得 的 带宽 和 IOPS 也 就 可 以 线性 上 
升 。 


15.10.3 SAN FS 实例 分 析 
下 面 我 们 就 来 看 一 下 一 个 SAN 文 件 系统 的 底层 架构 吧 。 
1. 核心 本 地 文件 系统 EXFS 


如 图 15-88 所 示 为 该 SAN FS 的 底层 架构 简 图 。 其 中 MDC 上 的 核心 基 
础 模块 为 一 个 被 命名 为 EXFS 文 件 系统 ，EXFS 是 一 个 Linux 上 的 纯 本 地 
文件 系统 ， 由 于 EXT3 存 在 诸多 限制 ， 所 以 这 个 厂商 自己 写 了 一 个 全 新 
的 EXFS 文 件 系 统 。EXFS 不 仅 具 有 文件 系统 的 基本 功能 ， 而 且 还 负责 卷 
的 管理 和 挂 载 ， 相 当 于 一 个 集成 了 卷 管理 模块 的 文件 系统 ， 文 持 管 理 底 
层 最 多 4096 个 LUN， 而 且 文 持 在 线 扩容 。 可 以 在 线 向 对 应 的 文件 系统 内 
添加 LUN， 当 用 户 需 要 从 某 个 文件 系统 内 剔除 某 个 LUN 的 时 候 ，EXFS 
还 提供 了 对 应 的 工具 来 检测 哪些 文件 处 于 这 个 LUN 中 ， 从 而 可 以 让 用 户 











手动 地 将 文件 迁移 到 别处 ， 然 后 再 剔除 对 应 的 LUN。EXFS 将 整个 文件 
系统 的 元 数据 存放 到 一 个 或 者 多 个 专属 的 后 端 卷 中 存放 ， 而 不 是 所 布 后 
端 所 有 LUN， 这 样 做 的 好 处 是 充分 保证 性 能 和 安全 性 。 


图 15-88 ”该 SAN FS 底层 架构 图 
此 外 ，EXFS 的 设计 在 文件 分 布 策略 方面 频 有 考究 。 


提示 : ”EXFS 对 于 文件 的 分 布 给 出 了 三 种 方式 。 第 一 种 就 是 完 
全 条 带 化 分 布 方 式 ， 相 当 于 一 个 讶 RAID 0 模式 ， 每 个 具有 一 定 
尺寸 的 文件 都 被 拆 分 多 份 放 在 后 端的 多 个 LUN 中 。 这 种 模式 对 
于 单个 大 文件 的 单线 程 访 问 具 有 最 好 的 性 能 加 成 。 

第 二 种 则 是 纵向 分 布 模式 。 在 本 书 的 "IO 路 径 及 优化 ”相关 章节 
中 曾经 详细 分 析 过 盲 RAID 0 所 存在 的 问题 ， 即 多 文件 /LUN 并 
发 的 时 候 ， 性 能 又 降 。 而 这 对 于 数字 媒体 系统 是 致命 的 ， 会 直 
接 导 致 视频 播放 的 卡 壳 。 针 对 于 此 ，EXFS 可 以 实现 将 一 个 文 
件 存 放 在 一 个 LUN 中 ， 下 一 个 文件 存放 在 下 一 个 LUN 中 ， 以 此 
类 推 。 这 样 就 可 以 保证 并 发 访问 多 个 文件 的 时 候 ， 不 会 产生 
LUN 的 I0 冲 突 ， 当 然 这 些 LUN 在 底层 也 最 好 要 位 于 不 同 的 磁盘 
组 中 ， 最 终 IO 冲 突 的 是 磁盘 而 不 是 LUN。 

第 三 种 则 是 为 了 配合 MAID 技 术 而 生 的 ，MAID 可 以 让 长 期 没 
有 IO 访问 的 磁盘 的 盘 片 停止 旋转 从 而 节 电 。EXFS 在 存储 文件 
的 时 候 可 以 将 文件 先 存 满 一 个 LUN， 然 后 再 存储 到 下 一 个 
LUN， 以 此 类 推 。 这 样 ， 其 他 没有 存储 文件 的 LUN 所 对 应 的 磁 
盘 就 可 以 停止 旋转 了 。 但 是 这 种 分 布 方式 会 影响 性 能 。 

用 户 可 以 根据 自己 的 需求 来 选择 不 同 的 分 布 模式 。 




















2. MDC 上 的 信息 传递 员 一 一 NFS Daemon 和 Layout Daemon 


有 了 EXFS 这 个 核心 之 后 ， 必 须 还 要 有 一 个 负责 将 文件 系统 元 数据 
信息 传递 给 客户 端 上 的 代理 程序 的 角色 。 很 显然 ， 这 种 角色 早 就 存在 
了 ， 比 如 NFS 网 络 文件 系统 ， 客 户 端 可 以 通过 一 系列 的 RPC Call (比如 
GETATTR()、FSINFO()、FSSTAT0O 等 ) 来 向 服务 端 查询 文件 的 各 种 属 
性 。 该 文件 系统 并 没有 沿用 传统 的 NFS 服 务 端 式 的 带 内 模式 ， 而 是 在 它 
上 面 进行 了 改进 ， 增 加 了 一 个 新 层次 来 实现 更 多 的 功能 〈 见 下 文 ) 。 从 
这 个 角度 上 来 看 ，MDC 相 当 于 一 台 带 外 的 NFS 服 务 器 。 





提示 : ”Ibrix 以 及 其 他 多 个 集群 FS 厂商 的 MDC 节 点 其 实 也 是 使 
用 NFS Daemon 来 负责 接收 客户 端的 查询 请 求 ， 同 样 ，Ibrix 
Fusion Client 的 底层 也 必须 依靠 NFS Client。 不 同 的 是 ，Ibrix 在 
Windows 上 直接 使 用 了 微软 提供 的 SFU/SUA 来 作为 NFS 

Cljient。 


这 种 特制 的 服务 端 与 传统 的 NFS 服 务 器 有 一 点 最 大 不 同 ， 那 就 是 客 
户 端 针对 文件 的 实际 数据 IO 操 作 (对 应 着 NFS 协 议 中 的 READ()、 
WRITE() 等 ) 并 不 发 送 给 MDC 来 处 理 ， 因 为 如 果 连 实际 IO 都 要 MDC 来 
处 理 的 话 ， 那 整个 系统 真 的 就 与 NAS 无 异 了 。 所 以 MDC 上 的 改进 后 的 
NEFS 服 务 端 模 块 并 不 处 理 实际 数据 IO， 而 只 负责 应 答 文 件 的 其 他 属性 信 
息 。 既 然 需要 客户 端 自行 向 后 端的 LUN 发 起 实际 IO 操作 ， 那 么 客户 端 就 
必须 知道 对 应 的 文件 段 到 底 存放 在 哪个 LUN 的 哪些 Block 中 。 这 些 信 息 
只 有 MDC 上 的 EXFS 才 知道 ， 需 要 将 这 些 信 息 传 达 给 客户 端 ， 而 传统 
NFS 服 务 端 并 不 具备 这 种 功能 ， 所 以 需要 另外 一 个 模块 专门 传达 这 种 文 
件 一 块 映射 信息 ， 这 个 模块 就 是 被 新 加 入 的 层次 








Layout Daemon.。 





比如 ， 客 户 端 将 某 个 SAN FS 文件 系统 挂 载 到 了 /mnt 下 ， 某 时 刻 客户 
端 某 应 用 程序 发 起 * 读 取 /mntatxt 的 从 Byte1024 到 Byte2048 之 间 的 字 
节 ” 这 种 请 求 的 话 ， 那 么 客户 端 上 的 代理 首先 要 向 MDC 上 的 Layonut 





Daemon 查 询 以 获取 到 /mnt/a.txt 的 Byte1024 到 Byte2048 这 上 段 字 节 对 应 在 后 
端 LUN 的 具体 Block 地 址 (当然 同时 也 可 能 会 同 MDC 上 的 服务 端 查 询 一 
些 此 文件 的 其 他 属性 信息 ) 。 对 于 妃 加 写 请 求 ，MDC 首 先进 行 空间 分 
配 ， 然 后 将 分 配 之 后 的 存储 空间 地 址 信息 通知 给 客户 端 ， 客 户 端 向 目标 
地 址 做 写 入 动作 。 


A 


Layout Daemon 是 MDC 上 负责 与 Client 端 通信 的 使 者 ， 它 与 Client 端 
之 间 的 交互 协议 一 部 分 是 类 似 NFS 的 协议 ， 另 一 部 分 则 是 私有 协议 。 








3. 客户 端 上 的 元 数据 信息 获取 者 一 一 eNFS 模 块 

eNFS 的 取 和 名 意 为 Enhanced/Extended NEFS。eNFS 模 块 相当 于 客户 端 
上 的 NFS Client， 但 是 它 比 普通 NFS Client 多 出 一 部 分 功能 ， 也 就 是 它 除 
了 需要 与 MDC 上 的 改良 NFS 服 务 端 通信 之 外 ， 还 需要 与 Layout Daemon 
交互 以 获取 实际 Block 地 址 段 信 息 。 在 获取 到 实际 地 址 信息 之 后 ，eNFS 
便 将 这 些 信 息 传递 给 另外 一 个 下 层 模块 一 -VDMAP。 











eNFS 的 作用 方式 和 思想 与 BNFS 类 似 ， 这 也 是 其 名 日 eNFS 的 原因 。 
4. 客户 端 上 的 实际 IO 执 行者 一 一 VDMAP 模 块 


VDMAP， 即 Virtual Disk MAP。 它 的 一 个 作用 是 管理 和 映射 底层 的 
LUN， 作 为 一 个 简单 的 卷 管理 器 。 另 外 ， 这 个 模块 还 负责 执行 最 终 由 
eNFS 下 发 的 块 级 别 IO 信息 。 这 个 模块 有 两 种 形态 : 第 一 种 是 可 以 直接 
访问 后 端 LUN 的 客户 端 所 具有 的 形态 ， 第 三 种 则 是 无 法 直接 访问 LUN 的 
客户 端 所 具有 的 形态 。 对 于 无 法 直接 访问 LUN 的 客户 端 ， 其 上 的 
VDMAP 模 块 可 以 向 前 者 的 VDMAP 模 块 发 起 IO 请 求 ， 由 前 者 代为 执行 
对 相应 卷 的 IO。 











思考 : ”不 知道 读者 有 没有 感觉 到 ， 其 实 文件 级 的 集群 存储 系 
统 的 架构 ， 不 管 是 有 IO 节 点 的 还 是 直 连 SAN 访 问 的 ， 它 们 本 质 

上 是 殊途同归 的 ， 不 管 使 用 什么 样 的 协议 ， 什 么 样 的 架构 ， 什 
么 样 的 硬件 ， 其 实 它们 的 本 质 思 想 就 是 MDC 十 并 行 直 接 访 

问 。 

另外 ， 可 以 将 SAN 文 件 系 统 看 作 是 一 个 NAS 系 统 的 改进 产品 。 这 个 


结论 可 能 让 人 大 跌眼镜 ， 将 NAS 变 为 SAN， 然 后 还 改进 ? 可 是 事实 右 是 
如 此 。 所 以 说 ， 存 储 领 域 的 协议 本 来 吏 是 相通 的 ， 本 质 是 殊途同归 的 。 














15.11 集群 的 本 质 一 种 自 组 自控 轮回 的 Raid 


纵 观 集群 SAN 与 集群 NAS 系 统 ， 是 否 可 以 提取 出 一 些 共 性 的 、 最 纯 
粹 的 东西 来 呢 ? 如 图 15-89 所 示 ， 左 边 为 一 台 传 统 的 双 控制 器 的 磁盘 阵 
列 系统 精简 架构 图 ， 两 个 控制 器 通过 FCAL 或 者 SAS 网 络 共 同 控制 着 后 
端的 多 块 磁 盘 ， 多 块 磁 盘 组 成 某 种 Raid 类 型 ， 比 如 Raid 10、Raid 5 等 ， 
数据 被 均衡 打 散 地 分 布 到 Raid 组 中 的 所 有 磁盘 中 ;而 右边 则 是 IBM XIV 
集群 存储 系统 的 精简 架构 图 ， 可 以 看 到 两 者 有 什么 类 似 了 人 么 ? 





图 15-89 ”和 集群 存储 系统 的 本 质 (1) 





先 看 看 拓扑 图 : 前 者 是 控制 器 与 磁盘 通过 荣 种 网 络 比如 FCAL 或 者 
SAS 来 连接 通信 ， 后 者 是 前 端 节 氮 与 后 端 节 点 也 通过 茶 种 网 络 连接 通 
信 。 再 来 看 IO 执行 过 程 ， 前 者 的 数据 IO 过 程 是 : 控制 器 将 IO 下 发 给 各 个 
磁盘 ， 磁 盘 执 行 ID， 将 结果 返回 给 控制 器 ， 控 制 右 再 将 络 果 返 回 给 主 
机 ; 而 后 者 执行 IO 过 程 的 过 程 是 : 前 端 接口 节点 接受 主机 的 10 请 求 ， 将 
IO 下 发 给 目 身 磁盘 或 者 后 端 数据 控制 器 节点 ， 目 身 磁 盘 或 者 后 端 数据 控 
制 恬 节点 执行 IO， 将 结果 返回 给 前 闪 接 口 控制 蓝 ， 接 口 控制 器 再 将 结果 
返回 给 主机 。 可 以 看 到 这 两 者 执行 IO 的 过 程 是 类 似 的 。 那 么 再 来 看 看 数 
据 分 布 的 方式 ，XIV 在 所 有 人 磁盘 中 打 散 分 布 数据 ， 本 质 上 是 一 种 Raid 
10; 而 前 者 如 果 做 成 Raid 10， 那 么 也 是 将 数据 同样 打 散 分 布 。 两 者 的 区 
别 则 是 : 前 者 是 控制 费 将 IO 下 发 给 磁盘 ， 而 后 者 则 是 前 并 控制 絮 市 皮 将 
IO 下 发 给 后 端 控制 器 而 不 是 直接 下 发 给 后 端 磁盘 。 
































如 图 15-90 所 示 为 其 他 典型 集群 场景 ， 是 人 否 可 以 认为 所 有 控制 器 组 
成 了 一 个 大 的 Raid 系 统 呢 ? 当然 可 以 ! 每 个 控制 器 下 面 的 磁盘 做 成 
Raid， 然 后 多 个 控制 之 间 再 做 成 Raid 0， 或 者 全 局 磁盘 做 成 一 个 灵活 的 


Raid 10。 





图 15-90 “集群 存储 系统 的 本 质 (2) 


那么 是 不 是 可 以 抽象 成 三 个 角色 的 两 个 层次 : 第 一 层 Raid 和 第 二 层 
Raid、 第 一 层 网 络 和 第 二 层 网 络 、 第 一 层 控 制 磺 和 第 二 层 控 制 左 ? 所 谓 
第 二 层 控制 器 是 指 集群 功能 本 身 这 个 “虚拟 控制 器”。 











提示 : 目前 有 不 少 广 商 的 宣传 用 语 中 已 经 出 现 了 “网 络 Raid” 这 
个 名 词 ， 其 实 就 是 指 一 种 轮回 的 表现 。 那 么 我 们 是 不 是 可 以 
说 ， 集 群 就 是 网 络 上 的 Raid， 也 束 是 Redundant Array of 
Independent Node，Rain 


15.11.1 三 统 理论 


如 果 说 客户 终端 访问 服务 器 的 网 络 为 传统 的 以 太 网 LAN， 是 第 一 
， 也 就 是 业务 网 ， 那 么 服务 器 访问 存储 系统 所 使 用 的 网 络 就 是 第 二 
， 也 就 是 SAN，SAN 可 以 基于 以 太 网 或 者 FC 等 网 ， 而 如 网 15-91 所 
:， 用 于 存储 集群 以 及 主机 集群 内 部 通信 和 数据 传输 的 网 络 ， 己 经 形成 
本 下 第 三 网 5 


le 


图 15-91 第 三 网 





这 里 有 个 观点 ， 叫 做 三 统 ， 哪 三 统 呢 ? 痛 先 是 集群 的 统一 ， 大 家 知 
道 目前 有 各 种 各 样 的 集群 ， 比 如 计算 集群 、 存 储 集群 ， 存 储 集群 中 又 分 
为 汲取 SAN、 集 群 NAS、 分 布 式 文件 系统 、 集 群 文件 系统 等 ， 如 此 多 样 
的 集群 ， 其 本 质 无 非 就 是 一 堆 x86 的 节点 ， 用 某 种 网 络 连接 起 来 后 面 挂 
了 大 量 磁 盘 的 ， 就 是 存储 集群 中 的 节点 ， 拥 有 大 量 CPU 和 内 存 的 ， 惑 是 
计算 和 节点， 如 果 两 者 和 有 ， 那 融 是 统一 集群 了 ， 如 网 15-92 所 示 。 




















图 15-92 统 理论 示意 图 











为 何 计 算 与 存储 以 前 要 分 开 呢 ? 因为 以 前 的 DAS 直 连 存储 性 能 和 容 
量 均 跟 不 上 ， 而 且 属 于 孤岛 形态 ， 这 限制 了 存储 的 发 展 ， 必 须要 将 其 与 
计算 分 开 独立 发 展 。 所 以 存储 后 来 先 发 展 为 双 控 制 器 传统 网 络 存 储 ， 此 
时 计算 与 存储 无 法 合体 ， 再 后 来 ， 外 置 存 储 发 展 到 集群 化 形态 之 后 ， 虽 
然 其 表象 仍然 是 分 的 ， 但 是 其 里 面 却 是 合 的 ， 对 外 合 为 一 体 的 。 此 时 ， 
计算 与 存储 集群 经 历 了 长 久 分 开 之 后 ， 也 必 将 会 重新 合体 ， 寻 回 其 本 
源 。 大 家 可 以 看 到 这 是 一 个 轮回 和 分 分 合 合 的 过 程 。 如 今 ， 存 储 系 统 正 
在 向 集群 化 发 展 ， 而 计算 也 是 集群 化 ， 那 么 计算 集群 与 存储 集群 就 可 以 
完美 的 被 融合 起 来 了 ， 形 分 神 合 。 这 种 形态 也 属于 之 前 提 过 的 “自助 型 
存储 集群 >。 除 了 主机 集群 与 存储 集群 的 合体 之 外 ， 集 群 SAN 与 集群 
NAS 其 实 也 可 以 统一 ， 目 前 很 多 三 商都 推出 了 块 虚拟 化 产品 ， 它 们 的 
LUN 在 后 端 其 实 就 是 一 个 文件 ， 可 以 被 打 散 存放 在 底层 磁盘 各 处 。 既 然 
SAN 设 备 底层 都 使 用 类 文件 系统 来 管理 了 了， 那么 SAN 与 NAS 的 后 端 其 实 
就 已 经 被 统一 了 ， 剩 下 的 ， 就 是 前 端 访问 协议 的 统一 了 “〔〈 见 下 文 ) 。 此 
外 ， 集 群 硬件 也 将 变 为 一 个 平台 ， 其 上 的 各 种 协议 、 应 用 ， 则 变 成 了 一 
种 服务 ， 比 如 SAN 服 务 、NAS 服 务 ; 而 分 布 式 文 件 系统 则 是 集群 NAS 的 
文 撑 层 ， 其 本 身 与 集群 NAS 属 于 一 种 本 质 上 的 东西 。 至 此 ， 集 群 硬 件 形 
态 与 上 层 软件 充分 解 耦 。 














其 次 是 访问 协议 的 统一 。 既 然 集群 已 经 变 为 一 个 通用 集群 ， 那 么 访 
问 这 个 集群 的 方式 也 应 该 被 融合 。 上 文中 曾经 提 到 过 ， 文 件 与 块 的 本 质 
其 实 是 一 样 的 ， 只 是 组 织 与 访问 方式 不 同 味 了。 如 今 块 虚拟 化 的 存储 系 
统 比比 缘 是 ， 它 们 无 一 例外 都 将 LUN 当 作 一 个 文件 一 样 来 对 待 ， 恨 不 得 
直接 在 纯 种 文件 系统 中 用 文件 虚拟 出 一 个 LUN 来 。 既 然 这 样 ， 撒 层 其 实 
征 被 文件 系统 给 统一 了 ， 那 么 外 围 的 访问 方式 上 ， 也 应 该 被 统一 。 本 质 





上 讲 ， 不 管 是 块 还 是 文件 ， 其 实 它们 都 用 同一 种 协议 访问 : 操作 码 、 目 
标 、 起 始 偏 移 、 长 度 。 对 于 块 访问 ,目标 就 是 LUN ID， 而 对 于 文件 ， 

目标 就 是 某 路 径 ， 比 如 /a/b/c.txt， 那 么 是 否 有 一 种 东西 来 屏蔽 目标 的 不 
同 昵 ? 其 实 早 就 有 这 种 协议 ， 说 到 这 里 大 家 可 能 悟 到 了 ， 这 就 是 对 象 存 
储 系统 ， 对 象 存 储 协 议 就 是 将 文件 与 块 访问 大 统一 的 最 佳 候选 协议 了 ， 

只 要 时 机 成 熟 ， 文 件 、 块 大 统一 的 访问 方式 必 将 席卷 存储 技术 领域 。 块 
与 文件 这 两 种 访问 协议 分 开 太 久 了 ， 有 合 的 趋势 与 欲望 ， 底 层 技术 也 很 
给 力 。 其 实 对 存储 协议 早 在 20 世 纪 80 年 代 就 被 提出 了 ， 时 隔 30 年 ， 如 今 
终于 有 了 用 武之 地 ， 就 是 利用 对 象 协议 ， 可 以 将 文件 与 块 的 访问 完美 地 
融合 统一 起 来 。 如 果真 的 可 以 用 对 象 存储 做 到 统一 ， 那 么 主机 端 会 出 现 
一 种 新 的 HBA， 即 OSD HBA， 其 将 OSD Initiator 集 成 到 硬件 中 ， 存 储 对 
象 既 可 以 表现 为 一 个 目录 ， 又 可 以 表现 为 一 个 卷 。 























最 后 ， 就 是 网 络 的 统一 。 不 管 第 一 网 、 第 二 网 还 是 第 三 网 ， 如 果 有 
一 种 网 络 可 以 同时 满足 需求 ， 那 么 为 何不 统一 呢 ? 比如 以 太 网 。 





做 到 这 三 统 ， 这 才 是 真正 的 统一 存储 ， 而 不 是 同一 个 机 头 同时 出 块 
和 文件 协议 。 这 就 叫 统一 存储 ? 嗪 头 而 已 ， 看 似 统一 ， 实 则 意义 不 是 很 
大 








15.11.2 并行 的 不 仅 可 以 是 文件 


在 前 文 介绍 对 象 存储 系统 时 ， 有 一 个 思考 ， 里 面 提 到 了 其 实 文件 IO 
与 块 IO 的 本 质 是 一 样 的 。 婚 然 本 质 相 同 ， 而 分 布 式 文件 系统 可 以 实现 主 
机 端的 并 行 访问 以 提高 效 紊 ， 那 么 为 何 主机 不 可 以 用 块 协议 来 并 行 访问 
一 个 Scale-Out 的 SAN 存 储 系统 呢 ? 当然 可 以 了 ， 没 人 规定 不 可 以 ， 只 是 
还 没有 形成 一 个 标准 而 已 。 


这 方面 ， 尖 兵 厂 商 Infortrend 的 产品 ESVA 率 先 打 人 破 了 常规 。 其 
ESVA 产 品 对 主机 侧 提 供 了 一 个 Load Balance Driver (LBD) ， 也 就 是 并 
行 访问 客户 端 ， 可 以 分 别 连 接 到 ESVA 集 群 中 到 每 个 节点 来 并 行 地 访问 
数据 。ESVA 集 群 中 的 市 点 各 自 连 接 到 FC 交换 机 上 。ESVA 集 群 中 有 一 
台 Master 节 点 ， 统 管 集群 中 的 卷 元 数据 ， 其 他 都 为 成 员 节 点 ， 这 个 思想 
与 分 布 式 并 行文 件 系 统 完全 一 致 。 当 使 用 了 LBD 的 时 候 ， 主 机 客户 端 会 
从 所 有 节点 中 认 到 全 局 虚拟 的 LUN， 并 可 以 直接 与 所 有 节点 通信 读 写 数 
据 ; 当 不 安装 Load Balance Driver 的 时 候 ， 主 机 客户 端 只 能 通过 Master 节 
点 来 挂 载 对 应 的 LUN， 当 需要 访问 的 数据 恰好 沙 在 成 员 节 点 中 时 ， 则 数 
据 必 须 经 过 Master 市 点 的 中 转 ， 会 多 耗费 一 次 经 过 FC 交换 机 的 转发 。 














块 级 别 的 并 行 比 文件 级 并 行 来 得 更 容易 ， 因 为 分 布 式 文件 系统 中 的 
文件 存放 位 置 与 映射 关系 错综复杂 ， 随 时 在 变化 ， 而 块 级 存储 中 的 LUN 
的 位 置 相 对 于 分 布 式 文件 系统 来 讲 并 没有 那么 多 的 变化 ， 几 乎 分配 完 之 
后 就 恒定 在 对 应 的 市 点 中 ， 这 样 ， 阵 列 与 主机 端 并 行 客 尸 并 之 间 需 要 同 
步 更 新 的 LUN 数 据 布局 元 数据 信息 就 很 少 ， 效 率 很 高 。 











再 分 析 下 去 ，ESVA 的 并 行 客户 端 又 似乎 像 是 一 个 分 布 式 卷 管 理 系 
统 ， 这 里 的 卷 其 实 就 是 LUN， 只 不 过 一 个 LUN 会 被 分 布 到 多 个 集群 节点 
中 存放 。 所 以 ， 其 相当 于 同时 提供 了 一 台 台 的 单独 阵列 ， 而 同时 又 给 主 
机 上 提供 了 一 个 处 于 主机 操作 系统 内 核 卷 管理 更 下 层 位 置 的 卷 管理 层 ， 
将 识别 到 的 多 个 独立 的 LUN 虚 拟 成 一 个 Raid0 的 大 空间 。 这 样 做 存在 一 
个 风险 : 一 旦 这 些 独立 阵列 中 的 一 台 出 现 故 障 ， 那 么 整个 系统 的 数据 不 
再 可 用 。 但 是 话 又 说 回来 ， 如 果 这 个 系统 是 一 个 单 阵 列 ， 你 把 所 有 数据 
都 放 到 这 台 阵 列 中 保存 ， 那 么 它 出 问题 的 几率 会 有 多 少 ? 从 这 种 角度 来 
讲 ， 不 管 系统 中 有 多 少 台 阵列 ， 与 单 阵列 出 问题 的 几率 是 相同 的 ， 而 单 
阵列 出 问题 导致 停机 的 几率 是 非常 低 的 。 即 便 这 样 ， 为 了 增加 安全 系 


数 ， 广 商 也 实现 了 所 谓 网 络 Raid， 即 在 集群 中 的 所 有 节点 之 间 再 做 一 层 
Raid 5 来 防止 单个 节点 故障 ， 这 样 也 就 成 了 Raid for Rain。 这 种 Raid 的 计 
算 也 有 两 种 方式 : 一 种 是 直接 在 主机 端 计 算 好 之 后 ， 并 行 地 写 入 每 个 市 
点 ， 这 种 做 法 就 变 成 了 彻头彻尾 的 软 Raid 5 了 ， 比 如 Windows 下 的 动态 
磁盘 男 一 种 则 是 由 集群 中 的 存储 节点 来 自行 计算 ， 这 样 势必 要 浪费 大 
量 的 集群 内 部 通信 网 络 市 帘 ， 而 且 性 能 也 不 会 很 好 。 











对 象 存储 OSD 协 议 或 许 有 和 希望 在 一 段 时 间 之 后 真正 成 为 块 级 并 行 访 
问 的 标准 协议 ， 因 为 它 既 像 块 ， 又 像 文件 ， 而 分 布 式 文件 系统 已 经 有 了 
标准 访问 协议 ， 那 就 是 pINFS，pNFS 显 然 不 适合 块 级 ， 那 么 OSD 或 许 就 

是 最 佳 的 候选 对 象 了 。 





另外 ， 有 了 并 行 访 问 客 户 端 之 后 ， ee 
一 了 ， 因 为 并 行 客户 端 自然 会 考虑 多 路 径 Failover 和 Failback 的 问题 ， 
前 多 路 径 软 件 自 身 所 作 的 负载 均衡 基本 上 都 没有 太 大 的 意义 ， 
传统 双 控 阵列 来 讲 ，LUN 的 工作 控制 器 只 有 一 个 ， 在 这 个 前 担 下， 多 路 
径 负载 均衡 是 不 具 太 大 意义 的 。 但 是 在 多 控 的 Scale-Out 分 布 式 架 构 下 ， 
多 路 径 软件 对 集群 中 的 每 个 节点 都 有 维护 一 条 路 径 ， 那 么 这 个 时 候 ， 多 
路 径 软 件 已 经 不 是 传统 意义 的 多 路 径 了 ， 并 行 访 问 上 升 为 关键 点 ， 而 此 
时 ， 多 路 径 软件 就 彻底 成 为 一 个 并 行 访问 客户 端 了 ， 而 不 应 该 再 叫 多 路 
径 软件 。 在 所 有 路 径 工作 正 第 的 条 件 下 ， 主 机 可 以 直接 从 集群 中 的 每 个 
节点 读 写 数据 ， 集 群 内 部 通信 网 的 负载 是 非常 低 的 ， 仅 用 于 同步 一 些 元 
数据 状态 等 ， 一 旦 主机 到 集群 的 某 条 或 者 某 几 条 路 径 失 效 ， 那 么 集群 中 
对 应 的 节点 就 与 主机 失去 了 连接 ， 这 些 节 点 中 的 数据 只 能 通过 集群 内 部 
通信 网 被 传输 到 与 主机 尚 有 连接 的 那些 节点 中 ， 通 过 这 上 毕节 点 将 数据 转 
发 给 主机 ， 此 时 内 部 通信 网 的 流量 就 会 增加 。 

















15.11.3 ”集群 底层 与 上 层 解 耦 


上 文中 提 到 ， 集 群 硬件 层 可 能 会 变 为 一 个 平台 ， 承 载 各 种 集群 软件 
层 。 就 像 一 个 夹 盒 饭 的 ， 为 了 盛 饭 ， 他 不 仅 要 目 己 把 饭 做 好 ， 还 得 把 盒 
子 做 好 ， 然 后 把 饭 盛 到 盒子 里 一 起 卖 。 但 是 他 可 能 发 现 自 己 做 饭盒 实在 
不 在 行 ， 只 想 专 心 做 饭 。 这 时 ， 有 个 人 专门 做 饭盒 ， 他 们 一 担 即 合 ， 相 
互 合作 。 这 是 一 种 软 硬 分 开 的 表现 。 





也 就 是 说 ， 比 如 东 分 布 式 文件 系统 ， 如 果 要 把 它 包装 为 一 玖 可 交付 
的 产品 当然 可 以 ， 只 买 软件 光盘 即 可 。 但 是 用 户 的 人 硬件 是 各 种 各 样 的 ， 
羔 容 性 不 一 ， 软 件 安装 其 上 之 后 可 能 会 出 现 各 种 问题 ， 这 残 是 现在 的 软 
件 三 丙 争 相 给 利己 的 软件 捆绑 到 人 硬件 中 打包 出 售 的 原因 之 一 。 这 束 表 现 
为 一 种 软 硬 相合 。 


分 久 必 合 ， 合 久 必 分 ， 又 应 了 这 人 句 老 话 。 软 件 和 硬件 这 两 者 总 是 在 
分 分 合 合 中 螺旋 上 升 发 展 。 两 者 也 会 出 现 相互 争 抢 的 局 面 ， 比 如 人 硬件 总 
是 想 从 软件 层面 offload 下 来 更 多 的 功能 ， 比 如 TCPIP Offload，iSCSI 
Offload，XOR Offload 等 ， 而 软件 似乎 也 在 疝 人 硬件 争 抢 ， 比 如 软 Raid,， 
软 卷 管理 层 等 。 


对 于 硬件 集群 平台 与 其 上 的 软件 集群 形式 (比如 集群 文件 系统 、 集 
群 SAN 等 ) ， 它 们 两 者 如 果真 的 做 到 了 人 解 厢 ， 那 么 也 会 发 展 出 这 种 争 抢 
态势 。 比 如 底层 硬件 想 去 offload 上 层 软 件 集群 中 的 一 些 机 制 ， 如 消息 通 
信 机 制 、 错 误 监 测 与 恢复 联动 机 制 等 。 硬 件 提 供 一 个 标准 集群 ， 比 如 基 
于 PCI-E 交 换 网 络 的 集群 ， 基 于 Infiniband 的 ， 基 于 以 太 网 的 ， 等 等 ， 不 
管 底层 是 Infiniband 还 是 以 太 网 ， 底 层 硬件 集群 会 将 其 抽象 封装 为 标准 的 
接口 ， 上 层 的 集群 软件 可 以 更 加 专注 于 高 层 功能 ， 比 如 数据 排 布 方式 以 
及 效能 等 层面 的 研发 与 提升 ， 底 层 这 些 通用 化 的 机 制 ， 最 终 将 被 固化 为 
标准 ， 从 而 获得 所 有 广 商 的 文 持 。 


15.11.4 云 基础 架构 


而 如 果 再 往 上 走 一 层 ， 那 就 是 云 了 。 整 个 集群 作为 一 个 基础 架构 服 
务 的 提供 者 ， 其 上 履 盖 资源 管理 层 ， 再 覆盖 一 层 业 务 展现 层 ， 就 可 以 作 
为 一 个 云 来 提供 各 种 各 样 的 IT 服务 ， 如 图 15-93 所 示 。 














图 15-93 ” 云 基础 架构 





世界 就 是 一 个 集群 。 任 何 目前 所 理解 的 物质 ， 都 是 由 更 小 的 “ 粕 

子 ? 或 者 说 基石 组 成 的 集群 。 或 者 说 ， 任 何 “ 物 质 *， 其 实 都 是 由 世界 本 

源 的 基本 公式 县 加 而 成 的 庞大 算式 。 任 何 逻 辑 ， 都 是 这 些 “ 物 质 ” 即 算式 
的 县 加 演算 过 程 。 逻 辑 是 “物质 ”变化 过 程 的 体现 。 任 何 对 逻辑 的 改变 ， 

最 终 会 体现 对 “物质 ”的 改变 ， 而 “物质 ”的 改变 ， 又 体现 为 逻辑 。 万 物 皆 
和 合 。 个 体 的 无 意识 性 活动 组 成 了 整体 的 有 序 ， 冥 冥 中 总 有 一 个 奥妙 之 
物 来 指引 所 有 个 体 的 行动 ， 但 是 个 体 自 喘 却 感觉 不 到 ， 或 者 正 逐 渐 地 隐 
约 感知 到 ! 














15.12” 纯 软 Scale-Out SAN 


Infortrend 的 ESVA 存 储 系统 是 比较 特别 的 一 球 集群 SAN 存 储 系统 。 
它 的 特别 体现 在 ， 其 Scale-Out 扩 展 方式 完全 是 利用 主机 端的 一 个 虚拟 卷 
Filter Driver 实 现 的 ， 也 就 是 靠 这 个 卷 驱动 来 把 所 有 连接 到 该 主机 上 的 所 
有 节点 上 的 资源 整合 起 来 ， 相 当 于 一 个 定制 化 的 LVM。 但 是 配置 依然 
是 在 存储 端 来 配置 。ESVA 中 的 “V” 就 代表 虚拟 的 意思 ， 指 的 就 是 用 这 
个 卷 驱 动 来 将 所 有 节点 的 空间 整合 起 来 。 贡 点 可 以 随 进 随 出 ， 添 加 新 节 
点 之 后 ， 原 来 的 数据 会 被 自动 均衡 到 这 个 节点 上 ， 同 样 ， 踢 出 节点 前 ， 
数据 会 先 被 迁移 到 其 他 节点 上 ， 然 后 再 踢 出 。 这 种 纯 软 Scale-Out SAN 
集群 方案 的 好 处 类 似 于 文 持 并 行 访问 客户 端的 集群 文件 系统 ， 客 户 端 可 
以 并 行 访问 集群 中 所 有 节点 ， 而 传统 集群 SAN 方 案 下 ， 客 户 端 只 能 从 集 
群 中 的 某 个 节点 来 读 写 数据 ， 虽 然 可 以 使 用 多 路 径 软 件 来 变相 地 *“ 均 
衡 ”， 但 是 客户 端 不 知道 要 访问 的 数据 到 底 在 哪个 节点 上 ， 如 果 将 一 个 
IO 发 送 给 一 个 并 没有 对 应 这 笔 IO 数据 的 节点 ， 那 么 这 个 节点 一 样 要 经 过 
内 部 交换 网 络 从 其 他 节点 处 取 回 数据 再 发 送 给 客户 端 ， 这 个 过 程 耗费 了 
无 谓 的 资源 。 而 ESVA 纯 软 Scale-Out 方 案 ， 客 户 端的 卷 驱动 是 知道 每 一 
笔 10 到 底 要 发 给 哪个 节点 的 ， 直 接 有 的 放 矢 地 从 对 应 节点 取 数 据 ， 提 高 
了 性 能 。 














如 图 15-94 所 示 。ESVA 将 整个 系统 分 为 多 个 Pool， 每 个 Pool 可 以 由 
位 于 不 同 节点 的 不 同 磁盘 组 合 而 成 ， 可 以 癌 任 何 Pool 中 添加 任何 节点 的 
任何 倒 盘 。 


图 15-94 ”设置 一 个 池 








如 图 15-95 及 图 15-96 所 示 ， 可 以 向 Pool 中 添加 新 的 节点 及 磁盘 ， 也 


可 以 从 Pool 中 删除 节点 或 者 磁盘 。 如 果 将 前 者 称 为 Scale-Out， 后 者 则 可 
以 称 为 Scale-Back。 


图 15-95 ”添加 或 者 删除 节点 





图 15-96 ”添加 或 者 删除 磁盘 


如 图 15-97 所 示 ， 选 择 将 新 加 入 的 磁盘 做 成 何 种 类 型 的 Raid 组 ， 并 
选择 数据 重新 均衡 时 候 耗 费 的 系统 资源 优先 级 。 然 后 系统 会 自动 完成 重 
新 均衡 。 





图 15-97 重新 均衡 








15.13 ”互联 网 运营 商 的 特殊 集群 


数据 海量 集中 的 地 方 ， 无 疑 是 互联 网 运营 疝 (或 称 网 络 服 务 提供 
商 ，NSP) 的 数据 中 心 了 。 这 里 代表 了 存储 拉 术 发 展 的 最 前 沿 。 也 正 是 
因为 海量 数据 存储 与 访问 ， 使 得 传统 存储 架构 、 成 本 已 经 无 法 满足 需求 
了 。 比 如 ， 每 秒 几 十 万 次 的 随机 IOPS， 每 秒 10GB 的 流量 ， 如 果 使 用 传 
统 高 端 存 储 ， 那 成 本 将 是 高 不 可 攀 的 ， 而 且 很 多 时 候 需 要 多 台 存 储 才 可 
以 满足 ， 而 且 后 期 的 扩展 性 以 及 扩容 成 本 都 是 不 可 接受 的 ，NSP 当 然 不 
愿意 骑 虎 难 下 。 正 因 有 如 此 强烈 的 业务 驱动 ， 叶 致 各 NSP 逐 步 采 用 分 布 
式 系 统 来 构建 其 底层 文件 系统 及 数据 库 。 比 如 先驱 Google 的 GFS 十 
Bigtable， 以 及 后 续 追 随 者 Amazon 的 Dynamo、Facebook 的 Cassandra、 
Microsoft 的 Azure、Yahoo 的 PNUTS、 淘 宝 的 TFS 十 Tair 等 。 这 些 系 统 都 
是 动 辑 数 百 甚至 数 千 个 节点 组 成 的 分 布 式 集群 。 


NoSQL 

















1. 弱 坏 境 


这 些 系统 无 疑 都 是 使 用 廉价 定制 化 的 PC 来 搭建 的 ， 单 个 节点 各 自 
有 各 自 的 计算 资源 和 存储 资源 ， 互 不 共享 ， 也 就 是 Share-Nothing。 而 且 
单 节点 的 可 靠 性 不 高 。 所 以 NSP 分 布 式 系统 的 硬件 环境 为 一 种 “ 弱 环 
境 "， 为 了 保证 最 终 的 可 靠 性 ， 那 么 就 必须 在 软件 层面 实现 强 环境 ， 比 
如 将 数据 块 保存 3 个 副本 在 三 台独 立 的 机 器 上 。 为 何 要 是 3 而 不 是 2 呢 ? 
因为 如 果 只 有 两 份 副 本 的 话 ， 发 生 数 据 丢 失 的 可 能 性 依然 很 大 ， 比 如 一 
旦 某 个 节点 故障 或 者 某 个 磁盘 故障 ， 此 时 对 应 的 数据 就 处 于 危险 边缘 。 
对 于 一 个 1000 节 点 的 集群 ， 每 周 大 概 有 20 块 便 熏 损坏 ， 保 存 同 一 个 数据 
的 2 份 副 本 的 两 个 硬盘 同时 失效 的 可 能 性 也 是 有 的 。 所 以 如 果 保 留 3 份 副 
本 的 话 ， 和 危险 程度 会 大 大 降低 。 





2. CAP 理 论 


传统 的 关系 型 数据 库 已 经 无 法 在 保证 性 能 的 前 提 下 达到 如 此 高 的 扩 
展 性 ， 因 为 传统 关系 型 数据 库 是 要 保证 强 一 致 性 的 (比如 用 户 A 写 入 的 
数据 ， 用 户 B 立 即 就 能 看 到 等 等 ) 。 所 以 ， 一 臻 性、 性能、 扩展 性 ， 这 
三 者 是 不 能 够 同时 兼顾 的 ， 只 能 任 选 其 中 两 者 (这 便 是 著名 的 CAP 理 
论 ) 。 而 NSP 的 某 些 对 外 业务 所 需要 的 就 是 超 高 性 能 和 扩展 性 ， 那 么 其 
只 好 适当 牺牲 一 致 性 了 ， 因 为 就 大 部 分 互联 网 服务 而 言 ， 数 据 短 暂 的 不 
一 致 是 可 以 接受 的 ， 比 如 DNS 解析 ， 更 换 主 机 之 后 可 能 并 不 能 实时 刷新 
到 全 网 范围 。 同 样 ， 由 于 数据 块 保留 3 个 副本 ， 那 么 是 当 所 有 副本 都 同 
步 写 入 对 应 节点 之 后 再 同 客 户 端 返回 成 功 信 息 ， 还 是 只 写 一 份 束 返回 成 
功 信息 呢 ? 后 者 肯定 是 有 利于 性 能 ， 但 是 却 牺牲 了 一 致 性 ， 比 如 当 某 份 
副本 还 没有 更 新 到 对 应 节点 时 ， 有 另 一 个 客户 端 从 这 个 尚未 被 同步 的 节 
点 发 起 对 这 份 数 据 的 读 ， 那 么 这 个 客户 端 将 读 到 过 期 的 数据 ， 这 就 发 生 
了 数据 不 一 致 。CAP 理 论 是 指 Consistency、Availability 以 及 Partition 
Tolerance， 分 别 指数 据 访 问 时 的 一 致 性 、 可 用 性 《请 求 总 是 可 以 被 执行 
和 人 返回， 不 超时 。 可 视 为 性 能 以 及 分 区 容忍 性 。 前 两 者 大 家 都 理解 ， 
最 后 一 个 “分 区 容忍 性 ”是 指 大 规模 集群 一 旦 过 到 网 络 或 者 其 他 类 型 故障 
导致 整个 集群 被 裂 为 多 个 孤岛 ， 此 时 集群 是 否 依 然 正常 提供 服务 ， 这 一 
点 可 以 视 为 扩展 性 中 的 一 个 子 需 求 。 

















3. NWR 模 型 


有 什么 办 法 可 以 保证 一 致 性 呢 ? 办 法 当然 有 ， 有 一 个 著名 的 模型 叫 
做 NWR 模 型 ， 可 以 在 一 致 性 与 性 能 之 间 实 现 巧 妙 的 均衡 。N 表 示 对 应 数 
掘 块 要 保存 的 副本 数 ，W 表 示 成 功 了 写 入 几 份 束 可 以 回 客 尸 端 返回 成 功 
信息 ，R 表 示 为 了 保证 读 时 候 的 一 致 性 ， 客 户 端 必须 从 保存 这 份 副本 的 


N 个 节点 中 的 几 个 同时 读 出 数据 。 比 如 N= 二 3，W 二 1， 也 就 是 刚才 那个 
场景 ， 那 么 此 时 如 果 R 二 1， 则 不 能 保证 一 致 性 ， 因 为 此 时 R 可 能 从 另外 
两 个 保存 这 份 副 本 的 节点 读 取 ， 但 是 也 有 可 能 从 当初 W 的 那个 节点 读 
取 ， 那 么 就 是 一 致 的 ， 但 是 不 能 保证 每 次 都 从 当初 W 的 节点 读 取 ;而 如 
果 R2， 同 样 不 能 保证 ， 但 是 R 如 果 三 3， 那 么 就 可 以 保证 ， 读 出 的 这 3 份 
数据 ， 至 少 有 一 份 是 最 新 的 ， 那 么 通过 判断 数据 块 的 timestamp 时 间 惟 就 
可 以 判断 这 3 份 中 哪 一 份 (或 几 份 ) 是 最 新 的 ， 从 而 丢弃 剩余 的 不 一 致 
的 副本 。 而 如 果 W 二 2， 也 就 是 必须 同步 的 写成 功 2 个 副本 才 返 回 成 功 信 
号 ， 那 么 读 的 时 候 就 可 以 读 出 2 份 就 能 保证 至 少 有 一 份 是 最 新 的 了 。 所 
以 ， 只 要 W 十 R>N， 即 可 保证 读 一 致 性 。 有 人 问 说 ， 如 果 读 的 时 候 只 从 
当初 写 入 的 那个 节点 读 不 就 都 一 至 了 么 ?是 的 ， 但 是 这 样 做 就 无 法 保证 
性 能 了 ， 所 有 节点 均 可 同时 写 入 同时 读 取 同一 份 副本 ， 这 样 性 能 是 最 高 
的 ， 只 不 过 牺牲 了 一 致 性 ， 如 果 要 保证 一 致 性 ， 那 么 就 采取 NWR 模 型 
来 调和 到 底 是 要 读 性 能 高 〈 增 加 W 的 值 ) 还 是 要 写 性 能 高 〈 降 低 W 的 
值 ) ， 读 写 性 能 都 高 的 话 就 得 完全 牺牲 一 臻 性， 这 就 是 NWR 模 型 的 鬼 
力 所 在 。 























4 水平 切 分 与 垂直 切 分 


数据 在 集群 中 的 分 布 有 两 种 方式 ， 第 一 种 是 水 平 切 分 方式 ， 比 如 一 
张 表 ， 可 以 水 平 被 裂 开 为 多 张 表 ， 每 张 表 都 保存 有 原来 的 列 ， 每 张 表 被 
分 别 存储 到 集群 中 的 一 个 节点 中 并 保留 其 他 两 个 副本 〉; 而 垂直 切 分 
相当 于 把 一 张 表 竖 下 和 裂 开 为 多 张 表 ， 原 来 的 多 个 列 被 拆 开 ， 分 别 存储 在 
集群 中 的 一 个 市 点 中 (并 保留 其 他 两 个 副本 ， 。 这 样 做 相当 于 把 数据 打 
散 ， 从 而 获得 超 高 的 随机 查询 性 能 。 垂 直 切 分 相当 于 是 基于 业务 层面 的 
切 分 ， 具 有 一 定 的 人 为 介入 度 ;， 而 水 平 切 分 则 相当 于 全 局 层面 的 数据 育 
切 分 。 











5. NoSQL 


此 外 ， 这 种 弱 一 致 性 的 数据 库 集 群 一 般 都 不 支持 事务 。 同 时 ， 也 不 
支持 传统 关系 型 数据 库 的 关联 查询 动作 ， 也 就 是 说 ， 由 于 完全 分 布 式 ， 
所 以 多 个 节点 之 间 的 数据 如 果 想 要 进行 关联 查询 是 很 不 经 济 的 ， 会 导致 
整个 系统 慢 的 不 可 想象 ， 这 就 是 上 文中 兽 经 提 到 的 ，MPP 有 MPP 的 适用 
场合 ， 如 果 每 笔 查询 或 者 IO 〈 比 如 MPP 架 构 商 用 存储 系统 中 的 大 块 连续 
IO) 都 需要 所 有 节点 提供 数据 分 片 ， 那 么 此 时 并 发 性 能 将 会 非常 差 。 所 
以 ， 这 类 去 关联 性 的 、 弱 一 致 性 的 轻 量 级 的 分 布 式 数据 库 系统 ， 就 属于 
NoSQL 系 统 ， 即 “抛弃 传统 SQL” 或 者 “Not Only SQL” 的 意思 。 
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备份 技术 





四 数据 保护 
晶 快照 
四 CDP 
四 数据 备份 


四 备份 通路 





数据 是 表示 信息 的 信息 。 数 据 丢 失 或 者 损坏 ， 信 息 也 就 丢失 或 者 被 
扭曲 了 。 为 了 防止 数据 意外 丢失 或 者 损 虎 ， 人 们 想 出 了 一 系列 的 方法 来 
保护 当前 的 数据 。 此 外 ， 为 了 最 大 程度 地 保护 数据 ， 人 们 还 在 其 他 地 方 
保存 数据 的 一 份 或 者 多 份 副 本 。 


数据 保护 和 数据 备份 看 似 简单 ， 实 则 很 复杂 。 数 据 保 护 和 备份 已 经 
成 为 存储 领域 的 一 门 分 文学 科 。 本 章 束 这 个 分 文 作 简要 介绍 ， 并 给 出 几 
个 案例 。 





16.1 数据 保护 


数据 保护 ， 就 是 对 当前 位 置 上 的 数据 进行 备份 ， 以 防 突如其来 的 磁 
盘 损坏 ， 或 者 其 他 各 种 原因 导致 的 数据 不 可 被 访问 ， 或 者 部 分 数据 损 
坏 ， 影 响 到 业务 层 。 备 份 后 的 数据 ， 可 以 在 数据 损毁 之 后 恢复 到 生产 磁 
盘 上 ， 从 而 最 大 程度 地 降低 损失 。 














从 底层 来 分 ， 数 据 保护 备份 可 以 分 为 文件 级 的 保护 和 块 级 的 保护 。 
16.1.1 文件 级 备份 


文件 级 的 备份 ， 即 备份 软件 只 能 感知 到 文件 这 一 层 ， 将 磁盘 上 所 有 
的 文件 ， 通 过 调用 文件 系统 接口 备份 到 号 一 个 介质 上 。 所 以 文件 级 备份 
软件 ， 要 么 依靠 操作 系统 提供 的 API 来 备份 文件 ， 要 么 本 身 具 有 文件 系 
统 的 功能 ， 可 以 识别 文件 系统 元 数据 。 


文件 级 备份 软件 的 基本 机 制 ， 束 是 将 数据 以 文件 的 形式 读 出 ， 然 后 
再 将 读 出 的 文件 存储 在 另外 一 个 介质 上 。 这 些 文件 在 原来 的 介质 上 ， 存 
放 可 以 是 不 连续 的 ， 各 个 不 连续 的 块 之 间 的 链 关 系 由 文件 系统 来 管理 。 
而 如 果 备 份 软件 将 这 些 文件 备份 到 新 的 空白 介质 上 ， 那 么 这 些 文件 很 大 
程度 上 是 连续 存放 的 ， 不 管 是 备份 到 磁带 还 是 磁盘 上 。 








磁 市 不 是 块 设备 ， 由 于 机 械 的 限制 ， 在 记录 数据 时 ， 是 流 式 连续 
的 。 磁 市 上 的 数据 也 需要 组 织 ， 相 对 于 磁盘 文件 系统 ， 也 有 磁带 文件 系 
统 ， 准 确 来 说 应 该 叫做 磁带 数据 管理 系统 。 因 为 对 于 磁带 来 说 ， 它 所 记 
录 的 数据 都 是 流 式 的 、 连 续 的 。 每 个 文件 被 看 作 一 个 流 ， 流 与 流 之 间 用 
一 些 特殊 的 数据 间隔 来 分 割 ， 从 而 可 以 区 分 一 个 个 的 “文件 ”"， 其 实 就 是 
一 段 段 的 二 进 制 数据 流 。 磁 带 备 份 文件 的 时 候 ， 会 将 磁盘 上 每 个 文件 的 








属性 信息 和 实体 文件 数据 一 同 备份 下 来 ， 但 是 不 会 备份 磁盘 文件 系统 的 
描述 信息 ， 比 如 一 个 文件 所 占用 的 磁盘 簇 号 链表 等 。 因 为 利用 磁带 恢复 
数据 的 时 候 ， 软 件 会 重 构 磁 盘 文 件 系统 ， 并 从 磁带 读 出 数据 ， 辐 磁盘 写 
入 数据 。 








在 2000 年 之 前 ， 很 多 人 都 用 磁带 随身 上 听 来 欣 贰 音乐 。 而 2005 年 之 
后 ， 就 很 少 看 到 带 随身 听 的 人 了 ， 大 都 换 成 了 MP3 或 MP4 或 者 手机 等 设 
备 。 随 和 丑 听 用 的 是 模拟 磁带 ， 也 就 是 说 它 记录 的 是 模拟 信和 号。 电流 强 ， 
尼 化 的 就 强 ; 电流 弱 ， 磁 化 的 就 弱 。 磁 转 成 电 的 时 候 也 一 样 ， 用 这 种 磁 

号 强 弱 信息 来 表达 声音 振动 的 强 弱 信息 ， 从 而 形成 音乐 。MP3 则 是 利 
用 数字 信息 来 编码 声音 振动 强 弱 和 频率 信息 。 虽 然 由 模拟 转向 数字 ， 需 
要 数字 采样 转换 ， 音 乐 的 质量 相对 模拟 信号 来 的 差 ， 算 法 也 复杂 ， 但 是 
它 具 有 极 大 的 抗 干扰 能 力 ， 而 且 可 以 无 颖 地 与 计算 机 结合 ， 形 成 能 发 声 
的 计算 机 (多 媒体 计算 机 〉。 





























录音 带 、 录 像 带 ， 都 是 模拟 信号 磁带 。 用 于 文件 备份 的 磁带 ， 当 然 
是 数字 磁带 ， 它 记录 的 是 磁性 的 极 性 ， 而 不 是 被 磁化 的 强 弱 ， 比 如 用 N 
极 来 代表 1， 用 S 极 来 代表 0。 





如 果 备 份 软件 将 文件 备份 到 磁盘 介质 或 者 任何 其 他 的 块 介 质 上 ， 那 
么 这 些 文件 就 可 以 是 不 连续 的 。 英 设备 可 以 跳跃 式 地 记录 数据 ， 而 一 个 
完整 数据 链 信息 ， 由 管理 这 种 介质 的 文件 系统 来 记录 。 和 磁盘 读 写 速度 比 


位 带 要 高 得 多 。 





近年 来 出 现 了 VTL， 即 Virtual Tape Library( 虚 拟 磁 带 库 ) ， 用 磁 
盘 来 模拟 磁带 。 这 个 概念 看 似 复 杂 ， 其 实 实现 起 来 无 非 就 是 一 个 协议 转 
换 器 ， 将 人 磁盘 逻辑 与 磁带 逻辑 相互 映射 融合 ， 其 骗 上 位 程序 让 其 认为 底 
层 物理 介质 是 人 磁带， 然后 再 按照 磁盘 的 记录 方式 读 写 数据 ， 这 就 是 虚拟 





化 的 表现 。 这 种 方法 ， 提 高 了 备份 速度 和 有 灵活 性 ， 用 处 很 大 。 
16.1.2 块 级 备份 


所 谓 块 级 的 备份 ， 就 是 备份 块 设备 上 的 每 个 块 ， 不 管 这 个 块 上 有 没 
有 数据 ， 或 是 这 个 块 上 的 数据 属于 哪个 文件 。 块 级 别 的 备份 ， 不 考虑 也 
不 用 考虑 文件 系统 层次 的 逻辑 ， 原 块 设备 有 多 少 容量 ， 束 备份 多 少 容 
量 。 在 这 里 “ 块 ”* 的 概念 ， 对 于 磁 副 来 说 束 是 届 区 Sector。 块 级 的 备份 ， 
是 最 底层 的 备份 ， 它 抛 开 了 文件 系统 ， 直 接 对 磁盘 而 区 进行 读 取 ， 并 将 
读 取 到 的 忆 区 写 入 新 的 磁盘 对 应 的 而 区 。 

















这 种 方式 的 一 个 典型 实例 ， 就 是 磁盘 镜像 。 而 磁盘 镜像 最 简单 的 实 
现 方 式 就 是 RAID 1。RAID 1 系统 将 对 一 块 (或 多 块 ) 磁盘 的 写 入 ， 完 
全 复制 到 另 一 块 ( 或 多 块 ) 磁盘 ， 两 块 磁盘 内 容 完全 相同 。 有 些 数据 恢 
复 公司 的 一 些 专用 设备 “磁盘 复制 机 ?也 是 直接 读 取 磁 盘 忆 区 ， 然 后 复制 
到 新 的 磁盘 。 








基于 块 的 备份 软件 ， 不 经 过 操作 系统 的 文件 系统 接口 ， 而 通过 磁盘 
控制 器 驱动 接口 ， 直 接 读 取 磁 盘 ， 所 以 相对 文件 级 的 备份 来 说 ， 速 度 加 
快 很 多 。 但 是 基于 块 的 备份 软件 备份 的 数量 相对 文件 级 备份 要 多 ， 会 备 
份 许多 僵尸 忆 区 ， 而 且 备份 之 后 ， 原 来 不 连续 的 文件 ， 备 份 之 后 还 是 不 
连续 ， 有 很 多 雁 片 。 文 件 级 的 备份 ， 会 将 原来 不 连续 存放 的 文件 ， 备 份 
成 连续 存放 的 文件 ， 恢 复 的 时 候 ， 也 会 在 原来 的 磁盘 上 连续 写 入 ， 所 以 
很 少 造成 雁 片 。 有 很 多 系统 管理 员 ， 都 会 定时 将 系统 备份 并 重新 导入 一 
次 ， 就 是 为 了 剔除 磁盘 雁 片 ， 其 实 这 么 做 的 效果 和 磁盘 俯 片 整理 程序 效 
果 一 样 ， 但 是 速度 却 比 后 者 快 得 多 。 











16.2 ”高 级 数据 保护 方法 


16.2.1 远程 文件 复制 








远程 文件 复制 方 采 ， 是 把 需要 备份 的 文件 ， 通 过 网 络 传输 到 寞 地 容 
灾 站 点 。 典 型 的 代表 是 rsync 寞 步 远程 文件 同步 软件 。 这 是 一 个 运行 在 
Linux 下 的 文件 远程 同步 软件 。 它 可 以 监视 文件 系统 的 动作 ， 将 文件 的 
变化 通过 网 络 同步 到 异地 的 站 点 。 它 可 以 只 复制 一 个 文件 中 变化 过 的 内 
容 ， 而 不 必 整 个 文件 都 复制 ， 这 在 同步 大 文件 的 时 候 非 党 管用 。 





其 实 FTP 工 具 也 是 一 个 很 好 的 远程 文件 复制 工具 ， 只 不 过 不 能 做 到 
更 加 灵活 和 强大 而 已 。 





16.2.2 ”远程 磁盘 〈 卷 ) 镜像 


这 是 基于 块 的 远程 备份 ， 即 通过 网 络 将 备份 的 块 数据 传输 到 异地 站 
点 。 远 程 镜像 〈 远 程 实时 复制 ) 又 可 以 分 为 同步 复制 和 腊 步 复制 。 同 步 
复制 ， 即 主 站 点 接受 的 上 层 IO 与 入 数据 ， 必 须 等 这 份 数据 成 功 地 复制 传 
和 输 到 异地 站 点 ， 并 写 入 成 功 之 后 ， 才 通报 上 层 IO 成 功 消 轧 。 异 步 复 制 ， 
就 是 上 层 IO 主 站 点 写 入 成 功 ， 即 网 上 层 通 报 成 功 ， 然 后 在 后 合 将 数据 通 
过 网 络 传输 到 异地 。 前 者 能 保证 两 地 数据 的 一 致 性 ， 但 是 对 上 层 啊 应 较 
慢 ;， 而 后 者 不 能 实时 保证 两 地 数据 的 一 致 性 ， 但 是 对 上 层 啊 应 很 快 。 











所 有 基于 块 的 备份 措施 ， 一 般 都 是 在 确 层 设备 上 进行 ， 而 不 耗费 主 
机 资源 。 


现在 几乎 各 个 盘 阵 广 家 的 中 高 端 产 品 ， 都 提供 远程 镜像 服务 ， 比 如 
IBM 的 PPRC、EMC 的 SRDF、HDS 的 Truecopy、Netapp 的 SnapMirror 


有 
等 。 


16.2.3 快 〈 块 ) 照 数 据 保 护 


远程 镜像 ， 或 者 本 地 镜像 ， 确 实 是 对 生产 卷 数据 的 一 种 很 好 的 保 
护 ， 一 旦 生产 卷 故障 ， 可 以 立即 切换 到 镜像 卷 。 但 是 这 个 镜像 卷 ， 一 定 
要 保持 一 直 在线 状 态 ， 主 卷 有 写 IO 操 作 ， 那 么 镜像 卷 也 有 写 IO 操 作 。 如 
打 东 时 刻 想 对 整个 镜像 卷 进 行 备 份 ， 需 要 停止 读 写 主 卷 的 应 用 ， 使 应 用 
不 再 对 卷 产 生 IO 操 作 ， 然 后 将 两 个 卷 的 镜像 关系 分 离 ， 这 了 束 是 拆 分 锁 
像 。 切 分 过 程 是 很 快 的 ， 所 以 短暂 的 IO 和 暂 不 会 对 应 用 产生 太 大 的 影像 。 











拆 分 之 后 ， 可 以 恢复 上 层 的 IO 。 由 于 拆 分 之 后 已 经 切 离 的 镜像 关 
系 ， 所 以 镜像 卷 不 会 有 IO 操作 。 此 时 的 镜像 卷 ， 就 是 主机 停止 IO 那 一 刻 
的 原 卷 数据 的 完整 镜像 ， 此 时 可 以 用 备份 软件 将 镜像 卷 上 的 数据 备份 到 
其 他 介质 。 


拆 分 镜像 ， 是 为 了 让 镜像 卷 保 持 拆 分 一 瞬间 的 状态 ， 而 不 再 继续 税 
写 入 数据 。 而 拆 分 之 后 ， 主 卷 所 做 的 所 有 写 IO 动 作 ， 会 以 bitmap 的 方式 
记录 下 来 。bitmap 殊 是 一 份 位 图 文件 ， 文 件 中 每 个 位 都 表示 知 上 的 一 个 
块 ( 司 区 ， 或 者 由 多 个 山区 组 成 的 逻辑 块 )， 如 果 这 个 块 在 拆 分 镜像 之 
后 ， 被 写 入 了 数据 ， 则 程序 就 将 bitmap 文 件 中 对 应 的 位 从 0 变 成 1。 竺 
份 完成 之 后 ， 可 以 将 镜像 关系 恢复 ， 此 时 主人 卷 和 镜像 卷 上 的 数据 是 不 一 
致 的 ， 需 要 重新 做 同步 。 程 序 会 搜索 bitmap 中 所 有 为 1 的 位 ， 对 应 到 着 
上 的 块 ， 然 后 将 这 些 块 上 的 数据 同步 到 镜像 卷 ， 从 而 恢复 实时 镜像 天 
系 。 








可 以 看 到 ， 以 上 的 过 程 是 十 分 复杂 烦琐 的 ， 而 且 需 要 占用 一 块 和 主 
卷 相 同 容量 大 小 的 卷 作为 镜像 卷 。 最 为 关键 的 是 ， 这 种 备份 方式 需要 停 








掉 主 机 IO， 这 对 应 用 会 产生 影响 。 而 “快照 技术 ”解决 了 这 个 难题 。 快 照 
的 基本 思想 是 ， 抓 取 茶 一 时 间 点 磁盘 〈 卷 ) 上 的 所 有 数据 ， 而 且 完 成 速 
度 非 常 快 ， 就 像 照 相机 快门 一 样 。 


下 面 介绍 快照 的 底层 原理 。 
1 基于 文件 系统 的 快照 


目 然 界 是 不 断 变化 的 。 可 以 用 照相 机 抓拍 到 茶 个 时 间 操 的 瞬间 影 
像 。 为 什么 要 对 卓然 界 照相 ? 为 了 留 下 美好 的 记忆 。 计 算 机 存储 的 电子 
数据 也 是 在 不 断 变 化 的 ， 为 了 抓拍 下 茶 一 时 间 点 茶 份 数据 集 的 内 容 ， 需 
要 一 种 “数据 照相 机 ?。 为 什么 要 对 电子 数据 进行 抓拍 ? 为 了 预防 数据 
被 “污染 ”， 或 者 饮 辑 上 被 损毁 ， 比 如 病毒 大 范围 感染 、 配 置信 息 衣 滥 、 
系统 月 湿 等 。 拍 下 一 些 历史 时 刻 的 数据 内 容留 碟 。 自 然 界 照片 至 少 现在 
还 不 可 以 回 深 ， 但 是 电子 数据 的 照片 确 是 可 以 回 深 的 ， 并 且 可 以 从 这 个 
时 间 点 为 起 点 重头 来 过 ， 或 者 从 这 个 时 间 扣 的 数据 影像 创建 出 多 份 平行 
的 存储 空间 《〈 死 隆 ) 。 











A 兄 提出 的 办 法 : “快速 将 茶 文 件 系 统 内 的 文件 全 部 复制 到 另外 一 个 
地 方 存放 ， 这 份 复制 出 来 的 文件 集束 是 源 文 件 系统 在 复制 开始 那 一 时 刻 
的 快照 ! ”这 种 做 法 有 什么 问题 ? 如 果 文 件 容量 很 大 ， 复 制 需 要 很 长 时 
间 ， 而 这 段 时 间 内 源 文件 系统 内 有 数据 及 生 更 改 怎么 办 ? 抓拍 移动 的 景 
物 ， 曝 光 时 间 越 长 ， 得 到 的 照片 就 会 重 影 、 模 糊 其 至 花脸 ! 对 于 电子 数 
据 也 一 样 ， 如 果 上 曝光 复制 时间 过 长 ， 曝 光复 制 ) 的 过 程 中 被 招 摄 
的 对 象 有 移动 〈 数 据 被 更 改 ) ， 那 么 所 得 到 的 照片 数据 快照 ) 就 是 一 
份 花脸 照片 (得 到 的 数据 集 前 后 不 一 致 〉。 








B 兄 提出 了 改进 方法 : 在 复制 时 禁止 一 切 针对 源 文 件 系 统 的 更 改 操 


作 ， 即 禁止 一 切 写 IO。 等 复制 完成 时 再 恢复 。 看 来 B 兄 是 个 不 合格 的 摄 
影 师 。 上 自己 摄影 技术 太 差 ， 倒 守 的 是 来 拍照 的 人 ， 强 行 让 客户 静止 不 动 
长 达 几 分 钟 ， 霸 王 条 球 ! 





C 兄 出 马 了 : “从 本 质 上 解决 这 个 问题 ， 必 须 降 低 上 曝光 《数据 复制 ) 
时 间 ! 同时 只 需 被 担 照 者 (应 用 程序 ) 只 静止 一 瞬间 残 可 以 了 ! ” 








D 兄 出 面 了 : “C 兄 说 得 很 对 ! 我 有 个 办 法 可 以 一 举 两 得 地 保证 这 两 
个 苛刻 需求 的 落地 ! *D 兄 有 何 秘籍 ? 万 变 不 离 其 守 ! 其 “ 宗 ” 为 文件 系统 
元 数据 链 。 军 一 发 而 动 全 里 ， 只 要 抓 住 了 文件 系统 元 数据 链 ， 束 等 于 掌 
握 了 目前 这 个 文件 系统 内 的 所 有 信息 。 而 对 于 一 个 文件 系统 来 讲 ， 其 元 
数据 量 相对 整体 数据 量 是 很 少 的 。 如 果 在 复制 的 时 候 只 复制 元 数据 链 ， 
也 就 是 整个 文件 系统 的 总 图 纸 ， 那 么 就 变相 地 拥有 了 一 份 在 复制 一 刹那 
这 个 文件 系统 中 的 所 有 内 容 的 组 织 结构 树 。 

















顿时 ，A、B、C 三 位 老兄 开始 狂 胡 小 炸 : “只 复制 元 数据 链 ， 那 么 
复制 过 程 是 可 以 大 大 降低 了 ， 但 是 如 何 解决 在 复制 完成 之 后 仍然 允许 用 
户 程序 更 改 源 数据 呢 ? 一 旦 有 数据 被 更 改 ， 那 么 复制 出 来 的 图 纸 误 相当 
于 作废 了 ， 因 为 图 纸 与 实际 内 容 已 经 对 不 上 号 了 ! ” 











D 兄 从 容 应 对 : “我 自 有 办 法 。 源 文件 数据 当然 不 能 让 它 束 这 么 被 覆 
诲 挥 。 有 以 下 两 种 办 法 来 保证 。” 








办 法 一 : 元 数据 复制 完成 之 后 所 有 针对 源 文件 系统 的 更 改 文件 块 均 
将 其 重 定 癌 到 一 块 空余 的 空间 内 存放 ， 并 且 在 源 文件 系统 的 元 数据 更 新 
对 应 的 指针 条 目 来 告诉 系统 说 源 文 件 系统 内 茶 文 件 的 茶 些 块 的 最 新 内 容 
其 实 被 重 定 癌 存储 到 了 新 的 空间 内 的 某 菜 地 址 。 这 样 就 可 以 永久 地 将 快 
照 创 建 瞬间 的 数据 全 部 冻 住 ， 之 后 所 有 更 改 都 被 重 定 癌 到 剩余 空间 存 














放 。 此 时 系统 内 保存 着 两 套 元 数据 链 ， 一 套 是 源 文件 系统 的 ， 会 被 不 断 
地 更 新 ， 男 一 套 则 是 快照 时 保存 下 来 的 ， 永 不 更 新 ， 而 且 其 指 同 的 实际 
存储 位 置 上 的 数据 也 不 会 被 覆盖 。 随 着 源 数 据 被 不 断 履 盖 而 产生 的 重 定 
向 写 动作 ， 空 闲 空间 内 会 逐渐 产生 一 个 当前 时 间 点 文件 系统 全 部 数据 的 
影像 ， 而 拍照 那 一 刻 的 历史 时 间 点 的 源 文 件 系统 影像 则 永久 被 冻 住 为 快 
照 生 成 瞬间 的 历史 时 间 点 影像 。 这 种 思路 叫 : Redirect on First 
Write (RoFW) 。 之 所 以 只 在 首次 履 盖 号 时 重 定向 ， 是 因为 只 要 重 定 同 
出 去 之 后 ， 源 数据 块 后 续 的 覆盖 就 会 直接 在 重 定向 之 后 的 块 地 址 上 直接 
覆盖 之 前 被 重 定向 出 来 的 块 了 。 























办 法 二 : 元 数据 复制 完成 之 后 ， 所 有 针对 源 文 件 系统 中 文件 的 履 盖 
写 操作 均 照 常 执行 ， 但 是 在 履 盖 对 应 的 数据 块 之 前 ， 需 要 将 被 敢 盖 的 数 
据 块 内 容 复 制 出 来 ， 存 放 到 一 个 额外 的 空闲 空间 内 存放 ， 并 且 在 之 前 被 
复制 出 来 的 元 数据 链 中 更 新 这 个 新 指向 记录 ， 将 历史 的 一 部 分 指 同 被 复 
制 出 来 的 数据 块 ， 历 史 的 另 一 部 分 则 与 现在 是 重 登 存在 的 。 系 统 中 依然 
有 两 套 元 数据 链 ， 一 套 指 同 当前 ， 男 一 套 指 同 历史 。 这 样 处 理 之 后 ， 源 
文件 系统 存储 空间 中 永远 都 是 最 新 的 数据 ， 而 历史 数据 会 随 着 履 新 写 入 
操作 的 不 断 进 行 而 被 逐渐 搬出 原 存 储 空 间 ， 存 入 空闲 空间 ， 最 后 在 空闲 
空间 内 生成 为 一 个 快照 生成 那个 瞬间 的 历史 影像 。 这 种 思路 叫 ，Copy 
on First Write (CoFW) 。 之 所 以 只 在 首次 履 盖 写 时 复制 ， 是 因为 只 要 
首次 复制 出 去 之 后 ， 源 数据 块 后 续 的 履 兰 写 动 作 就 会 直接 在 源 数据 集中 
对 应 地 址 上 直接 履 盖 了 ， 因 为 历史 版 本 已 经 被 保留 了 。 
























































我 们 知道 ， 文 件 系统 管理 思想 的 精髓 就 在 于 它 的 链表 、B 树 和 位 图 
等 结构 ， 也 就 是 元 数据 (Metadata) ， 以 及 对 这 些 元 数据 的 管理 方式 。 
文件 系统 其 实 对 底层 磁盘 是 有 点 “恐惧 ”的 ， 我 们 可 以 计算 一 下 ， 一 个 
100GB 的 磁盘 上 ， 有 超过 2 亿 个 扇 区 。 文 件 系统 是 如 何 管理 这 2 亿 个 局 


区 ， 又 如 何 知 道 茶 个 忆 区 正在 使 用 呢 ? 如 采 使 用 的 话 ， 是 分 配给 哪个 文 
件 或 者 文件 的 一 部 分 呢 ? 


文件 系统 首先 将 局 区 组 合成 更 大 的 逻辑 块 来 降低 管理 规模 。NTFS 
最 大 每 个 块 可 以 到 4KB， 也 就 是 8 个 届 区 一 组 形成 一 个 簇 ( 块 ， 
Block) 。 这 样 ，2 亿 的 管理 规模 便 会 除 8， 缩 小 到 1.2 千 万 的 管理 规模 ， 
虽然 存储 空间 可 能 有 所 浪费 ， 但 是 切实 降低 了 管理 成 本 。 


其 次 ， 文 件 系 统 会 创建 所 管理 存储 空间 上 所 有 和 饼 〈( 块 ;的 位 图 文 
件 ， 这 个 文件 有 固定 的 入 口 ， 文 件 系 统 能 在 1.2 干 万 个 块 中 快速 定位 到 
这 个 文件 入 口 并 读 写 。 位 图 文件 中 每 个 位 代表 卷 上 的 一 个 簇 (或 者 物理 
而 区 ， 视 设计 不 同 而 决定 ) ， 如 果 艇 正在 被 某 个 文件 使 用 ， 这 个 复 在 位 
图 中 对 应 的 位 的 值 束 为 1， 人 否则 为 0。 








再 次 ， 文 件 系统 还 保存 一 份 文件 和 其 所 对 应 艇 号 的 映射 链 ， 这 个 映 
射 链 本 身 以 及 簇 位 图 本 身 也 是 文件 ， 也 要 有 自己 的 映射 链 ， 所 以 针对 这 
些 重要 的 元 数据 ， 必 须 有 一 个 固定 的 入 口 ， 用 来 让 文件 系统 程序 读 入 并 
且 人 遍历 所 有 文件 系统 元 数据 。 通 常 将 这 个 初始 固定 地 址 入 口 称 为 root 
inode， 不 同 操作 系统 具体 实现 方式 不 同 。 








当 向 卷 中 写 入 一 个 新 文件 ， 文 件 系统 首先 会 查找 复位 图 ， 找 到 位 值 
为 0 所 对 应 的 徐 号 ， 并 计算 所 需 的 空间 ， 然 后 分 配 这 些 簇 号 给 这 个 文 
件 。 它 首先 将 文件 实体 数据 写 入 对 应 的 徐 ， 然 后 再 去 文件 一 簇 号 映射 图 
中 更 新 ， 将 新 文件 与 其 对 应 的 簇 映 射 关系 记录 下 来 ， 最 后 到 簇 位 图 中 将 
这 些 复 对 应 的 位 的 值 从 0 改 为 1。 如 果 要 删除 这 个 文件 ， 则 直接 在 inode 
链 中 将 这 个 文件 的 inode 抹 掉 即 可 ， 然 后 在 簇 位 图 中 将 对 应 簇 的 位 值 从 1 
改 为 0。 








文件 系统 并 不 会 抹 挥 这 个 被 删除 文件 所 对 应 关上 的 簇 中 的 实际 数 
据 ， 如 果 用 山区 读 写 软件 来 提取 这 个 艇 ， 束 会 得 到 这 个 文件 的 部 分 内 
容 。 虽 然 这 些 篮 中 依然 有 内 容 ， 但 是 对 于 文件 系统 来 说 ， 这 些 艇 是 可 重 
用 的 ， 一 旦 有 新 文件 写 入 ， 新 文件 的 数据 便 会 履 访 原来 簇 中 的 数据 。 




















所 以 ， 对 于 一 个 文件 系统 来 说 ， 最 重要 的 不 是 卷 族 中 的 数据 ， 而 是 
文件 一 秘 号 映射 链 和 位 图 等 这 些 元 数据 。 比 如 ， 想 要 破坏 茶 个 文件 系统 
中 的 东 个 文件 ， 我 们 不 必 费 劲 地 修改 某 个 文件 对 应 簇 中 的 实际 内 容 ， 只 
再 修改 一 下 文件 一 徐 号 映射 链 中 关于 这 个 文件 所 对 应 的 实际 复 号 的 记录 
即 可 ， 让 它 指向 其 他 簇 号 。 











这 样 ， 文 件 读 出 来 的 内 容 就 不 是 原 有 内 容 。 此 外 ， 如 果 修 改 了 文件 
系统 中 对 应 艇 中 的 数据 ， 文 件 系 统 也 根本 感知 不 到 这 些 动 作 ， 因 为 它 所 
碍 询 的 是 文件 一 复 号 映射 链 ， 它 只 知道 菏 个 文件 对 应 着 哪些 徐 ， 而 不 天 
心 这 些 篮 是否 被 改过 ， 它 想 关 心 也 无 法 关心 。 


正 因 为 文件 系统 只 是 根据 它 所 记录 的 这 些 映 射 图 表 来 管理 文件 ， 所 
以 才 使 得 快照 成 为 可 能 。 为 什么 呢 ? 





思考 : ”如果 我 们 想 抓 取 茶 个 卷 在 东 一 时 刻下 的 全 部 数据 ， 束 
可 以 像 照相 机 一 样 ， 对 一 个 正在 移动 的 物体 实施 招 照 ， 某 一 时 
刻 ， 快 门 打 开 ， 上 曝光 后 关闭 。 照 相机 可 以 保存 在 底片 上 ， 但 照 
下 的 数据 如 何 保存 呢 ? 


如 采 一 个 卷 上 有 100GB 容 量 的 文件 ， 照 下 来 之 后 ， 用 另 一 块 磁盘 将 
数据 全 部 复制 出 来 ， 至 少 需要 20 分 钟 的 时 间 ， 且 在 这 段 时 间 内 ， 不 允许 
再 有 任何 数据 被 写 入 这 个 卷 ， 因 为 我 们 要 抓 取 的 是 这 个 卷 在 这 个 时 刻 瞬 
间 的 数据 。 








对 于 拍照 移动 中 的 物体 ， 要 想 保 证 照片 清晰 没有 重 影 ， 就 要 降低 曝 
光 时 间 ， 但 是 曝光 时 间 越 得 ， 照 片 感光 度 就 会 越 低 ， 也 会 影响 质量 。 同 
样 ， 对 于 一 个 正在 进行 频 楷 IO 写 入 的 数据 卷 ， 要 照 下 它 某 时 刻 的 样子 ， 
也 需要 减少 “曝光 ?时 间 。 但 是 刚才 已 经 说 过 ，100GB 的 数据 ， 复 制 出 来 
需要 20 分 钟 时 间 ， 这 个 “曝光” 时间 太 长 了。 要 么 物体 在 扫 摄 的 时 候 保持 
静止 (复制 卷 的 时 候 堡 止 IO，， 要 么 就 减少 曝光 时 间 (加 快 复制 速 
度 ) ， 这 两 样 ， 我 们 一 样 也 保证 不 了 ， 因 为 停止 IO 会 直接 影响 上 层 应 
用 ， 而 且 也 无 法 在 几 秒 钟 《 应 用 停止 IO 可 接受 的 时 间 内 ) 之 内 将 100GB 
的 数据 复制 出 来 。 难 着 就 真 的 没有 办 法 了 么 ? 非 也 。 























思考 : ”如果 我 们 只 花 几 秒 甚至 1 秒 钟 的 时 间 ， 把 某 时 刻 的 文件 
系统 中 的 映射 图 表 ， 以 及 下 级 链表 等 元 数据 复制 出 来 并 保存 ， 
那么 是 不 是 就 可 以 说 ， 我 们 照 下 了 这 个 时 间 点 处 卷 上 的 所 有 数 
据 呢 ? 








绝对 是 的 。 因 为 文件 系统 只 根据 这 些 映射 图 来 对 应 卷 上 的 实际 数 
据 ， 所 以 只 要 有 了 了 映 财 图 ， 就 可 以 按 图 索 双 ， 找 到 并 拥有 实际 的 数据 。 
但 是 ， 将 此 时 刻 的 映射 图 复制 出 来 ， 我 们 也 只 得 到 了 一 个 图 纸 而 已 ， 因 
为 实际 数据 在 卷 上 ， 是 实 实在 在 的 物理 卷 ， 而 不 是 在 图 纸 上 ， 所 以 我 们 
必须 保证 着 上 的 数据 不 被 IO 写 入 ， 而 同时 又 不 能 影响 应 用 ， 既 然 不 能 影 
啊 应 用 ， 惑 要 让 IO 继续 执行 ， 这 人 简直 是 个 大 大 的 矛盾 啊 ! 











思考 : 源 块 不 能 被 写 入 新 数据 ， 这 个 绝对 要 保证 ， 合 则 这 
张 * 照 厂 ” 束 花脸 了 ， 而 同时 应 用 的 IO 也 必须 持续 不 断 地 执行 
( 写 入 ) ， 既 然 源 块 不 让 写 入 了 ， 那 能 不 能 写 入 到 其 他 空闲 的 
地 方 呢 ? 





当然 可 以 ! 每 当 遇 到 需要 问 原 卷 写 入 新 文件 或 者 更 新 旧 文件 ， 文 件 


系统 便 将 这 些 更 新 数据 写 入 一 个 新 的 空闲 的 地 方 去 ， 然 后 在 它 的 映射 图 
中 加 入 对 应 的 条 目 。 由 于 我 们 已 经 保存 了 原来 的 映射 图 ， 而 且 也 拥有 一 
份 不 让 写 入 的 原 卷 实体 数据 ， 所 以 不 怕 它 修改 。 文 件 系 统 当前 的 映射 图 
元 数据 ) 始终 描述 的 是 当前 的 映射 关系 。 这 样 ， 应 用 继续 执行 IO， 同 
时 ， 我 们 也 可 以 将 照 下 来 的 原 卷 数据 复制 出 去 ， 从 而 得 到 一 份 茶 时 刻 的 
瞬间 的 卷 数据 。 我 们 完全 可 以 选择 不 复制 这 份 快照 ， 就 让 它 留 在 那 ， 因 
为 快照 根本 不 占用 额外 的 空间 ， 除 非 针 对 这 个 若 有 新 的 IO 写 入 ， 则 新 簇 
会 写 同 其 他 地 方 ， 从 而 占用 相应 大 小 的 空间 ， 一 旦 原 卷 所 有 艇 都 被 更 新 
了 ， 那 么 也 就 意味 着 在 空闲 空间 内 逐渐 生成 了 一 个 完整 的 新 卷 了 ， 其 占 
用 与 原 卷 相同 大 小 的 空间 。 

















图 16-1 所 示 为 CoFW 模 式 下 的 几 个 典型 流程 。 
图 16-1 CoFW 快 照 示 意图 


(1) 源 文件 系统 〈 当 前 活动 文件 系统 ， 即 正在 被 应 用 程序 读 写 的 
生产 文件 系统 ) 初始 状态 : 数据 不 断 地 被 读 取 或 者 写 入 ， 实 际 数据 块 
《文件 块 ， 如 A、B、C、D) 以 及 元 数据 链 也 在 不 断 变化 。 


(2) 之 后 茶 时 刻 ， 系 统 被 触及 了 一 份 快照 。 系 统 将 所 有 写 IO 暂 
挂 ， 然 后 立即 开始 将 整个 文件 系统 的 元 数据 链 复 制 一 份 存放 ， 复 制 完成 
后 立即 解除 暂 挂 。 被 复制 下 来 的 这 份 元 数据 链 是 与 当前 活动 元 数据 链 完 
全 相同 的 ， 所 以 此 时 此 刻 其 指 问 后 层 数 据 块 与 当前 活动 元 数据 链 也 是 相 
同 的 。 








(3) 之 后 某 时 刻 应 用 程序 要 更 改 当 前 活动 文件 系统 中 的 C 数 据 块 为 
C'， 属 于 首次 上 覆盖 写 ， 根 据 CoFW 规 则 ， 需 要 先 将 原来 的 C 数 据 块 复制 出 
来 ， 然 后 再 写 入 C' 数 据 块 。 之 后 ， 在 快照 元 数据 链 中 将 原本 指向 C 块 地 

















址 〈 现 在 的 C' 块 的 地 址 ) 的 指针 改 为 指 网 被 复制 出 来 的 C 块 的 新 地 址 
Es 


(4) 同 理 ， 之 后 某 时 刻 A 被 禾 关 更 改 为 A， 那 么 系统 同样 也 将 A 复 
制 出 来 并 且 修 改 快照 元 数据 链 中 的 指针 。 


(5) 在 这 一 步 中 ，B 被 更 改 为 B'，B 同 样 被 拷 出 。 同 时 ， 应 用 程序 
对 当前 活动 文件 系统 做 了 一 个 退 加 写 动 作 ， 比 如 扩大 了 茶 文 件 之 类 ， 产 
生 了 一 个 新 分 配 的 文件 数据 块 E， 由 于 这 个 文件 系统 在 快照 那 一 刻 的 历 
史 版 本 中 并 没有 这 个 数据 ， 所 以 系统 并 不 会 作 任何 后 台 复 制 动 作 。 对 于 
追加 写 的 数据 未 ， 快 照 系统 不 做 任何 处 理 。 应 注意 ， 退 加 写 是 文件 系统 
中 经 常 肥 生 的 事情 ， 奶 加 写 会 伴随 着 元 数据 的 数量 和 容量 的 变化 而 不 仅 
是 指 针 指 加 的 改变 ， 也 就 相当 于 图 纸 扩 大 幅面 了 。 但 是 对 于 LUN 或 者 卷 
来 讲 ， 并 没有 追加 写 这 一 说 ， 卷 的 容量 和 位 置 是 固定 的 ， 除 非 东 些 场景 
下 将 某 个 LUN 扩 容 ， 而 这 个 动作 也 不 需要 后 台 的 快照 处 理 进程 做 什么 事 
表 ， 因 为 历史 时 刻 这 个 LUN 并 没有 扩容 ， 所 以 当前 活动 LUN 怎 么 折腾 都 
行 ， 只 要 不 发 生 需 要 首次 缆 凋 源 数据 块 的 情况 ， 快 照 无 须 做 任何 处 理 ， 
拿 好 手中 的 图 纸 ， 监 控 好 首次 覆盖 动作 即 可 。 男 外 ， 这 一 步 中 还 有 一 个 
动作 ， 即 C 被 覆盖 写 为 C"， 由 于 C 块 之 前 已 经 被 禾 盖 过 一 次 ， 所 以 这 次 
系统 直接 用 C" 履 盖 之 前 的 C'， 无 须 任 何 处 理 过 程 。 


























ss 


(6) 当 源 文件 系统 内 所 有 数据 块 部 被 履 盖 写 了 一 所 之 后 ， 系 统 内 
将 有 两 套 完 整 的 文件 系统 数据 集 一 套 是 当前 活动 文件 系统 ， 男 一 套 则 
是 这 个 文件 系统 所 对 应 的 历史 快照 时 刻 的 数据 版 本 。 





图 16-2 所 示 为 RoFW 模 式 下 的 系统 快照 处 理 流程 。 


图 16-2 ”RoFW 快 照 示意 图 


(1) 源 文件 系统 〈 当 前 活动 文件 系统 ， 即 正在 被 应 用 程序 读 写 的 
生产 文件 系统 ) 初始 状态 : 数据 不 断 地 被 读 取 或 者 写 入 ， 实 际 数据 块 
(文件 块 ， A、B、C、D) 以 及 元 数据 链 也 在 不 断 变 化 。 


(2) 之 后 东 时 刻 ， 系 统 被 触及 了 一 份 快照 。 系 统 将 所 有 写 IO 暂 
挂 ， 然 后 立即 开始 将 整个 文件 系统 的 元 数据 链 复 制 一 份 存放 ， 复 制 完成 
后 立即 解除 暂 挂 。 被 复制 下 来 的 这 份 元 数据 链 是 与 当前 活动 元 数据 链 完 
全 相同 的 ， 所 以 此 时 此 刻 其 指 问 后 层 数 据 块 与 当前 活动 元 数据 链 也 是 相 
同 的 。 











OR Db en A 
C'， 属 于 首次 覆盖 写 ， 根 据 RoFW 规 则 ， 直 接 将 C' 数 据 块 重 定 向 写 入 到 
某 剩 余 空间 内 。 2 将 当前 活动 文件 系统 元 数据 链 中 原本 指 癌 C 块 地 
址 (现在 依然 是 C 块 的 地 址 〉 的 指针 改 为 指向 被 重 定向 写 出 去 的 C' 块 的 
新 地 址 上 。 




















(4) 同 理 ， 之 后 某 时 刻 A 被 禾 凋 更 改 为 A'， 那 么 系统 同样 也 将 A' 重 
定 癌 写 出 ， 并 且 修改 当前 活动 文件 系统 元 数据 链 中 的 指针 。 


(5) 在 这 一 步 中 ，B 被 更 改 为 B"'，B' 同 样 被 重 定向 。 同 时 ， 应 用 程 
序 对 当前 活动 文件 系统 做 了 一 个 退 加 写 动 作 ， 比 如 扩大 了 茶 文 件 之 类 ， 
产生 了 一 个 新 分 配 的 文件 数据 块 E， 由 于 这 个 文件 系统 在 快照 那 一 刻 的 
历史 版 本 中 并 没有 这 个 数据 ， 所 以 系统 并 不 会 作 任何 后 全 重 定 同 动作 。 
对 于 退 加 写 的 数据 其 ， 快 照 系统 不 作 任 何 处 理 。 夯 外 ， 这 一 步 中 还 有 一 
个 动作 ， 即 C 被 覆盖 写 为 C"， 由 于 C 块 之 前 已 经 被 重 定向 过 一 次 ， 所 以 
这 次 系统 直接 用 C" 窗 冀 之 前 的 C'"， 无 须 任 何 处 理 过 程 。 








(6) 当 源 文件 系统 内 所 有 数据 块 部 被 禾 盖 写 了 一 所 之 后 ， 系 统 内 





将 有 两 套 完整 的 文件 系统 数据 集 : 一 套 是 当前 活动 文件 系统 ， 另 一 套 则 
征 这 个 文件 系统 所 对 应 的 历史 快照 时 刻 的 数据 版 本 。 


图 16-3 所 示 为 在 RoFW 模 式 下 生成 两 个 快照 之 后 系统 的 处 理 流程 示 
图 。 


涡 




















图 16-3 ”RoFW 模 式 生 成 两 份 快照 后 处 理 流程 示意 图 











(1) 茶 时 刻 的 状态 如 图 中 1 扎 框 所 示 ， 已 经 生成 了 一 份 快照 ， 并 且 
重 定向 写 出 了 A' 和 C' 这 两 个 数据 块 。 


(2) 之 后 某 时 刻 ， 当 前 活动 文件 系统 的 了 B 被 更 新 为 B"， 则 系统 直接 
将 B' 重 定 同 写 出 去 。 然 后 ， 系 统 又 被 触发 了 一 份 快照 。 系 统 将 所 有 写 IO 
暂 挂 ， 然 后 立即 开始 将 整个 当前 活动 文件 系统 的 元 数据 链 复制 一 份 存 
放 ， 复 制 完成 后 立即 解除 暂 挂 。 被 复制 下 来 的 这 份 元 数据 链 是 与 当前 活 
动 元 数据 链 完全 相同 的 ， 所 以 此 时 此 刻 其 指向 底层 数据 块 与 当前 活动 元 
数据 链 也 是 相同 的 。 可 以 看 到 数据 块 D 是 被 三 套 元 数据 链 共 享 指 同 的 。 














(3) 之 后 某 时 刻 应 用 程序 要 更 改 当 前 活动 文件 系统 中 的 A' 数 据 块 
为 A"， 此 时 是 否 需 要 做 一 些 动 作 ? 我 们 来 看 一 下 ， 对 于 快照 1 来 讲 ，A 
己 经 是 被 重 定 问 复制 出 去 的 块 了 ， 那 么 对 于 快照 1 来 讲 是 不 需要 重 定 问 
写 ， 但 是 对 于 快照 2 呢 ? 就 不 同 了 ， 对 于 快照 2 来 讲 ， 用 A" 乾 盖 A' 就 属于 
首次 履 辣 了 ， 上 所 以 需要 将 A" 重 定 癌 写 出 去 。 同 时 可 以 看 到 A' 对 于 当前 活 
动 文件 系统 和 快照 1 来 讲 已 经 没有 用 了 不 指向 它 了 )〉 ， 但 是 对 于 快照 2 
来 讲 却 是 必须 的 ，A' 是 快照 2 时 刻 这 个 块 所 对 应 的 历史 版 本 。 











(4) 同 理 ， 之 后 某 时 刻 D 被 禾 关 更改 为 D'， 那 么 系统 同样 也 将 D' 重 
定 癌 写 出 ， 并 且 修 改 当前 活动 文件 系统 元 数据 链 中 的 指针 。D 这 个 数据 
块 依然 保留 ， 因 为 快照 1 与 快照 2 共同 指向 它 。 


(5) 在 这 一 步 中 ，B' 被 更 改 为 B"，C' 被 更 改 为 C"，B" 与 C" 同 样 被 
重 定向 写 出 去 并 更 改 当前 活动 文件 系统 元 数据 链 指向 。 可 以 看 到 D 数 据 
块 仍然 被 两 个 快照 共享 。 而 当前 活动 文件 系统 的 实际 数据 块 已 经 全 部 被 
重 定 问 写 出 去 了 。 





还 没 结 束 。 到 这 一 步 看 似 很 完美 了 ， 给 文件 系统 拍照 的 全 流程 已 经 
梳理 完毕 ， 但 是 要 考虑 精益 求 精 。 在 面 对 一 个 海量 庞大 文件 系统 的 时 
候 ， 其 元 数据 量 可 能 会 达到 上 GB 甚 至 上 百 GB， 这 都 是 有 可 能 的 。 而 此 
时 如 果 对 这 个 文件 系统 做 快照 ， 首 次 的 元 数据 复制 所 耗费 的 时 间 将 是 不 
可 接受 的 。 有 没有 办 法 再 降低 复制 量 ? 











我 们 还 是 用 万 变 不 离 其 宗 、 窑 一 发 动 全 里 这 两 个 思想 来 作为 解决 这 
个 问题 的 入 口 。 整 个 文件 系统 的 “ 宗 ” 就 是 其 元 数据 链 ， 那 么 元 数据 链 本 
吴 有 没有 一 个 “ 宗 ?” 呢 9? 对 了 ， 确 实 有 。 这 个 “ 宗 ? 束 是 其 根 入 口 块 ， 或 者 
称 Super Block。 这 个 块 的 地 址 在 底层 空间 上 是 绝对 恒定 的 ， 这 个 块 内 存 
放 有 指 癌 下 一 级 元 数据 链 块 的 指针 ， 操 作 系 统 每 次 载 入 元 数据 都 要 从 这 
个 地 址 读 入 Super Block， Sd 那么 
我 们 如 果 在 每 次 快照 的 时 候 只 将 Super Block 复 制 保存 ， 是 否 可 以 呢 ? 











当然 可 以 。 如 果 只 复制 Super Block， 那 么 其 下 级 的 所 有 元 数据 链 自 
身 的 变更 ， 也 要 进入 CoFW 或 者 RoFW 流 程 了 。 图 16-4 所 示 为 只 复制 根 节 
点 Super Block 并 且 使 用 RoFW 模 式 下 的 文件 系统 快照 法 程 示 意图 。 











图 16-4 ”只 复制 Super Block 的 RoFW 模 式 示 意图 


(1) 源 文件 系统 〈 当 前 活动 文件 系统 ， 即 正在 被 应 用 程序 读 写 的 
生产 文件 系统 ) 初始 状态 : 数据 不 断 地 被 读 取 或 者 写 入 。Super Block 指 
向 了 两 个 一 级 间接 inode (i1 与 2) 。i1 与 2 又 分 别 指 向 了 两 个 实际 数据 





块 A、B 与 C、D。 当 然 ， 实 际 情况 下 不 可 能 只 有 这 么 少 的 间接 块 以 及 这 
么 浅 的 数据 链 级 数 ， 这 里 只 是 一 个 示意 岁 。 此 时 此 刻 ，A、B、C、D 四 
个 块 的 内 容 不 断 变 化 ， 但 是 i1 与 2 间接 块 的 内 容 却 不 变 ， 因 为 i1 块 的 内 
容 是 A 与 B 块 所 在 的 地 址 ， 同 样 ，i2 块 中 的 内 容 其 实 是 C 与 D 块 所 在 的 地 
址 ， 也 就 是 说 i1 与 2 块 其 实 是 个 指针 块 ，ABCD 的 内 容 不 断 在 变 ， 但 是 
它们 在 底层 存储 空间 上 的 地 址 偏 移 是 不 变 的 ， 所 以 i1 与 2 块 内 容 也 不 会 
变 。 当 1 或 者 记 间接 块 对 应 的 文件 发 生长 度 变 化 时 ，il 或 者 记 可 能 会 变 
化 ， 比 如 新 指向 一 个 E 块 ，i1 或 者 记 中 就 需要 新 添加 一 个 地 址 指针 来 指 癌 
E 块 。 











(2) 某 时 刻 ， 系 统 触 发 了 一 份 快照 ， 此 时 只 需要 将 Super Block 复 
制 保存 即 可 。 


(3) 随后 ， 数 据 块 A 发 生 内 容 变 更 ， 由 于 RoFW 模 式 的 作用 ， 新 数 
据 块 A' 需 要 重 定 癌 到 一 个 新 位 置 上 ， 并 且 修 改 指针 指向 ， 也 就 是 修改 il 
块 中 的 指针 将 其 指 癌 A' 块 的 位 置 ， 那 么 也 束 意 味 着 ，i1 块 的 内 容 也 发 生 
了 改变 ， 变 为 i1'"， 那 么 同样 也 需要 将 il' 重 定 同 写 入 新 位 置 ， 罕 一 发 而 动 
全 身 ，i1 的 指针 变 了 ，Super Block 中 针对 原本 i1 的 指针 现在 也 需要 指向 
i1' 的 新 地 址 。i1' 中 针对 B 数 据 块 的 指针 不 变 ， 仍 然 指 问 原 B 块 地 址 。 








(4) 随后 ， 数 据 块 B 发 生 了 变更 ， 变 为 B'，B' 当 然 要 被 CoOFW，B 
的 上 一 级 间接 块 为 1 的 指针 也 要 改 ， 由 于 之 前 i1' 已 经 被 做 了 RoW， 所 以 
本 次 只 要 在 i1’ 中 将 B 的 指针 指向 B' 新 地 址 即 可 。 这 一 步 之 后 ，i1 块 及 其 
下 挂 的 数据 块 AB 只 被 快照 所 使 用 ， 而 记 及 其 下 挂 的 数据 块 CD 仍 为 活动 
文件 系统 以 及 快照 所 共享 。 


(5) 随后 ，C 发 生变 更 ， 执 行 与 之 前 相同 的 动作 ， 这 里 不 再 斤 述 。 


(6) 当 A、B、C、D 都 发 生变 更 之 后 ， 其 对 应 的 上 一 级 间接 块 也 
随 之 都 发 生 了 变更 ， 也 都 被 CoFW 了 出 去 ， 最 后 系统 形成 了 两 份 独立 的 
文件 系统 元 数据 链 及 其 指 癌 的 实际 数据 块 。 


首次 只 复制 Super Block 的 做 法 加 快 了 复制 速度 ， 使 得 快照 真 的 可 以 
被 瞬间 执行 ， 但 是 后 续 依 然 需 要 将 完整 的 元 数据 进行 COFW 或 者 
RoFW， 相 比 于 首次 复制 全 部 元 数据 链 的 模式 ， 其 实 需要 复制 的 数据 量 
长 期 来 看 是 一 样 的 ， 但 是 前 者 却 可 以 更 加 迅速 地 完成 快照 担 摄 过 程 。 





提示 : ”NetApp 公 司 的 WAFL 文 件 系统 利用 的 快照 方式 是 很 有 
特色 的 。 每 次 快照 ， 它 只 将 根 inode 复 制 并 保存 ， 而 不 保存 下 
级 链表 inode。 之 所 以 敢 这 么 做 的 原因 ， 是 因为 WAFL 从 来 不 会 
覆盖 写 入 某 个 文件 对 应 的 旧 块 。 不 论 是 元 数据 还 是 实体 数据 ， 
WAFL 统 统 写 入 到 卷 的 空闲 块 上 ( 根 节点 inode 映 射 图 位 置 恒 
定 ， 每 次 更 新 会 覆盖 写 ) 。 这 样 ， 在 只 复制 了 根 节 点 inode 之 
后 ， 由 于 下 级 链表 inode 均 不 会 被 覆 写 ， 所 以 同样 可 以 保存 瞬 
间 的 snapshot。 其 他 的 快照 实现 方式 ， 一 般 都 将 所 有 inode 复 制 
并 保存 ， 因 为 它们 的 inode 都 是 恒定 位 置 的 ， 只 能 全 部 宪 写 。 
WAFL 的 这 种 模式 相当 于 是 只 复制 根 入 口 的 RoW 注意 不 是 
RoFW) 模式 的 快照 。 











2. 其 于 物理 卷 的 快照 





对 于 基于 物理 卷 的 快照 ， 其 比 文件 系统 快照 实现 起 来 要 简单 。 因 为 
LUN 或 者 卷 一 般 在 底层 磁盘 上 的 物理 位 置 是 恒定 的 ， 而 不 像 文 件 系统 那 
样 可 以 随意 细 粒 度 地 分 布 。 正 因 如 此 ，LUN 的 映射 元 数据 链 并 不 像 文件 
系统 那样 复杂 ， 可 以 认为 LUN 的 元 数据 束 是 其 在 底层 磁盘 上 的 起 始 和 结 
束 地 址 。 











这 样 ， 在 拍照 时 ， 需 要 复制 的 元 数据 链 就 更 小 ， 是 真正 的 瞬间 完 
成 。 但 是 完成 之 后 就 难受 了 ， 需 要 按照 一 定 的 粒度 来 做 CoFW 或 者 
RoFW， 而 且 还 需要 记录 更 改 的 数据 映射 指针 ， 细 粒度 的 元 数据 指针 是 
文件 系统 的 特长 ， 现 在 就 需要 将 它 搬 到 LUN 卷 这 一 层 来 实现 了 。 对 于 某 
些 实现 了 块 级 虚拟 化 的 系统 如 NetApp、XIV、3PAR 等 ， 它 们 的 LUN 在 
底层 的 位 置 都 不 是 固定 的 ， 此 时 ，LUN 相 当 于 一 个 文件 ， 有 一 串 类 文件 
系统 的 元 数据 链 来 维护 这 些 映射 关系 。 所 以 ， 这 些 系 统 实现 快照 的 原理 
与 文件 系统 级 快照 类 似 。 








基于 物理 卷 的 快照 ， 相 当 于 给 物理 卷 增加 了 一 个 “ 卷 扇 区 映射 管理 
系统 ”。 我 们 知道 ， 卷 面 区 应 当 是 由 文件 系统 来 组 织 和 管理 的 ， 但 是 为 
了 减轻 文件 系统 负担 ， 人 们 在 底层 知 这 个 层次 实现 快照 。 知 局 区 部 是 用 
LBA 来 编号 的 ， 实 现 快照 的 时 候 ， 程 序 首先 保留 一 张 初始 LBA 表 ， 每 当 
有 新 的 写 入 请 求 的 时 候 ， 程 序 将 这 些 请 求 的 数据 写 入 另 一 个 地 方 “一 般 
古 一 个 新 着 ， 专 为 快照 保留 的 ) ， 并 在 初始 LBA 表 中 做 好 记录 ， 比 如 : 














原始 LBA: 卷 A 的 10000 号 ， 映 射 到 LBA: 卷 B 的 100 号 





以 上 映射 条 目的 产生 ， 是 由 于 有 IO 请 求 写 入 数据 到 卷 A 的 10000 号 
LBA， 由 于 做 了 快照 ， 卷 A 在 这 个 快照 被 删除 之 前 不 允许 写 入 ， 所 以 将 
这 个 写 入 请 求 的 数据 ， 重 定向 写 到 卷 B 的 100 号 LBA 扇 区 上 。 值 得 说 明 的 
是 ， 文 件 系统 不 会 感知 到 这 个 重 定向 动作 ，FS 在 它 的 映射 图 中 依然 记录 
了 卷 A 的 10000 号 LBA 地 址 而 根本 不 知道 还 有 个 卷 B。 





此 时 ， 如 果 文 件 系统 生成 了 一 个 IO 请 求 读 取 ， 或 者 写 入 卷 A 的 
10000 号 LBA 忆 区， 那么 运行 在 卷 层 的 快照 程序 便 会 查找 快照 重 定向 映 
射 表 ， 发 现 卷 A 的 10000 写 LBA 其 实 已 经 被 重 定 疝 到 了 卷 B 的 100 写 ， 然 
后 读 取 或 者 写 入 卷 B 的 100 号 扇 区 。 由 于 每 次 IO， 程 序 均 会 查找 这 份 快 


照 映 射 表 ， 上 所 以 增加 了 处 理 时 间 ， 降 低 了 一 些 性 能 。 这 种 方式 称 为 
Redirect on First Write (RoFW) ， 意 思 是 重 定 同 写 ， 也 就 是 将 更 新 的 数 
据 写 入 男 一 个 地 方 ， 原 卷 数据 丝 窜 不 动 ， 用 指针 来 记录 这 些 重 定 同 的 地 
址 。 在 利用 RoFW 方 式 做 了 快照 之 后 ， 针 对 随后 的 每 个 针对 这 个 卷 的 上 
层 IO， 程 序 都 需要 但 表 确 认 是 否 需 要 重 定 问 到 新 卷 ( 或 者 本 着 为 快照 所 
保留 的 空间 〉， 这 种 做 法 对 性 能 是 有 较 大 影响 的 ， 为 此 ， 有 人 发 明了 男 
一 种 方式 来 保存 快照 数据 。 





























快照 生成 之 后 ， 如 果 上 层 有 针对 原 卷 某 个 或 者 某 些 自 从 快照 之 后 从 
来 未 被 更 新 过 的 LBA 块 的 写 IO 请 求 ， 则 在 更 新 这 些 LBA 悄 区 之 前 ， 先 将 
原来 而 区 的 内 容 复 制 出 来 ， 放 入 一 个 空间 卷 ， 然 后 再 将 新 数据 写 入 原 
卷 。 也 就 是 说 ， 旧 数据 先 占 着 位 置 ， 等 什么 时 候 新 数据 来 了 了 ， 旧 数据 再 
让 位 ， 一旦 原 卷 某 个 LBA 的 块 在 快照 之 后 被 更 新 过 了 ， 则 以 后 再 针对 这 
个 LBA 块 的 写 IO， 可 以 直接 才 盖 ， 不 需要 提前 复制 ， 因 为 第 一 次 更 新 此 
块 的 时 候 已 经 将 原 块 数据 复制 保留 了 。 这 样 ， 原 卷 上 的 数据 随时 都 是 当 
前 最 新 的 状态 ， 所 以 针对 快照 之 后 的 每 个 上 层 IO， 不 必 再 过 有 历 映 射 表 ， 
直接 写 同 原 卷 对 应 的 地 址 ， 如 采 是 写 入 一 个 快照 之 后 从 未 被 更 新 过 的 
块 ， 则 需 提 前 将 原 块 复制 保留 ， 这 种 方式 称 为 CoFW 《其 实 应 当 叫 做 
Copy on First Write， 见 下 文 )， 写 前 复制 。 




















在 “ 照 ? 下 了 这 一 时 刻 卷 上 的 数据 之 后 ， 为 了 保险 起 见 ， 最 好 对 那个 
时 刻 的 数据 做 一 个 备份 ， 也 残 是 将 快照 对 应 的 数据 复制 到 力 外 的 磁盘 或 
者 磁 珊 中 。 如 果 不 备份 快 照 ， 那 么 一 旦 卷 数据 有 所 损毁 ， 快 照 的 数据 也 
不 复 存在 ， 因 为 快照 与 当前 数据 是 共享 LBA 书 区 的 《如 果 没 有 更 新 原 郑 
而 区 的 话 ) 。 








3.，RoFW 方 式 与 CoFEW 方 式 比 较 


不 管 是 CoFW 还 是 RoFW， 只 要 上 层 向 一 个 在 快照 之 后 从 来 没 被 更 
新 过 的 数据 块 进行 号 IO 更 新 ， 这 个 IO 块 就 要 占用 新 卷 上 的 一 个 块 《〈《 因 为 
要 保留 原 块 的 内 容 ， 不 能 被 覆盖 ) ， 如 果 上 层 将 原 卷 上 的 所 有 扇 区 块 都 
更 新 了 ， 那 么 新 卷 的 容量 就 需要 和 原 卷 的 数据 量 同样 大 才 可 以 。 但 是 通 
常 应 用 不 会 写 履 盖 面 百分之百 ， 做 快照 的 时 候 ， 新 卷 的 容量 一 般 设 置 成 
原 卷 容量 的 30% 就 可 以 。 它 是 一 个 经 验 值 ， 当 然 要 根据 有 具体 业务 场景 来 
判断 具体 值 。 











CoFW 方 式 下 ， 快 照 生 成 之 后 ， 如 果 上 层 需 要 更 新 一 个 从 来 没有 被 
更 新 过 的 块 ， 则 系统 首先 将 这 个 源 块 读 出 ， 再 将 其 写 入 到 新 卷 ， 然 后 将 
更 新 的 数据 块 内 容 履 盖 写 入 到 原 卷 对 应 的 块 ， 需 要 三 步 动 作 : 一 次 读 和 
两 次 写 。RoFW 方 式 下 ， 同 样 的 过 程 只 需要 一 次 写 入 即 可 ， 也 就 是 将 更 
新 数据 直接 写 入 到 新 卷 ， 同 时 更 新 映射 图 中 的 指针 《内存 中 进行 ) 。 所 
以 RoFW 相 对 CoFW 方 式 在 IO 资源 消耗 与 IO 延迟 上 有 优势 。 





由 于 只 是 在 首次 履 关 号 的 时 候 才 会 发 生 Copy 或 者 Redirect， 那 么 如 
何 区 分 某 个 写 IO 针 对 的 块 是 首次 被覆 新 还 是 之 前 已 经 被 覆 新 过 ?这 需要 
有 一 个 记录 表 〈 文 件 级 快照 ) 或 者 位 图 〈 卷 级 快照 ) 来 记录 每 个 块 是 否 
被 覆盖 过 。 


提示 : 对 于 卷 级 快照 ， 可 以 使 用 位 图 来 充当 这 个 角色 ， 因 为 
源 卷 块 地 址 是 连续 固定 的 ， 已 经 被 履 盖 过 或 者 重 定 同 写 过 的 可 
以 对 应 1; 未 被 履 盖 则 对 应 0。 针 对 每 个 写 IO 可 以 移 查 询 这 个 IO 
的 目标 地 址 对 应 的 位 ， 如 果 为 1 则 表示 已 处 理 过 ， 则 直接 写 
入 ; 如 果 为 0 则 表示 尚未 被 处 理 ， 需 要 先 执行 COFW 或 者 
RoFW 。 











不 管 是 CoFW 还 是 RoFW 模 式 下 ， 对 于 每 个 上 层 写 IO， 由 于 都 必须 


志 历 一 下 这 个 映射 表 《〈 位 图 ) ， 以 便 确定 此 IO 请 求 的 LBA 或 者 文件 地 址 
是 否 已 被 CoFW 或 者 RoFW 处 理 过 ， 从 而 做 出 相应 动作 。 而 对 于 读 IO， 
CoFW 模 式 下 由 于 源 卷 或 者 源 文件 系统 总 是 代表 当前 最 新 的 状态 ， 所 以 
任何 读 IO 都 会 直接 被 下 发 到 源 来 执行 ， 也 就 是 直接 从 源 读 出 ， 而 对 于 
RoFW 模 式 ， 则 必须 也 查询 这 个 映射 表 或 者 位 图 来 查看 读 IO 目标 地 址 是 
否 被 处 理 过 ， 如 果 是 ， 则 转向 重 定 疝 之 后 的 地 址 读 ;， 如 果 没 有 ， 则 直接 
下 发 到 源 中 来 读 出 数据 块 。 











RoFW 会 影响 读 性 能 。RoFW 模 式 的 快照 生成 之 后 ， 甚 至 将 全 部 快 
照 删 除 之 后 ， 不 好 清理 战场 ， 都 会 影响 后 续 的 所 有 读 和 写 的 性 能 ， 后 遗 
症 明显 。 因 为 重 定 同 写 出 去 之 后 ， 数 据 块 的 排 布 都 是 乱 的 ， 这 样 的 话 ， 
就 会 严重 影响 后 续 读 写 性 能 。 而 CoFW 模 式 下 ， 源 卷 总 是 最 新 时 刻 的 影 
像 ， 删 除 快照 之 后 战场 自动 清理 ， 没 有 任何 后 遗 症 。 











所 以 综合 来 讲 ，RoFW 比 较 吃 计算 资源 《后 续 的 读 操作 由 于 连续 变 
随机 ， 也 会 很 吃 资 源 ， 有 永久 性 后 遗 症 ) ， 而 CoFW 比 较 吃 IO 资源 。 此 
外 ， 还 必须 考虑 一 点 ， 就 是 CoFW 动 作 一 般 并 不 会 永远 都 高 频率 地 发 
生 ， 对 于 一 个 特定 文件 系统 或 者 卷 ， 总 有 一 些 区 域 是 热点 ， 也 就 是 应 用 
程序 总 有 趋势 只 频繁 访问 和 更 新 某 些 地 址 ， 这 与 应 用 程序 业务 逻辑 有 
关 。 














这 样 的 话 ， 妆 被 禾 盖 第 二 次 以 及 之 后 ，CoFW 模 式 就 不 会 再 发 生 IO 
惩 天 ， 而 读 IO 一 直 都 没有 征召 ， 此 时 只 剩 下 每 次 写 IO 时 的 映射 表 / 位 图 
志 历 过 程 ， 会 消耗 一 定 的 计算 资源 ;那么 对 于 RoFW 模 式 ， 就 算 全 部 源 
文件 系统 或 者 源 卷 的 数据 块 都 被 Redirect 过 了 ， 那 么 虽然 整个 过 程 中 不 
产生 任何 惩罚 IO， 但 是 针对 每 个 读 或 者 写 IO， 也 就 是 每 个 ID， 不管 读 
写 ， 均 需要 通 历 映 射 表 / 位 图 ， 永 远 无 法 摆脱 对 计算 资源 的 消耗 。 








尤其 是 对 LUN 疮 级 的 快照 下 ， 原 本 卷 在 奔 层 磁盘 上 的 分 布 是 很 简单 
且 定 死 的 ， 所 以 寻 址 就 非常 迅速 ， 但 是 RoFW 模 式 的 快照 引入 之 后 ， 
LUN 中 的 块 会 被 随机 的 重 定向 写 出 到 另外 的 空间 ， 这 样 一 方面 需要 记录 
比 原 本 复杂 得 多 的 元 数据 指针 链 ， 降 低 了 寻 址 速度 〈 这 一 点 对 于 文件 系 
统 级 快照 表现 的 还 不 是 很 明显 ， 因 为 文件 系统 元 数据 链 本 来 就 很 复 
杂 ) ; 男 一 方面 这 些 被 写 出 的 块 不 一 定 是 按照 与 源 LUN 相 同 的 物理 上 连 
续 排 列 的 ， 这 样 在 连续 IO 情 况 下 便 会 产生 严重 性 能 下 降 (这 一 点 不 管 是 
对 文件 级 还 是 LUN 卷 级 快照 ， 影 响 部 是 很 明显 的 ， 因 为 文件 系统 内 的 文 
件 一 般 也 是 尽量 物理 上 连续 存放 的 ) 。 




















这 一 点 相对 于 CoFW 模 式 就 逊色 很 多 了 。 所 以 ， 绝 大 多 数 广 商 还 是 
使 用 CoFW 方 式 来 做 快照 。 但 是 对 于 一 些 本 来 就 使 用 LUN 随 机 分 块 分 布 
模式 的 存储 系统 比如 NetApp 和 IBM 的 XIV， 它 们 使 用 的 就 都 是 RoFW 模 
式 。 显 然 ， 原 本 其 LUN 的 元 数据 链 就 很 复杂 ， 再 加 上 原本 就 是 一 种 随机 
分 布 ， 所 以 RoFW 的 后 遗 症 对 于 它们 来 讲 反 而 是 正常 现象 了 。 








此 外 ， 不 管 是 CoFW 还 是 RoFW 模 式 ， 比 如 某 个 IO 是 64KB 大 小 ， 那 
么 此 时 你 就 要 重 定向 这 64KB 或 者 CoFW 出 原来 的 64KB 到 另外 空间 ， 如 
果 某 时 刻 某 IO 是 4KB 大 小 ， 那 么 你 就 要 去 重 定向 这 4KB 或 者 CoFW 出 原 
来 的 4KB 数 据 到 额外 空间 ， 粒 上 度 不 同 ， 占 据 空 间 不 同 ， 元 数据 指针 长 度 
也 就 不 同 ， 这 会 导致 算法 更 加 复杂 。 











解决 的 办 法 是 固定 一 个 粒度 ， 比 如 就 用 64KB， 如 果 某 个 IO 写 为 
4KB， 在 RoFW 模 式 下 ， 则 可 以 将 这 4KB 目 标 地 址 所 落 入 的 那 64KB 的 数 
据 块 读 出 ， 然 后 将 4KB 的 新 内 容 在 内 存 中 覆盖 到 这 64KB 中 对 应 的 地 址 
上 ， 然 后 再 将 更 新 后 的 这 64KB 重 定向 到 另外 的 空间 ， 以 后 再 有 针对 这 
64KB 目标 块 的 号 入 ， 则 直接 覆盖 写 到 重 定向 之 后 的 空间 ， 在 CoFW 模 式 
下 ， 则 直接 读 出 原来 的 64KB 写 到 额外 空间 后 ， 直 接 将 新 的 4KB 宪 盖 到 





源 卷 对 应 地 址 ， 之 后 再 有 针对 源 卷 的 这 64KB 地 址 范围 内 的 写 操作 时 ， 
就 无 须 再 COFW 了 《当然 如 条 又 做 了 一 次 快照 ， 那 就 妃 当 别论 了 ) 。 


这 么 做 的 优势 是 ， 剩 余 空 间 内 可 以 以 一 个 固定 粒度 来 占据 空间 ， 而 
不 是 一 会 4KB， 一 会 32KB 无 序 地 乱 放 ， 这 样 就 可 以 降低 元 数据 指针 的 
复杂 度 和 无 序 度 ， 提 高 查询 效率 。 相 对 没有 什么 劣势 ， 虽 然 首次 复制 数 
气量 增加 ， 但 是 却 可 以 简化 后 续 的 每 个 IO 都 要 复制 所 引发 的 持续 性 延迟 
升 高 ， 一 次 做 完 还 是 不 又 不 慢 地 做 ， 这 种 情况 下 还 是 选择 前 者 比较 好 。 
后 文中 会 有 详细 的 设计 例子 来 论述 这 两 种 方式 的 区 别 。 








卷 级 的 快照 ， 仿 佛 就 是 增加 了 一 个 “ 郑 块 映射 系统 ”， 其 作用 与 文件 
系统 大 同 小 异 ， 只 不 过 文件 系统 处 理 的 是 文件 名 和 块 的 映射 关系， 
而 “ 卷 块 映射 系统 ?处理 的 是 块 与 块 的 映射 和 关系。 后 者 的 元 数据 比 前 者 简 
单 得 多 ， 也 好 处 理 得 多 ， 粒 度 也 大 很 多 。 





4. 快照 的 意义 和 作用 





提示 : ”快照 所 冻结 下 来 的 卷 数 据 ， 无 异 于 一 次 意外 掉 电 之 后 
卷 上 的 数据 。 为 什么 这 么 说 呢 ? 





我 们 可 以 比较 一 下 ， 意 外 断 电 同样 是 保持 了 断 电 所 处 时 间 点 上 的 卷 
数据 状态 。 我 们 知道 ， 不 管 是 上 层 应 用 ， 还 是 文件 系统 ， 都 有 自己 的 组 
存 ， 文 件 系统 绥 存 的 是 文件 系统 元 数据 和 文件 实体 数据 。 并 不 是 每 次 数 
据 的 交互 ， 都 同步 保存 在 磁盘 上 ， 它 们 可 以 暂时 保存 在 内 存 中 ， 然 后 每 
隔 一 段 时 间 (比如 某 些 版 本 的 Linux 系 统 默认 为 30 秒 〉， 批 量 Flush 到 磁 
盘 上 。 当 然 编 程 的 时 候 也 可 以 将 每 次 对 内 存 的 写 ， 都 Flush 到 人 磁盘， 但 
是 这 样 做 效率 和 速度 打 了 折扣 。 而 且 当 Flush 到 磁盘 的 时 候 ， 并 不 是 只 
做 一 次 IO， 在 数据 量 大 时 会 对 磁盘 做 多 次 IO 。 如 果 快 照 生成 的 时 间 恰 恰 




















在 这 连续 的 IO 之 间 生 成 ， 那 么 此 时 卷 上 的 数据 ， 实 际 上 有 可 能 不 一 致 。 


磁盘 IO 是 原子 操作 (Atomic ”Operation) ， 而 上 层 的 一 次 事务 性 操 
作 ， 可 以 对 应 底层 的 多 次 原子 操作 。 这 其 中 的 一 次 原子 操作 没有 业务 意 
义 ， 只 有 上 层 的 一 次 完整 的 事务 操作 ， 才 有 意义 。 所 以 如 果 恰 好 在 一 个 
事务 操作 对 应 的 多 个 原子 操作 的 中 间 生 成 快照 ， 那 么 此 时 的 快照 数据 ， 
就 是 不 完整 的 ， 不 一 致 的 。 


文件 系统 的 机 制 总 是 先 写 入 文件 的 实体 数据 到 磁盘 ， 文 件 的 元 数据 
暂 不 写 到 磁盘 ， 而 是 先 保存 于 缓存 中 。 这 种 机 制 是 考虑 到 一 些 意外 事 
件 ， 如 果 FS 先 把 元 数据 写 入 磁盘 ， 而 在 准备 写 入 文件 实体 数据 的 时 候 ， 
突然 断 电 了 了， 那么 此 时 磁盘 上 的 数据 是 这 么 一 个 状态 : FS 元 数据 中 有 这 
个 文件 的 信息 ， 但 是 实体 数据 并 没有 修 写 入 对 应 的 而 区 ， 那 么 这 些 对 应 
的 僵尸 忆 区 上 原来 的 数据 便 会 被 认为 就 是 这 个 文件 的 数据 ， 显 然后 宁 不 
堪 设 想 。 











所 以 FS 一 定 古 先 写 入 文件 实体 数据 ， 完 成 之 后 再 批量 将 元 数据 从 组 
存 中 Flush 到 磁盘 。 如 果 在 实体 数据 写 入 磁盘 ， 而 元 数据 还 没有 写 入 磁 
盘 之 前 断 电 ， 那 么 虽然 此 时 文件 实体 数据 在 磁盘 上 ， 但 是 元 数据 没有 在 
磁盘 上 ， 也 就 是 说 虽然 有 你 这 个 人 存在 ， 但 是 你 没有 号 份 证 ， 那 么 你 惑 
不 能 公开 地 进行 社会 活动 ， 因 为 你 不 是 这 个 国家 的 公民 。 虽 然 文件 系统 
这 么 做 ， 会 丢失 数据 ， 但 是 总 比 癌 应 用 提交 一 份 驴 唇 不 对 马 嘴 的 数据 
强 ! 





实验 : 就 拿 Windows 来 说 ， 首 先 创建 一 个 文件 ， 并 在 创建 好 的 
有 瞬间， 立即 断 电 ， 重 局 之 后 ， 会 友 现 刚才 创建 的 文件 没 了 ， 或 
者 复制 一 个 文件 ， 完 成 后 立即 断 电 ， 重 局 之 后 也 会 发 现 ， 复 制 
的 文件 不 见 了 ， 为 什么 ?明明 创建 好 的 文件 ， 复 制 好 的 文件 ， 





为 什么 断 电 重启 就 没 了 呢 ? 原因 很 简单 ， 因 为 断 电 的 时 候 ，FS 
还 没有 把 元 数据 Flush 到 磁盘 上 ， 此 时 文件 实体 收据 虽然 还 
在 ， 但 是 元 数据 中 没有 ， 那 么 当然 看 不 到 它 了 。 


总 之 ， 快 照 极 有 可 能 生成 一 份 存在 不 一 致 的 卷 数据 。 既 然 这 样 为 何 
还 要 使 用 快照 呢 ? 因为 相对 于 停机 备份 ， 人 们 更 接受 使 用 快照 来 备份 数 
据 ， 即 使 快照 可 能 带 来 数据 不 一 致 。 但 停机 备份 所 带 来 的 损失 ， 对 于 基 
些 关键 应 用 来 说 是 不 可 估量 的 ， 而 快照 只 需要 几 秒 钟 即 可 完成 ， 应 用 只 
需 静 默 几 秒 钟 的 时 间 。 文 件 系统 或 者 卷 擅 自 将 IO 先 存放 到 队列 中 ， 等 竺 
快照 完成 后 ， 再 继续 执行 。 然 后 可 以 随时 将 这 份 快照 对 应 的 数据 复制 册 
来 ， 形 成 备份 。 


使 用 快照 必须 承担 数据 不 一 致 的 风险 。 也 可 以 这 么 形容 : 快照 可 以 
让 你 不 用 “意外 磁盘 掉 电 ?， 就 能 获得 一 个 时 间 点 瞬间 磁盘 备份 ， 虽 然 数 
据 此 时 是 不 一 致 的 。 快 照 可 以 任意 生成 ， 而 占用 的 空间 又 不 会 很 大 《〈 随 
原 卷 数 据 改 动 多 少 而 定 ) ， 最 重要 的 是 ， 利 用 快照 可 以 做 在 线 快 速 恢 
复 ， 只 要 快照 没有 删除 ， 恢 复 也 同样 仅仅 需要 几 秒 钟 时 间 ， 与 快照 生成 
的 道理 一 样 ， 不 用 停机 。 因 为 利用 快照 恢复 数据 的 时 候 ， 只 要 在 内 存 中 
做 一 下 IO 重 定 向 ， 那 么 上 层 IO 访 问 的 ， 就 立即 变 成 了 以 前 时 间 点 的 数据 
了 。 这 是 快照 的 作用 之 一 ， 即 快速 恢复 ， 不 管 源 卷 数据 量 有 多 大 ， 即 便 
是 几 TB， 人 恢复 到 指定 时 间 点 状态 也 只 需要 数秒 钟 ， 因 为 无 顷 复制 过 
程 ， 只 需 重 定向 MetaData。 











快照 可 能 不 一 致 这 个 问题 ， 也 不 是 不 能 解决 。 既 然 快照 无 异 于 一 次 
磁盘 掉 电 ， 那 么 ， 利 用 快照 恢复 数据 之 后 ， 文 件 系统 可 以 进行 一 致 性 检 
碍 从 而 纠正 错误 。 数 据 库 管理 系统 也 同样 会 利用 其 日 志 来 使 得 数据 文件 
最 终 处 于 一 致 状态 。 





男 外 ， 现 在 几乎 所 有 的 快照 的 解决 方案 ， 都 是 在 主机 上 安装 一 个 代 
理 软件 ， 当 在 存储 设备 上 执行 快照 之 前 ， 代 理 软 件 会 通知 应 用 或 者 文件 
系统 将 绥 存 中 的 数据 全 部 Flush 到 和 磁盘， 然后 立即 生成 快照 ， 这 样 快照 
的 一 致 性 就 得 到 了 保护 。 快 照 的 管理 和 创建 也 都 是 使 用 这 个 代理 程序 界 
面 完 成 ， 代 理 程序 会 与 存储 设备 进行 通信 以 便 传输 指令 和 查询 信息 。 除 
了 文件 系统 代理 之 外 ， 还 有 各 种 应 用 系统 代理 ， 比 如 Oracle、SQL 
Server 等 ， 这 些 代 理 在 存储 层 触发 Snapshot 之 前 会 与 对 应 的 应 用 程序 通 
信和 通知 应 用 程序 将 绥 存 中 的 内 容 写 到 磁盘 ， 从 而 达到 底层 数据 的 一 致 
性 。 如 图 16-5 所 示 ， 左 右 侧 分 别 为 一 个 Oracle 和 SQL ”Server 的 代理 程序 
配置 界面 。 











图 16-5 Agent 配 置 界 面 























对 于 文件 系统 级 的 快照 ， 应 用 程序 可 以 直接 在 操作 系统 中 看 到 快 
照 ， 可 以 直接 读 取 这 份 快照 中 的 文件 。 而 对 于 卷 级 的 快照 ， 只 有 存储 设 
备 目 己 可 以 管理 ， 操 作 系统 对 此 一 无 所 知 。 








对 卷 做 快照 之 后 ， 一 旦 原先 的 数据 块 被 更 改 / 敌 盖 ， 则 这 些 块 要 么 
在 写 入 前 被 复制 出 来 ， 要 么 原 地 锁 住 不 动 ， 新 数据 重 定 问 写 到 空闲 区 
域 。 总 之 ， 这 两 种 情况 下 ， 系 统 内 整体 空余 空间 都 要 被 额外 数据 占用 而 
减 小 。 














然而 ， 如 果 对 某 个 块 进行 二 次 更 改 / 敢 盖 ， 则 可 以 直接 在 这 些 新 块 
之 上 进行 操作 而 不 需要 写 前 复制 或 者 再 次 章 定 癌 写 入 ， 除 非 在 第 一 次 更 
改 / 绑 盖 和 第 二 次 之 间 又 创建 了 一 个 或 者 多 个 快照 。 所 以 CoFW 其 实 应 当 
叫做 Copy On First Write 更 加 ;准确 一 些 。 








提示 : “如果 将 原来 的 数据 块 删除 了 ， 在 已 经 做 了 快照 的 情况 


下 ， 系 统 将 做 出 什么 行为 ? 删除 原 块 对 应 的 行为 其 实 是 在 文件 
系统 的 inode ”tree 中 将 对 应 的 指针 消除 ， 表 现 为 更 改 / 攻 盖 对 应 
inode 所 在 的 块 ， 所 以 不 管 删 除 多 大 的 文件 ， 也 只 有 对 应 的 
inode 块 被 更 改 / 履 盖 ， 补 删除 数据 依然 存在 于 磁盘 上 。 然 而 这 
些 数据 对 应 的 块 在 当前 活动 文件 系统 下 的 簇 位 图 中 己 经 被 标记 
为 空闲 块 了 ， 此 时 一 旦 又 有 新 数据 被 退 加 写 入 到 这 些 空闲 块 ， 
那么 依然 会 被 重 定 同 或 者 写 前 复制 。 











使 用 快照 功能 之 前 必须 首先 评估 数据 源 IO 行 为 ， 随 着 履 盖 写 入 几率 
的 增加 ， 系 统 中 可 使 用 的 空闲 空间 的 数量 也 将 随 之 增加 。 实 际 情况 中 ， 
文件 被 履 盖 写 入 的 几率 一 般 不 高 ， 比 较 高 的 是 Create 十 Write、Delete、 
Rename、Open、Read、Truncate、Append 等 操作 ， 其 中 Delete、 
Rename、Truncate 操 作 会 导致 Snapshot 占 用 额外 空间 ， 而 这 其 中 Delete 和 
Truncate 会 导致 被 删除 文件 本 身 与 其 inode 的 block 都 占用 额外 空间 ， 
Rename 只 会 导致 对 应 jnode block 占 用 额外 空间 。Create 十 Write 操作 如 采 

- 旦 敌 盖 了 旧 块 ， 那 么 同样 也 会 占用 额外 空间 。 





快照 的 另外 一 个 非常 重要 的 意义 和 作用 ， 就 是 预防 数据 的 逻辑 上 的 
损坏 。 所 谓 逻 辑 上 的 损坏 ， 比 如 T1 时 刻 对 某 卷 做 了 Snapshot，T2 时 刻 ， 
管理 员 操作 不 当 ， 误 删除 了 此 卷 上 的 某 个 非常 重要 的 文件 ， 但 是 自己 没 
有 察觉 。T3 时 刻 ， 备 份 管理 员 对 这 个 卷 进 行 了 全 备份 操作 ， 并 且 之 前 的 
备份 已 经 被 抹 抒 。 此 时 ， 这 个 非常 重要 的 文件 ， 看 似 是 永 久 丢 失 了 。 其 
实 不 然 ，T1 时 刻 ， 也 就 是 这 个 文件 尚 存在 于 此 卷 的 时 刻 ， 管 理 员 做 了 一 
次 Snapshot， 则 可 以 从 这 份 Snapshot 中 将 这 个 文件 恢复 。 同 理 ， 如 果 T2 
时 刻 ， 此 卷 被 大 量 病毒 感染 ， 中 毒 已 深 无 可 救 药 ，Snapshot 此 时 便 是 救 
命 稻 草 ， 用 Snapshot 将 这 个 卷 恢复 到 Tl 时刻， 几 秒 钟 后 ， 病 毒 全 部 消 
失 。 











另外 ， 快 照 可 以 降低 一 致 性 备份 的 窗口 ， 假 如 没有 快照 技术 ， 如 果 
想 对 茶 个 卷 进行 一 致 性 备份 ， 则 需要 暂停 上 层 应 用 程序 的 写 IO 操作 ， 等 
待 备份 程序 将 这 个 卷 的 所 有 数据 块 全 部 复制 完成 之 后 ， 应 用 程序 方 可 对 
此 卷 进行 写 操作 。 这 显然 是 不 可 接受 的 ， 所 以 如 果 没 有 快照 技术 ， 单 纯 
对 卷 进行 一 致 性 备份 的 话 ， 备 份 窗口 将 会 非 第 长 。 而 如 果 对 这 个 吞 触发 
一 份 一 致 性 快照 〈 引 入 应 用 程序 快照 代理 ) ， 然 后 立即 允许 上 层 写 IO， 
之 后 在 后 合 备份 这 份 快照 对 应 的 所 有 卷 数据 ， 这 样 就 会 大 大 降低 对 应 用 
程序 的 影像 ， 而 且 由 于 无 须 考 虑 对 当前 系统 IO 的 影像 ， 还 可 以 提高 备份 
速度 从 而 降低 备份 窗口 。 

















其 次 ， 在 备份 完 数据 之 后 ， 如 何 检测 这 份 数据 是 否 真 的 是 一 致 的 ? 
征 否 用 其 恢复 之 后 ， 应 用 程序 可 以 正常 局 动 并且 处 理 它 们 呢 ? 如 果 没 有 
快照 技术 ， 则 要 实现 这 个 目的 ， 我 们 需要 先 将 备份 的 数据 恢复 到 一 个 独 
芯 的 物理 空间 上 ， 人 然后 将 其 挂 载 到 另外 一 台 机 需 ， 在 这 合 机 器 上 局 动 对 
应 的 应 用 程序 对 数据 进行 检测 ， 费 时 费力 。 有 了 快照 就 不 同 了 ， 人 快照 生 
成 之 后 ， 在 备份 这 份 快 照 数 据 的 同时 ， 还 可 以 将 快照 直接 挂 载 到 另外 的 
主机 ， 避 免 了 最 慢 的 一 步 ， 也 瓯 是 数据 物理 恢复 导入 的 过 程 ， 大 大 节约 
了 时 间 和 成 本 。 








提示 : ”目前 几乎 所 有 厂商 的 存储 产品 都 可 以 实现 快照 ， 这 似 
乎 成 了 一 个 不 成 文 的 行业 标准 ， 不 能 实现 快照 的 产品 无 法 在 市 
场 上 生存 。 目 前 市 场 上 也 有 很 多 基于 NTFS 文 件 系 统 的 第 三 方 
独立 快照 管理 软件 ， 例 如 “还 原 精 灵 ” 等 ， 它 们 都 是 非常 优秀 的 
基于 NTFS 文 件 系统 的 快照 管理 软件 。 这 些 软件 的 作用 方式 一 
般 是 将 自己 的 程序 入 口号 入 MBR， 系 统 引导 初期 会 首先 加 载 
这 些 程序 ， 开 机 之 后 始终 在 操作 系统 下 层 运行 ， 这 样 束 可 以 肆 
无 尽 习 地 接管 操作 系统 对 NTFS 文 件 系 统 的 所 有 操作 。 在 这 个 


基础 上 ， 程 序 可 以 实现 文件 系统 的 快照 以 及 管理 这 些 快 照 。 
5. 如 何 管理 和 使 用 快照 


以 上 论述 了 Snapshot 的 原理 和 作用 ， 本 节 我 们 将 曾 述 一 份 Snapshot 
是 如 何 具体 被 使 用 的 ， 即 生成 了 Snapshot 之 后 ， 系 统 如 何 管理 和 使 用 它 
们 。 


我 们 知道 ，Snapshot 是 文件 系统 或 者 卷 管理 系统 的 映射 指针 链 在 某 
时 刻 的 存根 。 现 在 的 存储 系统 一 般 都 支持 对 某 个 卷 做 多 份 Snapshot， 比 
如 16 份 、256 份 ，IBM 公 司 的 XIV 产 品 甚 至 可 以 超过 60000 份 。 每 个 厂家 
实现 Snapshot 的 方式 都 不 尽 相 同 ， 底 层 对 应 的 数据 结构 也 不 同 ， 但 均 需 
要 维护 指针 映射 关系 。 











比如 ， 有 的 三 家 在 文件 系统 总 入 口 处 设立 多 个 Slot 用 以 存放 二 级 指 
针 以 便 指 同 所 有 Snapshot 的 一 级 入 口 ，Slot 的 数量 决定 了 可 以 保存 
Snapshot 的 数量 ， 顺 着 每 个 Snapshot 的 入 口 裔 历 下 去 就 会 得 到 整个 文件 
系统 的 MetaData。 有 的 厂家 则 在 每 个 inode 中 增加 了 Slot 来 表明 这 个 inode 
属于 哪些 Snapshot， 整 个 文件 系统 只 有 一 个 入 口 ， 通 过 inode 中 的 这 些 
Slot 来 遍历 所 有 Snapshot。 有 的 厂家 则 尽量 简化 结构 ， 用 带 外 的 方式 创 
建 一 个 独立 的 映射 关系 表 ， 一 旦 茶 个 Block 将 被 覆 站 ， 则 将 对 应 的 inode 
等 MetaData 信 息 复制 到 这 张 表 中 随时 备查 。 各 家 的 实现 和 管理 Snapshot 
:ep 








Snapshot 对 外 表现 为 一 个 虚拟 的 卷 ， 一 般 可 以 在 存储 系统 的 管理 界 
面 中 看 到 ， 比 如 物理 卷 图 标 下 面 列 出 所 有 Snapshot 卷 ， 或 者 用 命令 行 方 
式 来 列 出 Snapshot， 比 如 ，“snaplist ”volume1”， 当 然 命 令 只 是 乱 猜 一 个 
罢了 。 每 当 点 开 图 形 界 面 或 者 用 命令 行 来 查看 Snapshot 列 表 的 时 候 ， 命 


令 的 执行 会 触发 存储 系统 检索 整个 文件 系统 的 Snapshot 链 来 查询 当前 
Snapshot 的 情况 ， 并 将 结果 向 外 输出 。 所 以 每 次 查看 Snapshot 列 表 ， 是 
需要 耗 络 一 点 时 间 的 ， 通 常 不 会 很 慢 ， 延 迟 在 几 秒 钟 之 内 。 图 16-6 所 示 
为 通过 运行 在 主机 上 的 代理 程序 所 列 出 的 Snapshot 列 表 。 








图 16-6 ”快照 列表 








生成 的 Snapshot 有 两 种 使 用 方式 ， 各 个 厂家 在 使 用 方法 上 大 同 小 
异 。 一 种 是 直接 在 存储 设备 上 利用 某 卷 某 时 刻 的 Snapshot 恢 复 该 卷 〈 比 
如 命令 “Snaprestore Snap1 volumel”) 。 当 然 ， 恢 复 的 时 候 一 定 要 将 这 个 
卷 unhmap， 或 者 在 主机 端 将 其 unmount、varyoff 或 offline。 人 否则 主机 端正 
在 使 用 的 情况 下 ， 存 储 端 “擅自 ”做 Restore 之 后 ， 主 机 端 文件 系统 缓存 内 
的 数据 会 履 盖 挥 restore 之 后 的 数据 ， 导 致 FS 不 一 致 。Restore 之 后 ， 主 机 
重新 挂 载 这 个 卷 ， 看 到 的 就 会 是 以 前 的 Snapshot 对 应 的 内 容 了 。 整 卷 
Restore 目 前 来 讲 用 的 不 太 普遍 ， 毕 竞 发 生 整 卷 级 别 数据 丢失 或 者 逻辑 错 
误 的 情况 还 是 少数 。 用 的 最 多 的 是 第 二 种 方式 ， 即 主机 单独 挂 载 某 卷 某 
时 刻 的 Snapshot， 恢 复 其 中 某 个 或 者 某 些 文件 。 








如 图 16-7 所 示 ， 在 代理 程序 界面 中 有 Disk1 的 30 个 Snapshot， 右 击 
25， 从 弹出 的 快捷 菜单 中 单 击 Mount Snapshot 命 令 ， 之 后 Mounted 状 态 栏 
显示 "Yes”， 表 明 这 个 Snapshot 已 经 被 成 功 地 Mount 到 了 主机 端 。 


图 16-7“ 挂 载 快 照 





如 网 16-8 所 示 ， 此 时 ， 打 开 “ 我 的 电脑 ”， 会 出 现 一 个 新 挂 载 的 盘 
符 ， 其 中 的 内 容 便 是 Disk1 在 对 应 时 刻 的 快照 中 的 内 容 。 找 到 需要 恢复 
的 文件 ， 将 其 复制 到 源 卷 即 可 。 完 成 之 后 ， 在 代理 界面 中 将 其 Umount 
即 可 。 被 挂 载 的 快照 卷 ， 只 是 一 份 幻像 ， 因 为 Snapshot 中 的 内 容 与 源 卷 


是 奶 明 相关 的 ， 一 旦 源 卷发 生 底 层 错误 ， 则 其 上 的 Snapshot 也 保 不 住 ， 
所 以 ， 将 Snapshot 挂 载 之 后 ， 可 以 用 备份 软件 备份 下 来 用 以 保存 实体 数 
据 到 另外 的 介质 ， 比 如 其 他 磁盘 ， 或 者 磁 市 。 


图 16-8 ”新 盘 符 








同 理 ， 可 以 挂 载 所 有 的 快照 到 主机 ， 而 不 会 影响 源 卷 的 读 写 访问 。 
当然 ， 这 些 快 照 此 时 都 是 只 读 的 。 要 想得到 一 份 可 读 并 且 也 可 写 的 
Snapshot， 由 另 一 种 技术 来 实现 ， 叫 做 “ 卷 Clone”。 


6. 一 些 针 对 快照 的 高 级 优化 技术 
快照 技术 已 经 并 不 是 多 么 高 端的 技术 了 。 近 年 来 ， 国 内 多 家 科研 院 


所 或 者 企业 都 在 着 力 研 究 如 何 提高 快照 效率 ， 降 低 快 照 生成 之 后 源 卷 的 
写 惩 昼 ， 也 已 丝 有 多 项 专利 登记 在 案 。 








比如 茶 专 利 ， 其 提供 了 一 种 快照 空间 的 动态 扩容 方法 ， 首 先 在 逻辑 
卷 的 卷 组 空间 中 分 配 一 快照 空间 ， 以 创建 快照 ， 并 且 在 对 逻辑 卷 有 数据 
写 入 请 求 时 ， 比 对 快照 空间 的 总 容量 与 快照 空间 的 当前 保存 数据 量 ， 以 
得 到 表示 快照 空间 的 剩余 容量 大 小 的 差 值 ， 检 查 差 值 是 否 小 于 一 默认 
值 ， 当 差 值 小 于 默认 值 时 ， 从 卷 组 空间 中 划分 一 容量 空间 ， 以 通过 由 标 
准 扩容 算法 对 快照 空间 进行 容量 扩展 。 








比如 茶 专 利 ， 其 提供 了 一 种 缩短 写 时 复制 快照 号 啊 应 时 间 的 方法 ， 
预先 将 存储 系统 的 整个 存储 空间 分 为 源 数 据 区 和 快照 区 ， 源 数据 区 存放 
主机 访问 请 求 的 数据 ， 快 照 区 存放 雷 快 照 保存 的 数据 ， 设 定 快照 块 大 
小 ， 构 造 快照 链表 头 和 快照 索引 结构 根 节点 ， 快 照 链 表 保 存 所 有 快照 元 
数据 ， 快 照 索引 结构 用 于 判断 相应 数据 块 是 否 已 保存 在 快照 区 ， 当 接收 








到 主机 发 送 过 来 的 写 请 求 时 ， 顺 序 进 行 下 述 步 又 。 


(1) 根据 设 定 的 快照 块 大 小 ， 将 写 请 求 数据 依据 其 起 始 地 址 和 长 
度 进行 分 块 ; 

(2) 以 每 个 分 块 写 为 关键 字 在 快照 索引 结构 中 进行 查找 ， 基 已 存 
在 ， 转 步骤 08) ,否则 顺序 进行 ; 


(3) 判断 快照 区 是 否 有 足够 的 剩余 空间 ， 古 则 转 步 又 《5) ， 人 否则 
顺序 进行 ; 





(4) 自动 删除 快照 区 中 存在 时 间 最 久 的 一 个 快照 ， 并 更 新 快照 区 
大 小 ， 转 步骤 〈3) ，; 


(5) 局 动 快照 数据 读 进 程 ， 将 需 快 照 保存 的 数据 世 从 源 数 据 区 中 
读 出 ， 并 加 入 到 快照 数据 写 入 队列 尾 ; 


(6) 更 新 快照 区 内 可 用 快照 区 大 小 和 下 一 个 可 用 局 区 的 位 置 ; 





(7) 判断 所 有 分 块 是 否 都 已 处 理 完毕 ， 是 则 顺序 执行 ， 否 则 转 步 
又 (2) ; 


(8) 将 主机 发 送 的 写 请 求 数 据 写 入 源 数 据 区 ， 


(9) 判断 是 否 满足 预先 设 定 的 快照 数据 写 进 程 局 动 条 件 ， 是 则 局 
动 快 照 数据 写 进 程 ， 将 内 存 中 积攒 的 快照 数据 写 入 队列 中 的 数据 写 至 快 
照 区 ， 人 否则 顺序 执行 ; 


(10) 结束 。 


7. 快照 的 奔 层 架构 设计 实现 详 述 


为 了 让 读者 尽 可 能 深入 地 理解 Snapshot 的 底层 工作 原理 ， 作 者 在 此 
自我 演绎 了 一 种 Snapshot 的 实现 方式 ， 下 面 就 给 出 架构 设计 思想 说 明 ， 
也 欢迎 广大 读者 与 我 交流 探讨 。 以 下 所 有 设计 概要 均 为 作者 个 人 演绎 ， 
如 与 某 专 利 或 者 某 厂 商 设 计 和 雷同 ， 则 纯 属 巧合 ， 请 勿 对 号 入 座 。 





1) 基于 Copy On First Write 的 架构 设计 





本 设计 包含 4 个 实体 数据 结构 。 第 一 个 是 用 于 存放 变化 IO 块 的 IO 仓 
库 ， 可 以 是 任何 形式 的 高 性 能 永久 存储 空间 ， 再 加 上 一 份 IO 仓 库 的 
bitmap 用 来 标记 仓库 中 空闲 与 非 空 亲 块 。 第 二 个 是 地 址 映射 表 ， 用 于 保 
存 指针 ， 地 址 映射 表 也 存放 于 IO 仓库 的 特定 位 置 ， 并 且 每 个 快照 各 保存 
一 份 。 由 于 考虑 到 内 存 占 用 和 处 理 效率 问题 ， 地 址 映射 表 中 不 可 能 为 每 
个 针对 源 卷 的 LBA 地 址 都 有 一 个 Slot， 而 只 能 是 系统 生成 条 目的 时 候 ， 
利用 二 分 查找 方式 将 新 条 目 插入 表格 中 并 且 保 证 所 有 条 目 按照 LBA 地 址 
大 小 的 顺序 排列 ， 从 而 方便 后 续 的 步骤 中 对 表 中 地 址 的 查找 ， 不 需要 做 
索引 等 其 他 结构 ， 以 降低 系统 资源 耗费 。 第 三 个 结构 是 RoFW 数 据 映 射 
表 ， 这 个 表 保 存 所 有 针对 虚拟 快照 影像 卷 的 写 IO (可 以 参考 卷 Clone 一 
节 ) ， 同 样 是 每 个 快照 一 份 ， 只 读 挂 载 的 快照 则 不 需要 这 个 数据 结构 。 
Bitmap 中 每 一 位 可 以 表示 一 个 LBA 地 址 ， 也 可 以 表示 一 大 段 LBA 地 址 ， 
比如 4KB/16KB 甚 至 128KB 的 Block， 加 大 表示 粒度 可 以 大 大 提高 处 理 效 
率 和 降低 内 存 占用 ， 但 是 在 CoFW 操 作 时 就 会 浪费 存储 空间 。 比 如 ， 某 
个 写 IO 只 有 4KB 大 小 ， 但 是 也 必须 CoFW 出 这 个 IO 目标 地 址 段 所 落 在 的 
整个 Block， 但 是 后 续 写 IO 如 果 再 落 在 这 个 Block， 则 无 顷 CoFW 操 作 
了 。 镁 度 大 小 需要 根据 情况 综合 选择 。 

















下 面 给 出 具体 步骤 演绎 。 


快照 生成 及 生成 之 后 的 系统 动作 流程 


(1) To 时 刻 ， 有 卷 V1，IO 仓 库 V2。 此 时 系统 触发 一 份 Snapshot。 
进入 触发 流程 之 后 ， 系 统 创建 一 份 针对 T0 时 刻 的 快照 S0 的 地 址 映射 表 
F0， 这 份 表 在 T0 时 刻 为 空 ， 如 图 16-9 所 示 。 


图 16-9 ”TO 时 刻 





(2) Tl 时 刻 ， 有 写 IO 将 源 卷 LBA0 地 址 上 的 A0 更 新 为 A1， 系 统 首 
先 检查 所 有 已 存在 的 地 址 映射 表 中 哪个 或 者 哪些 没有 针对 源 卷 LBA0 地 
址 的 映射 条 目 ， 发 现 没 有 ， 所 以 CoFW 出 A0， 将 A0 写 入 IO 仓库 的 
LBA0， 然 后 在 地 址 映射 表 F0 中 更 新 地 址 映射 条 目 : LBA0 二 LBA0， 意 
思 是 源 卷 在 T0 时 刻 的 LBA0 这 个 地 址 上 的 数据 目前 保存 在 IO 仓库 中 的 
LBA0 地 址 上 。 最 后 系统 将 Al 正常 写 入 源 卷 对 应 地 址 ， 如 图 16-10 所 示 。 








图 16-10 TI 时 刻 


(3) T2 时 刻 ， 有 写 IO 将 源 卷 LBA30 地 址 上 的 C0 更 新 为 C2， 系 统 首 
先 检 查 所 有 已 存在 的 地 址 映射 表 中 哪个 或 者 哪些 没有 针对 源 卷 LBA30 地 
址 的 映射 条 目 ， 发 现 没 有 ， 所 以 CoFW 出 C0， 将 C0 写 入 IO 仓库 的 
LBA1， 然 后 在 地 址 映射 表 F0 中 更 新 地 址 映射 条 目 : LBA30 二 LBA1， 意 
思 是 源 卷 在 TO 时 刻 《TO 时 刻 与 T2 时 刻 源 卷 LBA30 地 址 上 的 数据 相同 ) 
的 LBA30 这 个 地 址 上 的 数据 目前 保存 在 IO 仓 库 中 的 LBA1 地 址 上 。 最 后 
系统 将 C2 正常 写 入 源 卷 对 应 地 址 。 同 时 ， 系 统 再 次 触发 一 份 快照 52， 
并 为 $2 创建 一 份 空 的 地 址 映射 表 F2。 如 图 16-11 所 示 。 








图 16-11 ” T2 时 刻 


(4) T3 时 刻 ， 有 写 IO 将 源 卷 LBA0 地 址 上 的 A1 更 新 为 A3， 系 统 首 





先 检 查 所 有 已 存在 的 地 址 映射 表 中 哪个 或 者 哪些 没有 针对 源 卷 LBA0 地 
址 的 映射 条 目 ， 发 现在 针对 快照 S2 的 地 址 映射 表 F2 中 没有 对 应 的 条 目 ， 
所 以 CoFW 出 A1， 将 A1 写 入 IO 仓 库 的 LBA2， 然 后 在 所 有 不 存在 LBAO0 映 
射 条 目的 映射 表 中 加 入 新 地 址 映射 条 目 : LBA0 二 LBA2， 意 思 是 源 卷 在 
TI2 时 刻 的 LBA0 这 个 地 址 上 的 数据 目前 保存 在 IO 仓库 中 的 LBA2 地 址 上 。 
最 后 系统 将 A3 正 常 写 入 源 卷 对 应 地 址 ， 如 图 16-12 所 示 。 








图 16-12 TIT3 时 刻 


(5) T4 时 刻 ， 有 写 IO 将 源 卷 LBA11 地 址 上 的 B0 更 新 为 B4， 系 统 首 
先 检查 所 有 已 存在 的 地 址 映射 表 中 哪个 或 者 哪些 没有 针对 源 卷 LBA11 地 
址 的 映射 条 目 ， 发 现 FT0 和 F2 都 没有 ， 上 所 以 CoFW 出 B0， 将 B0 写 入 IO 仓库 
的 LBA3， 然 后 在 地 址 映射 表 F0 和 F2 中 同时 更 新 地 址 映射 条 目 : LBA11 
二 LBA3， 意 思 是 源 卷 在 T0 或 TZ 时刻“T0、T2 和 T3 时 刻 LBA11 地 址 的 数 
据 是 相同 的 ) 的 LBA11 这 个 地 址 上 的 数据 目前 保存 在 IO 仓 库 中 的 LBA3 
地 址 上 。 最 后 系统 将 B4 正 常 写 入 源 卷 对 应 地 址 ， 如 图 16-13 所 示 。 








图 16-13”T4 时 刻 


(6) T5 时 刻 ， 有 写 IO 将 源 卷 LBA11 地 址 上 的 B4 更 新 为 B5， 系 统 首 
先 检查 所 有 已 存在 的 地 址 映射 表 中 哪个 或 者 哪些 没有 针对 源 卷 LBA11 地 
址 的 映射 条 目 ， 发 现 F0 和 F2 都 有 ， 上 所 以 系统 不 进行 CoFW 过 程 ， 直 接 将 
B5 正 常 写 入 源 卷 对 应 地 址 ， 如 图 16-14 所 示 。 





图 16-14 ” T5 时 刻 


(7) 任何 时 刻 ， 有 读 IO 针 对 源 卷 任何 地 址 ， 系 统 将 直接 从 源 卷 该 
取 对 应 地 址 的 数据 返回 给 请 求 者 。 


客户 端 挂 载 某 份 快照 进行 10 读 写 时 的 系统 动作 流程 


(1) T6 时 刻 ， 系 统 接收 到 客户 端 请 求 将 快照 S0 对 应 的 TO 时 刻 的 源 
卷 的 虚拟 影像 映射 给 客户 端 。 系 统 接收 到 请 求 之 后 ， 立 即 根据 源 卷 的 大 
小 等 属性 ， 通 过 底层 传输 通道 报告 给 客户 端 主机 一 个 虚拟 卷 。 








(2) T7 时 刻 ， 主 机 识别 到 了 这 个 虚拟 卷 影 像 〈 此 时 主机 对 源 物 理 
卷 依然 在 进行 读 写 ID， 无 影响 ) ， 并 且 将 其 挂 载 到 茶 个 盘 符 下 。 此 时 有 
茶 个 程序 比如 文件 系统 ) 尝试 读 取 这 个 着 的 LBA11 地 址 对 应 的 数据 。 


(3) T8 时 刻 ， 系 统 收 到 这 个 读 IO 请 求 之 后 ， 立 即 扫 描 针 对 快照 S0 
的 地 址 映射 表 F0， 判 断 对 应 LBA11 的 Slot 是 否 被 记录 了 对 应 的 IO 仓库 存 
储 空间 的 映射 LBA 地 址 。 发 现 LBA11 对 应 的 Slot 存在 地 址 映射 ， 所 以 立 
即将 映射 条 目 中 右 侧 也 就 是 IO 仓库 的 对 应 地 址 提取 并 且 读 出 IO 仓库 中 对 
应 这 个 地 址 〈 本 例 中 为 LBA3) 的 数据 ， 这 个 被 读 出 的 块 就 是 TO 时 刻 快 
照 S0 所 对 应 的 实际 数据 块 了 。 





(4) T9 时 刻 ， 系 统 将 读 出 的 数据 块 返回 给 客户 端 主 机 。 











(5) T10 时 刻 ， 系 统 接收 到 来 自 客 户 并 的 针对 源 虚 拟 影 像 蔚 LBA5 
的 读 请 求 ， 立 即 扫描 映射 表 F0 发 现 源 疮 LBA5 的 Slot 中 并 没有 映射 条 目 ， 
所 以 系统 立即 从 源 卷 中 读 取 LBA5 地 址 对 应 的 内 容 并 返回 给 客户 端 主 
机 。 





说 明 : ”有 一 点 必须 说 明 ， 查 询 线程 在 查找 映射 表 之 前 ， 必 须 
先 向 CoFW 线 程 查 询 当前 时 刻 是 否 存在 任何 针对 源 物理 卷 的 写 
IO 正在 被 执行 ， 如 果 有 ，IO 的 地 址 是 多 少 ， 如 果 地 址 恰好 就 是 
需要 查询 的 地 址 ， 则 查询 线程 必须 先 等 待 CoFW 线 程 完成 

CoFW 操 作 之 后 (此 时 CoFW 会 疝 映射 表 中 更 新 刚才 这 个 CoFW 





的 数据 在 IO 仓库 中 的 地 址 ) ， 再 去 查询 映射 表 中 对 应 的 条 目 ， 
此 时 就 可 以 查 到 最 新 的 结果 了 。 并 且 ， 如 果 查 询 线程 查询 的 结 
果 是 直接 从 源 物理 卷 中 读 取 内 容 ， 则 在 查询 线程 完成 读 取 之 

前 ，CoFW 线 程 不 能 进行 针对 这 个 地 址 的 CoFW 操 作 。 如 果 系 

统 不 这 样 做 ， 也 就 是 不 与 CoFW 线 程 交互 ， 那 么 查询 线程 很 有 
可 能 从 源 卷 中 读 取 的 是 最 新 刚 被 写 入 的 数据 而 不 是 对 应 以 前 快 
照 时 刻 的 数据 。 








(6) TI11 时 刻 ， 系 统 接 收 到 主机 客户 站 针对 虚拟 影像 卷 任 何 一 个 地 
址 的 写 IO 操 作 ， 则 系统 立即 将 这 个 写 IO 和 其 对 应 的 LBA 地 址 一 同 存放 在 
另外 一 个 单独 的 数据 映射 表 中 ， 与 地 址 映射 表 一 样 ， 每 个 条 目 Slot 中 的 
LBA 地 址 按照 大 小 顺序 排列 ， 只 不 过 这 个 Slot 中 存放 的 是 虚拟 影像 卷 的 
LBA 地 址 和 对 应 的 主机 写 IO 实 体 数 据 (当然 也 可 以 将 实体 数据 放 到 公用 
IO 仓库 中 然后 在 这 个 表 中 存放 数据 在 仓库 中 的 LBA 地 址 指针 ， 视 设计 不 
同 而 定 〉。 一旦 第 一 个 写 IO 被 系统 接收 之 后 ， 针 对 随后 的 任何 一 个 客户 
端 发 送 的 读 或 者 是 写 IO， 系 统 都 要 首先 查询 这 个 RogFW 数 据 映 冉 表 ， 如 
末 找 到 对 应 的 映射 ， 则 直接 将 表 中 对 应 的 数据 返回 给 客户 端 : 如 果 没 找 
到 对 应 条 目 ， 则 再 执行 与 上 几 步 中 同样 的 动作 。 上 一 步 中 的 线程 依赖 关 
系 同 样 要 考虑 。 














(7) IT12 时 刻 ， 客 户 端 要 求 挂 载 快 照 S2 对 应 的 虚拟 影像 卷 。 系 统 接 
收 到 请 求 之 后 ， 做 与 第 (1) 步 相 同 的 工作 。 如 果 接 收 到 客户 端 主机 针 
对 S2 影 像 卷 的 任何 IO 请 求 ， 则 做 与 第 〈2) 一 第 〈5) 步 相 同 的 动作 ， 只 
不 过 系统 要 去 扫描 S2 的 映射 表 F2 了 。 两 个 虚拟 卷 可 以 同时 接收 IO。 


客户 端 决 定 将 快照 $S0 进 行 Rollback (Restore) 时 系统 的 动作 流程 


(1) T13 时 刻 ， 客 户 端 要 求 将 快照 S0 直 接 回 深 窗 新 到 源 物理 扼 。 系 


统 接收 到 请 求 之 后 ， 直 接 回 客 户 端 返回 已 经 成 功 Rollback“〈 与 直接 挂 载 
虚拟 影像 卷 过 程 类 似 ) 。 这 里 虽然 也 可 以 选择 前 台 Rollback， 即 
Rollback 所 有 步骤 完成 之 前 ， 系 统 不 接受 针对 S$0 快 照 点 卷 的 任何 IO 操 
作 。 但 是 为 了 保证 操作 友好 性 ， 在 此 设计 为 后 台 操 作 。 后 台 操 作 的 结果 
是 ， 主 机 直接 认为 Rollback 成 功 ， 则 可 能 立即 同 源 卷发 起 读 写 IO。 还 需 
要 注意 的 一 点 是 ， 在 Rollback 之 前 ， 主 机 客户 端 一 定 要 将 其 Buffer 中 的 
内 容 Flush 到 源 卷 ， 人 否则 源 卷 一 下 子 被 Rollback， 但 是 主机 中 却 保存 痢 
Rollback 之 前 的 缓存 ， 随 后 义 将 这 些 缓存 Flush 到 Rollback 之 后 的 源 卷 ， 
那么 数据 就 不 一 致 了 。 不 一 致 的 后 果 是 可 怕 的 。 所 以 ， 在 Rollback 之 
前 ， 王 脆 在 主机 端 Unmount 源 卷 ，Rollback 完 成 后 再 Mount 回 来 即 可 。 








(2) T14 时 刻 ， 系 统 开始 执行 与 挂 载 虚拟 影像 读 写 时 相同 的 动作 ， 
但 是 在 后 台 ， 系 统 会 将 原先 CoFW 出 来 的 数据 块 以 及 刚刚 被 RoFW 〔 如 
果 后 台 操 作 未 完成 时 客户 端 有 写 IO 进 入 ) 的 数据 统统 覆盖 到 源 物 理 卷 对 
应 地 址 上， 在读 取 IO 仓库 中 的 CoFW 块 时 要 首先 查询 RoFW 数 据 映射 表 
中 是 否 已 经 针对 当前 操作 的 地 址 有 被 写 入 的 数据 ， 如 果 有 ， 抛 弃 原 来 被 
CoFW 的 数据 转 而 将 刚 被 更 新 过 的 数据 写 入 源 卷 〈 在 处 理 客户 端 写 IO 请 
求 时 ， 也 可 以 直接 将 写 IO 数 据 履 盖 到 源 物理 卷 对 应 地 址 ， 无 须 RoFW， 
节约 一 轮 IO 操 作 ， 但 必须 记录 每 个 在 Rollback 开 始 与 完成 之 间 发 生 的 写 
IO 地 址 以 便 在 Rollback 时 跳 过 这 些 地 址 ， 可 以 用 Bitmap 来 记录 ) 。 同 
样 ， 线 程 依赖 关系 必须 考虑 。 处 理 完 的 CoFW 块 将 在 IO 仓 库 的 Bitmap 中 
被 标记 为 空闲 以 便 腾 出 空间 。 











说 明 : ”整个 步 又 中 需要 着 重 注 意 的 是 ， 比 如 T5 时 刻 系统 状态 
图 所 示 ， 当 系统 要 将 C0 履 盖 C2 的 时 候 ， 此 时 由 于 C2 为 快照 S2 
的 基准 块 ， 所 以 ， 如 果 选 择 保存 S2 快 照 ， 那 么 依然 需要 将 C2 
先 CoFW 之 后 放 入 IO 仓 库 ， 然 后 更 新 F2 映 射 表 中 对 应 的 条 目 。 








即 ， 在 做 覆盖 操作 之 前 ， 必 须 参 考 恢复 快照 点 之 后 所 有 快照 点 
的 地 址 映射 表 ， 一 旦 任何 一 份 表 中 对 应 的 地 址 没有 映射 条 目 ， 
则 依然 需要 CoFW 过 程 。 

然而 ， 目 前 市 面 上 的 产品 几乎 都 严格 遵照 历史 规则 ， 即 ， 既 然 
选择 了 回 深 到 TO 时 刻 的 S0 快 照 点 ， 那 么 TO 时 刻 之 后 所 发 生 的 
所 有 事件 就 不 应 该 存在 ， 所 以 S2 也 不 能 存在 ， 所 以 大 部 分 实现 
案例 中 ， 在 选择 恢复 到 某 个 快照 点 的 时 候 ， 都 会 同时 将 这 个 快 
照 点 时 间 之 后 的 所 有 快照 删除 。 但 是 我 们 这 种 设计 是 可 以 选择 
保存 后 面 的 快照 点 的 。 同 理 ， 恢 复 到 S$2 快 照 点 与 恢复 到 S0 快 照 
点 的 具体 动作 流程 相同 。 








(3) T15 时 刻 ， 当 地 址 映射 表 与 RoFW 数 据 映 射 表 中 的 所 有 条 目 都 
被 处 理 完 成 之 后 ， 系 统 立 即将 这 两 份 表 彻底 删 摊 。 此 刻 之 后 ， 就 相当 于 
S0 快 照 没 有 被 创建 过 ， 而 系统 只 剩 下 了 S2 快 照 。 随 后 的 动作 流程 与 生成 
S2 快 照 之 后 的 动作 相同 。 





最 后 还 需要 明确 一 点 ， 如 果 在 整个 后 台 过 程 完成 之 前 ， 再 有 新 的 
Snapshot 被 创建 ， 则 新 Snapshot 创 建 之 后 的 CoFW 过 程 将 会 与 后 台 
Rollback 操 作 过 程 相 冲突 ， 除 非 引 入 额外 的 CoFW 操 作 才 能 保证 数据 一 
致 性 ， 所 耗费 的 开销 和 动作 流程 与 上 文中 的 保存 S2 快 照 的 开销 和 动作 流 
程 相 同 。 当 然 ， 如 果 一 开始 融 选 择 使 用 前 台 方 式 Rollback， 则 Rollback 
的 时 间 和 效率 都 会 增加 ， 只 不 过 需要 用 户 等 竺 一段 时 间 。 





客户 端 决 定 删除 快照 So 时 系统 的 动作 流程 〈S0 尚 未 被 删除 时 ， 从 
T13 时 刻 开 始 ) 


(1) IT13 时 刻 ， 客 户 问 和 卸载 了 S0 快 照 虚 拟 影像 卷 ， 系 统 收 到 仓 载 请 
求 之 后 ， 将 RoFW 数 据 映 射 表 全 部 删除 ， 其 他 不 做 更 改 。 如 果 客 户 端 再 


次 挂 载 该 快照 ， 则 会 重新 得 到 一 份 干 津 的 TO 时 刻 的 着 影像 ， 之 前 的 写 IO 
数据 由 于 被 系统 删 挥 ， 所 以 全 部 丢失 。 如 果 客 户 端 希望 在 缀 载 虚拟 卷 之 
后 系统 能 够 依然 保持 所 做 的 更 改 ， 则 需要 通知 系统 创建 一 份 针 对 快照 S0 
的 Clone 卷 ， 即 针对 S0 的 二 次 虚拟 影像 卷 。 所 谓 Clone 郑 也 只 不 过 就 是 系 
统 会 永久 保存 RoFW 数 据 映 射 表 ， 除 非 显 式 地 收 到 删除 请 求 。Clone 郑 下 
文 也 会 有 所 介绍 。 





(2) T14 时 刻 ， 客 户 病 请 求 系统 删除 快照 S0。 系 统 接 收 到 请 求 之 

后 ， 首 先 扫 描 对 应 S0 快 照 的 F0 地 址 映射 表 并 扫描 其 他 所 有 快照 的 地 址 映 
射 表 ， 找 出 只 有 S0 了 映射 表 F0 中 存在 而 其 他 快照 映射 表 中 都 不 存在 的 对 应 
和 条目， 比如 T5 时 刻 的 LBA30 映 射 条 目 ， 从 IO 仓库 bitmap 中 标记 对 应 的 

CoFW 块 为 空 亲 。 当 S0 了 映射 表 中 所 有 条 目 都 扫描 并 处 理 完成 之 后 ， 删 除 
整个 SO 映射 表 F0， 此 时 S0 快 照 便 删 除 完毕 。 这 个 过 程 中 依然 涉及 线程 依 
赖 关 系 ， 需 要 考虑 。 男 外 ， 这 个 过 程 可 以 前 台 操 作 ， 也 可 以 后 台 操 作 ， 
但 推荐 后 台 操 作 ， 这 样 对 系统 和 随后 的 IO 无 影响 。 





(3) 删除 任何 一 个 快照 ， 流 程 丝 相同 。 
如 何 计算 CoFW 模 式 下 两 份 快照 影像 之 间 所 更 改过 的 数据 地 址 


有 时 候 系 统 需要 得 知 前 后 两 份 快照 之 间 所 变化 的 数据 地 址 ， 这 种 情 
况 在 实现 增 量 备 份 的 时 候 很 需要 。 比 如 A 时 刻 做 了 一 份 快照 并 将 其 做 了 
备份 ，B 时 刻 又 做 了 一 次 快照 ， 此 时 没有 必要 将 B 时 刻 的 快照 也 完整 地 
备份 下 来 ， 如 果 只 备份 B 时 刻 快 照相 对 于 A 时 刻 快照 之 间 变 化 过 的 数 
据 ， 则 可 以 大 量 节 省 备份 时 间 和 空间 。 竺 恢复 时 刻 A 快 照 的 时 候 ， 正 党 
恢复 ， 待 恢复 时 刻 B 快 照 的 时 候 ， 当 恢复 程序 读 取 到 更 改过 内 容 的 地 址 
时 直接 读 取 时 刻 B 的 增 量 备份 中 对 应 地 址 的 数据 即 可 。 还 有 一 种 情况 需 
要 使 用 快照 比 对 ， 那 就 是 远程 数据 容 灾 系 统 的 底层 设计 ， 诸 如 


EMC/Mirrorview、3PAR/RemoteCopy、NetApp/SnapMirror 等 远程 数据 复 
制 软件 均 使 用 快照 比 对 技术 来 回 远 程 批 量 传 送 变 化 的 数据 ， 下 一 章 将 详 
细 描 述 这 些 技术 的 底层 实现 方式 。 





对 于 CoFW 模 式 的 快照 ， 比 较 任 意 两 份 快照 之 间 所 不 同 的 数据 只 需 
按照 下 面 步 又 操作 即 可 


(1) 某 系 统 先后 生成 了 3 份 快照 ，S0、S1、S2。 现 需要 比较 以 得 知 
快照 S0 与 52 之 间 的 变化 数据 。 系 统 首先 对 比 S0 和 S1， 找 出 在 S0 地 址 映 
射 表 中 存在 但 是 在 Sl 地址 映射 表 中 不 存在 的 地 址 映射 条 目 ( 先 忽略 映射 
结果 的 异同 ， 即 条 目 右 侧 的 地 址 。 只 要 某 个 地 址 存在 条 目 就 是 存在 ， 不 
存在 条 目 ， 就 是 不 存在 ) ， 以 及 S0 中 和 S1 中 都 存在 但 是 映射 结果 不 同 的 
地 址 映射 条 目 。 将 所 有 条 目 收 集 到 一 份 新 列表 中 。 














(2) 之后， 系统 再 按照 相同 的 规则 比 对 $S1 和 S2 的 地 址 映射 表 ， 将 
收集 到 的 地 址 追加 到 刚才 的 新 列表 之 后 。 


(3) 对 新 列表 中 的 地 址 条 目 按照 源 卷 地 址 进行 排序 。 


2) 基于 RoFW 模 式 的 快照 设计 





RoFW 模 式 一 般 没 人 用 在 原生 快照 设计 中 ， 除 非 是 架构 他 异 的 快照 
实现 方式 比 ， 如 NetApp WAFL 快 照 〈 我 们 将 在 后 文中 简要 介绍 WAFL 快 
照 的 实现 原理 ) 。 究 其 原因 是 因为 RoFW 模 式 实现 起 来 相对 CoFW 方 式 
复杂 。 但 是 由 于 其 对 写 性 能 的 影响 显著 低 于 CoFW 方 式 ， 在 这 里 也 简要 
地 演绎 一 下 这 种 模式 。 





快照 生成 及 生成 之 后 的 系统 动作 流程 


(1) To 时 刻 ， 有 卷 V1，IO 仓 库 V2。 此 时 系统 触发 一 份 Snapshot。 


进入 触发 流程 之 后 ， 系 统 创建 一 份 针 对 TO 时 刻 的 快照 S0 的 地 址 映射 表 
F0， 这 份 表 在 T0 时 刻 为 空 ， 如 图 16-15 所 示 。 


图 16-15 ”TO 时 刻 


(2) Tl 时 刻 ， 有 针对 源 卷 LBA0 地 址 的 写 IO 数 据 A1 进 入 ， 此 时 系 
统 直接 将 A1 写 入 IO 仓库 中 的 LBA0 存 放 。 并 在 S0 对 应 的 地 址 映射 表 F0 中 
的 LBA0 的 Slot 中 加 入 英 射 关 系 “LBA0=LBA0” 如 图 16-16 所 示 。 左 边 是 
源 卷 中 的 地 址 ， 右 边 是 IO 仓库 中 的 对 应 数据 存放 的 地 址 。 这 里 的 意义 与 
CoFW 方 式 不 同 了 ， 这 里 的 意思 是 ， 源 物理 卷 地 址 LBA0 的 最 新 数据 内 容 
在 IO 仓库 中 的 LBA0 地 址 存放 而 不 是 源 卷 自 身 ， 源 卷 自 身 永 远 都 是 S0 时 
刻 的 有 影像， 永久 冻 结 ， 拒 绝 写 入 ， 除 非 所 有 快照 都 被 删除 。 











图 16-16 ”Ti 时 刻 


(3) T2 时 刻 ， 有 针对 源 卷 LBA30 的 数据 C2 进入 ， 系 统 依然 直接 将 
C2 写 入 IO 仓库 的 LBA1 地 址 存放 ， 并 在 映射 表 F0 中 对 应 LBA30 的 Slot 中 
增加 映射 条 目 。 最 后 ， 系 统 收 到 命令 触发 一 份 新 快照 S2， 系 统 会 为 S2 也 
生成 一 份 映射 表 F2， 如 图 16-17 所 示 。 


图 16-17 T2 时 刻 


(4) T3 时 刻 ， 再 次 有 针对 源 卷 LBA0 地 址 的 数据 A3 进 入 。 此 时 ， 
由 于 第 二 份 快照 $S2 已 经 生成 ， 而 $S2 的 生成 会 引发 系统 动作 的 很 大 变化 。 
此 时 ， 源 物理 卷 、F0 映 射 表 以 及 表 中 的 指针 所 指向 的 IO 仓库 中 的 数据 ， 
共同 组 成 了 快照 S2 的 基准 卷 ， 这 三 者 的 共同 体 也 就 是 源 卷 在 T2 时 刻 的 影 
像 ， 即 快照 S2， 也 将 会 被 永久 冻结 ， 拒 绝 写 入 ， 如 图 16-18 所 示 。 





图 16-18”T3 时 刻 


系统 就 像 上 几 步 一 样 ， 直 接 将 A3 写 入 IO 仓库 中 的 新 地 址 LBA2 中 
(LBA0 和 LBA1 被 冻结 但 是 其 他 地 址 未 被 冻结 ) ， 并 且 在 F2 映 射 表 中 将 
LBA0 的 Slot 写 入 映射 指针 。 


(5) T4 时 刻 ， 再 次 有 针对 源 卷 LBA0 地 址 的 数据 A4 进 入 。 此 时 ， 
系统 检查 最 晚 也 就 是 最 后 一 份 快照 映射 表 中 是 否 有 对 应 这 个 地 址 的 映射 
条 目 ， 如 果 有 ， 则 提取 出 映射 的 IO 仓库 地 址 同时 将 数据 写 入 IO 仓库 中 对 
应 的 地 址 ， 也 就 是 履 盖 了 IO 仓库 中 原来 这 个 地 址 上 的 数据 。 本 例 中 ， 系 
统 发 现存 在 LBA0 的 条 目 ， 所 以 直接 用 A4 履 盖 了 IO 仓库 中 原来 的 数据 
A3。 了 映射 表 中 不 做 任何 更 改 。 如 图 16-19 所 示 。 








图 16-19”T4 时 刻 


(6) T5 时 刻 ， 有 针对 源 卷 地 址 LBA11 的 I0 写 入 数据 B5 进 入 。 此 时 
系统 依然 首先 检查 最 晚 也 就 是 最 后 一 份 快照 映射 表 中 是 否 有 对 应 这 个 地 
址 的 映射 条 目 ， 如 果 没 有 ， 则 将 数据 写 入 到 IO 仓库 中 的 一 个 新 地 址 中 。 
本 例 中 ，F2 表 中 没有 LBA11 的 映射 条 目 ， 所 以 系统 直接 将 B5 写 入 了 IO 
仓库 中 的 LBA3 中 ， 并 在 F2 表 中 更 新 了 条 目 ， 如 图 16-20 所 示 。 











图 16-20”T5 时 刻 


(7) T6 时 刻 ， 有 针对 源 卷 LBA0 地 址 的 读 操作 进入 。 此 时 系统 检查 
最 晚 的 一 份 快照 中 是 否 有 LBA0 地 址 的 映射 条 目 ， 如 果 没 有 ， 则 继续 查 
找 前 一 份 快 照 是 否 有 对 应 地 址 的 映射 条 目 ， 如 果 都 没 找到 映射 条 目 ， 则 
直接 从 源 物理 卷 中 对 应 地 址 读 出 数据 并 返回 给 客户 端 。 如 果 控 时间 倒 序 
的 顺序 得 询 之 后 最 终 在 东 份 快照 映射 表 中 得 到 了 对 应 地 址 的 条 目 ， 则 提 
取 映 射 的 IO 仓库 地 址 ， 并 从 IO 仓库 中 将 这 个 地 址 对 应 的 数据 该 出 并 返回 
给 客户 端 。 本 例 中 ， 系 统 在 最 晚 的 快照 映射 表 F2 中 找到 了 LBA0 的 映射 





条 目 ， 立 即 从 IO 仓库 中 将 LBA2 处 的 数据 读 出 ， 返 回 给 客户 端 。 经 过 上 
述 的 算法 ， 才 能 保证 传 给 客户 端的 数据 是 最 新 的 ， 而 不 是 茶 份 快照 时 间 
点 对 应 的 之 前 的 数据 。 


(8) T7 时 刻 ， 系 统 再 次 触发 一 份 快照 S7， 创 建 了 对 应 的 F7 映 射 
表 。 此 时 ，F0 和 F2 均 都 处 于 冻结 状态 ， 如 图 16-21 所 示 。 


图 16-21 T7 时 刻 


(9) T8 时 刻 ， 有 针对 源 卷 的 LBA0 和 LBA17 以 及 LBA5 的 三 个 写 IO 
先后 同时 进入 。 系 统 按照 规则 ， 查 询 最 后 一 份 快照 地 址 映射 表 也 就 是 F7 
中 是 否 有 针对 这 三 个 地 址 的 映射 条 目 ， 发 现 都 没有 ， 所 以 将 这 三 个 IO 数 
据 写 到 IO 仓库 中 的 空 末 位 置 ， 然 后 在 F7 中 更 新 映射 条 目 ， 如 图 16-22 所 
小。 








图 16-22 TI8 时 刻 
客户 端 挂 载 某 份 快照 进行 I0 读 写 时 的 系统 动作 流程 


(1) T9 时 刻 ， 系 统 接收 到 客户 端 请 求 将 快照 SO 对 应 的 T0 时 刻 的 源 
卷 的 虚拟 影像 映射 给 客户 端 。 系 统 接收 到 请 求 之 后 ， 立 即 根据 源 卷 的 大 
小 等 属性 ， 通 过 底层 传输 通道 报告 给 客户 端 主机 一 个 虚拟 卷 。 








42) IT10 时 刻 ， 主 机 识别 到 了 这 个 虚拟 卷 影 像 〈 此 时 主机 对 源 物 理 
卷 依然 在 进行 读 写 ID， 无 影响 ) ， 并 且 将 其 挂 载 到 茶 个 盘 符 下 。 此 时 有 
菏 个 程序 《比如 文件 系统 ) 尝试 读 取 这 个 卷 的 LBA0 地 址 对 应 的 数据 。 


(3) T11 时 刻 。RoFW 模 式 的 原生 快照 的 好 处 是 ， 把 复杂 留 给 后 
台 ， 把 简单 留 给 前 合 。 确 实 是 这 样 的 ， 写 的 时 候 直 接 写 入 对 应 位 置 ， 不 
需要 CoFW 方 式 中 的 多 余 的 一 读 一 写 操作 ， 只 不 过 写 之 前 需要 做 一 些 映 














财运 算 以 判断 是 窗 盖 还 是 新 写 到 空 几 位置， 但 是 运算 过 程 总 比 IO 过 程 
快 。 同 样 ， 在 读 取 系统 最 早 的 也 惑 是 第 一 份 快照 虚拟 影像 的 时 候 ， 也 是 
非常 痛快 淋漓 的 。 本 例 中 挂 载 了 S0 时 刻 快照 ， 也 就 是 最 早 的 第 一 份 快 
照 ， 上 文中 说 过 ，S0 快 照 其 实 就 是 当前 的 物理 源 卷 ， 因 为 目 动 S0 生 成 之 
后 ， 源 卷 就 被 永久 冻结 了 。 所 以 此 刻 ， 系 统 针对 客户 端 发 起 的 读 请 求 将 
直接 定 同 到 源 卷 对 应 地 址 ， 不 牵扯 任何 映射 运算 过 程 。 











(4) T12 时 刻 ， 系 统 接收 到 客户 并 请 求 将 快照 S2 对 应 的 T2 时 刻 的 
源 卷 的 虚拟 影像 映 冉 给 客户 逆 。 系 统 接 收 到 请 求 之 后 ， 立 即 根据 源 郑 的 
大 小 等 属性 ， 通 过 底层 传输 通道 报告 给 客户 端 主机 一 个 虚拟 卷 。 








(5) IT13 时 刻 ， 主 机 识别 到 了 这 个 虚拟 卷 影 像 〈 此 时 主机 对 源 物 理 
卷 依然 在 进行 读 写 ID， 无 影响 ) ， 并 且 将 其 挂 载 到 茶 个 盘 符 下 。 此 时 有 
某 个 程序 《比如 文件 系统 ) 尝试 读 取 这 个 卷 的 LBA0 地 址 对 应 的 数据 。 


(6) IT14 时 刻 。 上 文中 描述 过 针对 最 早 快 照 虚拟 卷 的 读 过 程 。 本 步 
中 针对 的 则 不 是 最 早 的 快照 ， 而 是 随后 的 快照 。 系 统 收 到 针对 虚拟 影像 
卷 LBA0 地 址 的 读 请 求 之 后 ， 会 查找 当前 被 挂 载 的 快照 点 的 上 一 个 快照 
点 对 应 的 地 址 映射 表 。 这 里 需要 摘 清 楚 ，RoFW 模 式 的 快照 实现 设计 与 
CoFW 实 现 方式 在 这 个 步骤 中 的 动作 迎 异 。 也 就 是 次 ， 本 次 快照 的 影像 
其 实 是 由 源 物 理 卷 十 上 一 份 快 照 对 应 的 地 址 映射 表 所 共同 冻 络 而 成 的 ， 
而 最 后 一 份 快 照 地 址 映射 表 中 的 指针 表示 的 则 是 源 物 理 卷 的 最 新 数据 状 
态 ， 而 不 是 这 份 快照 时 刻 的 状态 ， 不 要 搞 乱 。 本 例 中 ， 系 统 碍 询 F0 表 中 
古人 否 有 LBA0 地 址 的 映射 条 目 ， 如 果 有 ， 则 提取 映射 地 址 并 从 IO 仓库 中 
读 取 对 应 地 址 的 数据 并 返回 给 客户 端 。 











(7) T15 时 刻 ， 系 统 接收 到 针对 S$2 快 照 虚拟 影像 卷 LBA11 地 址 的 读 
操作 。 系 统 依 然 去 查询 前 一 份 快照 也 就 是 S0 对 应 的 地 址 映射 表 FE0， 本 例 


中 ， 没 有 找到 LBA11 对 应 的 映射 条 目 ， 则 系统 将 会 继续 得 前 一 份 快照 映 
射 表 中 对 应 地 址 的 映射 条 目 ， 直 到 找到 为 止 。 本 例 中 ， 已 经 到 了 尽头 ， 
所 以 系统 直接 从 源 物理 卷 中 读 取 LBA11 地 址 对 应 的 数据 并 返回 给 客户 


端 。 


说 明 : ”值得 说 明 的 一 点 是 ，RoFW 设 计 模 式 下 ， 不 像 CoFW 模 
式 下 存在 线程 依赖 关系 。 对 快照 虚拟 影像 卷 的 读 操 作 并 不 会 与 
对 源 卷 的 写 操作 之 间 有 任何 窑 连 和 影响 。 


(8) T16 时 刻 ， 系 统 接收 到 针对 S2 快 照 虚拟 影像 卷 LBA0 地 址 的 写 
入 请 求 。 与 CoFW 的 处 理 方式 相同 ， 此 时 系统 将 新 创建 一 个 针对 S2 快 照 
的 RoFW 数 据 映射 表 ， 并 将 待 写 入 的 数据 写 入 表 中 对 应 地 址 的 Slot。 在 
随后 的 读 请 求 处 理 过 程 中 ， 要 优先 查询 RoFW 表 ， 过 程 与 CoFW 过 程 相 
同 ， 其 他 步骤 不 再 重复 论述 。 





客户 端 决 定 将 快照 $S0 进 行 Rollback (Restore) 时 系统 的 动作 流程 


(1) T17 时 刻 ， 客 户 端 要 求 将 快照 SO 直接 回 滚 履 盖 到 源 物 理 卷 。 系 
统 接收 到 请 求 之 后 ， 直 接 同 客 户 问 返回 已 经 成 功 Rollback (与 直接 挂 载 
虚拟 影像 卷 过 程 类 似 ) 。 这 里 虽然 也 可 以 选择 前 台 Rollback， 即 
Rollback 所 有 步骤 完成 之 前 ， 系 统 不 接受 针对 S0 快 照 点 卷 的 任何 IO 操 
作 。 但 是 为 了 保证 操作 友好 性 ， 我 们 在 此 设计 为 后 台 操 作 。 后 台 操 作 过 
程 中 如 果 遇 到 客户 端 写 IO， 处 理 方 式 与 COFW 模 式 下 的 处 理 方式 相同 ， 
见 前 文 。 








(2) T18 时 刻 ， 系 统 开始 在 后 台 进 行 Rollback 操 作 。 由 于 S0 快 照 反 
其 实 就 是 当前 的 源 物理 卷 ， 所 以 Restore 过 程 不 需要 任何 额外 操作 ， 直 接 
就 完成 了 。 要 注意 的 是 ，S0 对 应 的 FO 和 S2 对 应 的 F2 映 射 表 需 要 保留 ， 








前 提 是 客户 端 想 保留 S2 和 S7 时 刻 的 快照 的 话 ， 因 为 S2 快 照 需 要 参考 
F0，S7 要 参考 F2。 但 是 F7 上 映射 表 无 须 保 留 ， 因 为 F7 中 的 指针 表示 的 源 
物理 卷 的 最 新 状态 变化 指针 ， 既 然 选择 回 滚 ， 那 么 就 代表 最 新 时 刻 的 数 
据 已 经 不 需要 了 。 





一 般 是 不 推荐 选择 保留 晚 于 S0 的 其 他 所 有 快照 的 ， 因 为 保留 这 些 快 
照 需要 文 付 额 外 的 系统 资源 。 如 果 客 户 端 明确 选择 保留 ， 则 系统 会 将 S0 
之 后 的 所 有 地 址 映射 表 封 存 到 一 个 特定 的 位 置 ， 永 久 冻 结 ( 这 里 有 一 个 
规律 ， 即 如 果 用 户 选 择 保留 的 所 有 快照 中 最 晚 的 一 个 是 SX (X>S0) ， 
则 映射 表 FX 及 其 之 后 的 所 有 映射 表 皆 可 删除 ) 。 然 后 系统 开始 新 一 轮 
的 快照 周期 ， 即 必须 首先 再 生成 一 个 S0' 快 照 ， 创 建 一 份 新 的 F0' 空 映射 
表 ， 然 后 再 接受 客户 端的 读 写 IO 操 作 ， 随 后 生成 的 快照 也 按照 顺序 重新 
编号 。 如 果 后 来 用 户 选择 要 Rollback 或 者 挂 载 之 前 生成 的 某 份 快照 ， 则 
系统 会 调 出 封存 的 那 几 份 映 射 表 ， 根 据 永久 冻结 的 源 物理 卷 ， 一 层 层 宗 
加 从 而 获得 对 应 时 刻 快照 的 影像 。 





如 果 客 户 端 在 Rollback 的 时 候选 择 了 不 保存 S0 之 后 的 快照 ， 则 系统 
会 直接 将 F0 及 以 后 的 所 有 FE 映射 表 全 部 删 掉 ， 映 射 表 所 对 应 的 IO 仓库 中 
的 对 应 地 址 块 也 全 部 标记 为 空闲 。 此 时 ， 源 卷 彻 底 被 恢复 到 TO 时 刻 状 
态 ， 由 于 当前 系统 中 已 经 没有 任何 快照 存在 ， 所 以 针对 客户 端的 写 IO 操 
作 ， 系 统 会 直接 写 向 源 卷 而 没有 任何 RoFW 操 作 ， 直 到 有 又 一 个 快照 生 
成 为 止 。 





Rollback 完 成 后 ， 客 户 端 针对 Rollback 之 后 的 卷 进行 写 操 作 时 ， 其 
实 依然 需要 RoFW 到 IO 仓库 中 ， 至 于 写 到 IO 仓库 哪个 位 置 〈 有 覆盖 还 是 新 
写 ) ， 就 需要 系统 根据 最 后 一 份 地 址 映射 表 判 断 。 读 和 写 操作 均 与 之 前 
的 相关 步骤 相同 。 整 个 系统 的 源 物 理 卷 ， 只 要 还 存在 任何 一 个 快照 ， 则 
永远 都 是 第 一 份 快 照 被 创建 时 候 的 状态 ， 永 久 被 冻结 。 











客户 端 决 定 将 非 S0 快 照 $S7 进 行 Rollback (从 T17 时 刻 开始 ) 时 系统 
的 动作 流程 


(1) T17 时 刻 ， 客 户 端 要 求 将 快照 S7 直 接 回 滚 覆 盖 到 源 物 理 卷 。 系 
统 接收 到 请 求 之 后 ， 直 接 向 客户 端 返回 已 经 成 功 Rollback (与 直接 挂 载 
虚拟 影像 卷 过 程 类 似 ) 。 这 里 虽然 也 可 以 选择 前 台 Rollback， 即 
Rollback 所 有 步骤 完成 之 前 ， 系 统 不 接受 针对 S$7 快 照 点 卷 的 任何 IO 操 
作 。 但 是 为 了 保证 操作 友好 性 ， 我 们 在 此 设计 为 后 台 操 作 。 后 台 操 作 过 
程 中 如 果 遇 到 客户 端 写 IO， 处 理 方式 与 CoFW 模 式 下 的 处 理 方式 相同 ， 
见 前 文 。 





(2) T18 时 刻 ， 若 客户 端 选择 不 保留 任何 其 他 的 快照 ， 则 系统 首先 
将 所 有 F7 之 前 的 地 址 映射 表 〈 不 包含 F7，F7 将 被 删除 ) 做 合并 操作 ， 如 
果 在 多 个 表 中 遇 到 同一 个 地 址 的 映射 关系 ， 则 只 留 下 最 晚 的 表 中 的 条 
目 ， 被 抛弃 的 条 目 对 应 的 IO 仓库 中 的 地 址 会 在 bitmap 中 被 标记 为 空闲 。 
合并 之 后 的 新 映射 表 命 名 为 F0'。 源 物理 卷 十 F0' 共 同 组 成 了 T7 时 刻 快照 
S7 时 卷 的 影像 ， 此 时 ， 由 于 系统 内 再 无 其 他 任何 快照 ， 所 以 系统 扫描 
F0' 中 的 每 一 条 上 映射， 然后 将 IO 仓库 中 对 应 地 址 的 数据 读 出 并 履 盖 到 源 
物理 卷 对 应 地 址 ， 全 表 处 理 完 成 后 ，IO 仓 库 清 零 ，Rollback 完 成 ， 源 物 
理 卷 上 的 实际 数据 就 变 为 了 T7 时 刻 的 影像 ， 系 统 继续 运作 。 


(3) IT18 时 刻 ， 若 客户 端 选择 要 求 保留 $S2 快 照 ， 则 系统 首先 将 F2 
之 前 的 所 有 映射 表 ， 本 例 中 即 F0 永 久 封存 ， 同 时 删除 F7 映 射 表 〈 并 在 IO 
仓库 bitmap 中 标记 对 应 F7 映 射 的 所 有 块 为 空间 ) ， 之 后 ， 系 统 将 待 回 复 
快照 点 之 前 的 所 有 F 了 映射 表 〈 本 例 中 即 F2 和 F0) 按照 上 一 步 描述 的 规则 
做 合并 操作 ， 合 并 之 后 的 映射 表 保 存 为 F0， 此 时 便 可 接受 客户 端 读 写 
IO 操作 ， 开 始 新 一 轮 周 期 ，Rollback 完 成 。 





(4) IT18 时 刻 ， 假 设 系统 有 10 个 快照 ， 如 果 客 户 端 选 择 恢复 第 8 个 
快照 ， 同 时 保留 第 3 个 、 第 6 个 快照 ， 那 么 此 时 系统 首先 将 第 1 个 快照 对 
应 的 映射 表 合 并 到 第 2 个 快照 对 应 的 映射 表 ， 合 并 之 后 封存 〈 为 3 号 快照 
的 影像 指针 ) ， 然 后 将 刚才 封存 的 合并 之 后 的 映射 表 与 第 3 和 第 4 个 快照 
对 应 的 映射 表 再 次 合并 到 第 5 个 快照 映射 表 中 ， 合 并 后 封存 (为 6 号 快照 
的 影像 指针 ) 。 删 除 F8 映 射 表 。 然 后 ， 系 统 将 1 一 6 号 快照 映射 表 与 7 号 
映射 表 合 并 ， 合 并 后 存 为 F0' 映 射 表 ， 源 物理 卷 十 F0' 共 同 组 成 了 T8 时 刻 
快照 S8 时 卷 的 影像 ， 最 后 打扫 战场 ， 将 IO 仓 库 中 由 于 映射 表 合 并 而 产生 
的 空闲 数据 块 在 Bitmap 中 标记 为 0， 即 空 尊 。 系 统 继续 运作 。 














可 以 判断 出 来 ，RoFW 模 式 的 原生 快照 其 流程 过 于 复 洒 ， 实 现 起 来 
流程 较 多 ， 尤 其 是 快照 生成 之 后 的 读 IO 过 程 和 快照 挂 载 或 者 回 深 之 后 的 
一 系列 流程 ， 都 涉及 到 复杂 的 运算 ， 所 以 目前 大 部 分 产品 都 使 用 CoFW 
模式 进行 快照 设计 。 


NetApp 与 BM XIV 存 储 系 统 使 用 的 都 是 基于 RoFW 模 式 的 快照 实现 
模式 ， 选 择 这 种 模式 与 其 底层 设计 息息相关 。 在 后 面 章节 会 讨论 NetApp 
为 何 会 使 用 WR 模式 。 在 第 15 章 会 讨论 IBM XIV 系 统 为 何 也 会 使 用 WR 模 
起 


如 何 计算 RoFW 模 式 下 两 份 快照 影像 之 间 所 更 改过 的 数据 地 址 


对 于 RoFW 模 式 的 快照 ， 计 算 两 份 快 照 之 间 的 数据 变化 地 址 要 比 
CoFW 模 式 下 容易 很 多 。 设 系统 先后 创建 了 S0、S1、S2 三 份 快 照 ， 要 求 
比 对 S0 和 S2 之 间 的 变化 数据 地 址 。 


(1) 由 于 WR 模式 的 快照 下 ， 快 照 S0 其 实 就 是 源 物理 卷 ， 而 快照 
S2 时 刻 的 状态 其 实 被 表现 在 前 一 份 也 就 是 S1 地 址 映射 表 中 。 所 以 系统 直 








接合 并 S0 和 S1 地 址 映射 表 ， 将 其 二 者 所 有 存在 的 条 目 合并 ， 如 采 遇 到 东 
个 地 址 有 两 个 条 目 ， 则 抛弃 时 间 点 较 早 的 映 册 表 中 的 条 目 ， 只 保留 时 间 
点 最 晚 的 映射 表 中 对 应 地 址 的 条 目 。 





(2) 将 合并 后 的 条 目 保 存 于 一 张 新 表 中 ， 并 按照 源 卷 地 址 进行 排 
序 。 





其 实 ， 这 个 过 程 与 删除 茶 快 照 的 过 程 类 似 。 


提示 : ”关于 比 对 两 份 Snapshot 中 的 变化 数据 地 址 ， 有 更 好 、 更 
高 效 的 实现 方法 。 上 文中 介绍 的 在 两 种 快照 模式 下 实现 比 对 的 
设计 都 是 基于 后 处 理 的 ， 即 快照 已 经 生成 ， 而 且 生 成 之 前 没有 
做 任何 处 理 。 如 果 使 用 中 处 理 ， 即 在 第 一 份 快照 生成 之 后 ， 系 
统 立 即 为 源 卷 生成 一 份 全 0 的 空 Bitmap， 随 后 的 写 IO 系 统 均 将 
这 个 IO 地 址 对 应 的 位 在 Bitmap 中 置 为 1， 一 直到 第 二 份 快 照 生 
成 之 后 的 瞬间 ， 系 统 首先 将 这 份 Bitmap 封 存 ， 然 后 再 次 生成 一 
份 全 0 空 Bitmap 再 次 重复 刚才 的 步骤 。 被 封存 的 Bitmap 中 为 1 的 
位 就 代表 了 两 份 快照 生成 的 间隔 期 间 ， 所 有 针对 源 卷 的 数据 变 
化 地 址 。 这 种 处 理 方式 是 目前 三 商 所 采用 的 。 








3) NetApp WAFL 快 照 实现 方式 简 述 


首先 ，WAFL 严 格 来 讲 是 一 个 文件 系统 ， 彻 底 的 文件 系统 ， 而 不 是 
一 个 卷 管 理 系统 。 这 个 文件 系统 与 其 他 文件 系统 一 样 ， 将 确 层 的 存储 衬 
间 虚 拟 为 文件 ， 文 件 可 以 任意 凌乱 地 存放 于 存储 空间 的 各 个 位 置 ， 使 用 
inode 链 条 来 组 织 所 有 的 零散 块 。 卷 ， 即 Volume， 在 WAFL 下 面 其 实 也 
是 一 个 文件 ， 卷 也 可 以 被 任意 零散 地 分 布 于 存储 空间 各 个 角 洲 ， 只 要 
WAFL 有 这 个 需要 。 了 解 Fledisk 的 人 都 应 该 理解 WAFL 的 这 种 基本 作用 





机 制 。 所 以 WAFL 很 灵活 ， 既 然 卷 是 一 个 文件 了 ， 那 么 就 可 以 对 这 个 文 
件 进 行 任意 的 删除 、 修 改 、 扩 充 、 缩 减 等 一 切 针对 普通 文件 可 以 做 的 动 
作 。 更 加 离奇 的 是 ， 每 个 文件 中 又 可 以 蔡 套 一 个 文件 系统 ， 即 文件 中 的 
文件 ， 文 件 系统 再 次 将 文件 作为 底层 存储 空间 ， 在 文件 中 再 建立 多 个 二 
级 文件 ， 这 便 是 LUN 了。WAFL 进 程 需 要 同时 管理 底层 物理 存储 空间 和 
二 次 映 射 的 文件 虚拟 空间 。 














其 次 ，WAFL 的 文件 系统 根 入 口 不 是 一 个 ， 而 是 每 个 存储 空间 保存 
256 个 根 入 口 ， 从 每 个 根 入 口 进入 ， 便 可 以 遍历 出 整个 文件 系统 的 元 数 
据 链 条 。 也 就 是 说 ，WAFL 可 以 在 一 个 存储 空间 内 存放 256 份 文件 系统 
影像 ， 每 一 个 影像 便 是 一 个 快照 。 可 以 对 物理 空间 ， 也 就 是 Aggregate 做 
快照 ， 也 可 以 对 Volume 做 快照 ， 因 为 每 个 volume 也 有 256 个 根 入 口 。 这 
256 个 入 口中 的 第 一 个 入 口 被 称 为 “当前 活动 文件 系统 ”， 也 就 是 Active 
Filesystem (CAFS) 。 从 这 个 入 口 进 入 之 后 遍历 出 的 就 是 当前 的 存储 空间 
内 最 新 数据 ， 一 旦 某 时 刻 触发 一 份 快照 ， 则 WAFI 会 将 当前 AFS 的 根 节 
点 入 口 向 下 一 个 空 亲 的 入 口 复 制 一 份 ， 即 完成 了 快照 的 生成 。 生 成 之 
后 ， 当 有 针对 AFS 的 写 入 操作 时 ，WAEFI 将 这 些 数 据 统 统 写 入 存储 空间 
内 空闲 的 块 中 ， 并 同时 更 新 元 数据 ， 元 数据 的 写 入 一 样 也 需要 写 入 空闲 
块 中 ， 链 条 指针 一 层 层 地 被 修改 ， 最 终 更 新 到 AFS 的 根 入 口 指针 。 








这 样 ， 上 一 份 快 照 中 的 所 有 数据 没有 一 个 块 被 履 兰 ， 从 对 应 的 根 入 
口 进 入 ， 便 会 志 历 出 那个 时 刻 的 完整 存储 空间 影像 。 即 便 系统 没有 生成 
快照 ，WAF] 也 不 会 覆盖 之 前 的 数据 ， 而 总 是 写 入 空闲 的 块 。 这 样 做 有 
个 好 处 就 是 在 空间 内 有 大 量 空 闪 块 时 ，WAF1 可 以 肆 无 忌 悦 地 写 入 而 不 
需要 非得 按照 被 履 盖 的 块 在 空间 内 的 排列 顺序 而 对 应 写 入 ， 这 样 可 以 所 
高 性 能 。 但 是 随 着 空 朵 空间 的 减少 ，WARFI 这 种 性 能 的 提升 会 又 降 。 




















提示 : 关于 快照 虚拟 卷 或 Clone 卷 挂 载 后 系统 识别 冲突 的 问 


题 : 由 于 很 多 操作 系统 的 卷 管理 层 都 会 对 系统 所 识别 到 的 磁盘 
写 入 一 些 识别 信息 以 便 标识 和 区 别 每 一 个 卷 或 者 磁盘 。 而 某 个 
卷 或 者 磁盘 的 快照 或 者 Clone 中 的 这 些 识 别 信息 与 源 卷 是 完 
一 致 的 ， 所 以 ， 当 源 卷 已 经 被 挂 载 到 系统 中 ， 又 挂 载 了 
Snapshot 虚 拟 卷 或 者 Clone 卷 之 后 ， 此 时 由 于 识别 信息 完全 相 
同 ， 系 统 会 认为 是 相同 的 卷 又 被 挂 载 了 一 次 而 外 下 源 卷 从 而 挂 
载 了 快照 卷 ， 或 者 发 现 新 卷 与 当前 的 源 卷 识别 信息 一 致 而 不 做 
任何 动作 。 不 管 哪 种 应 对 方式 ， 都 会 导致 问题 的 发 生 。 上 所 以 解 
决 这 个 问题 的 关键 还 在 于 位 于 主机 端的 快照 代理 程序 ， 快 照 代 
理 程序 在 让 存储 系统 映射 某 个 快照 之 前 ， 会 扫描 系统 中 当前 的 
所 有 已 挂 载 的 卷 的 识别 信息 ， 然 后 生成 一 个 不 与 它们 冲突 的 新 
识别 信息 并 通 同 存储 系统 发 起 写 IO 请 求 将 对 应 的 恒 区 中 的 识别 
言 妃 修改 ， 然 后 再 按照 正常 顺序 挂 载 ， 这 样 就 不 会 产生 冲突 
下 要 

















8. 快照 的 生成 对 系统 读 写 性 能 的 影响 


由 于 每 生成 一 份 快照 ， 系 统 就 需要 做 更 多 的 CoFW 操 作 ， 而 写 性 能 
本 身 就 是 衡量 一 个 存储 系统 性 能 的 重要 指标 ， 快 照 的 生成 无 疑 是 雪上 加 
霜 。 凡 是 使 用 CoFW 模 式 实 现 快照 的 存储 系统 ， 皆 无 法 逃脱 写 性 能 降低 
的 厄运 。 相 比 来 讲 ，RoFW 模 式 则 能 够 逃脱 这 个 厄运 。 图 16-23 和 网 16- 
24 所 示 为 EMC Clariion 系 统 的 写 IO 性 能 影响 统计 图 。 





图 16-23 1 个 快照 图 16-24 ”8 个 快照 


可 以 判断 ， 当 一 个 快照 生成 之 后 ， 系 统 的 写 IO 啊 应 值 立 即 升 高 到 一 


个 峰值 ， 其 原因 是 受到 不 断 的 CoFW 的 影响 。 此 后 的 时 间 内 ， 系 统 写 IO 
啊 应 逐渐 降低 到 原来 的 水 准 ， 其 原因 是 因为 系统 在 对 已 经 CoFW 过 的 地 
址 进行 再 次 或 多 次 写 的 时 候 ， 会 直接 写 到 源 卷 而 不 再 进行 CoOFW 动 作 。 
图 16-24 显 示 了 生成 了 8 个 快照 的 系统 写 IO 啊 应 速度 随时 间 的 推移 而 变化 
的 情况 。 可 以 看 到 每 多 生成 一 个 快照 ，IO 啊 应 时 间 就 比 之 前 的 最 蜗 啊 应 
时 间 再 上 升 一 些 ， 这 也 是 理所当然 的 ， 快 照 数 量 越 多 ， 人 处 理 就 越 慢 。 





快照 的 生成 不 仅 对 写 性 能 有 影响 ， 对 于 RoFW 模 式 的 快照 ， 其 对 读 
也 一 样 有 影响 。 由 于 数据 块 被 不 断 重 定 癌 到 其 他 空间 ， 这 就 导致 本 来 物 
理 上 连续 的 数据 块 在 被 重 定 同 写 出 去 之 后 可 能 就 变 得 不 连续 了， 甚至 非 
常 随 机 ， 那 么 此 时 针对 这 些 地 址 的 读 操 作 就 会 受到 影响 。 








鉴于 快照 的 这 些 后 遗 症 ， 在 使 用 快照 对 系统 进行 瞬时 恢复 后 ， 可 以 
考虑 在 后 台 将 快照 中 的 数据 回 找 一 过 ， 让 其 变 得 连续 ， 从 而 恢复 之 前 的 
性 能 。 


16.2.4” 卷 Clone 
1. 什么 是 卷 Clone 


顾名思义 ，Clone (克隆) 是 指 源 数据 集 某 时 间 点 的 一 份 或 者 几 份 
实 实在 在 的 实体 复制 。 快 照 类 似 一 个 茶 时 刻 定 型 的 影子 ， 而 克隆 则 是 某 
时 刻 定型 的 实体 。 使 用 快照 技术 来 制作 克隆 ， 先 将 影子 定型 ， 之 后 再 将 
实体 填充 到 影子 当中 。 也 惑 是 说 ， 首 先 对 茶 个 源 数据 集 《〈 源 卷 或 者 源 文 
件 系统 ) 创建 一 份 快照 ， 之 后 将 这 份 快照 指向 的 所 有 数据 块 复制 出 来 到 
一 个 额外 存储 空间 ， 这 样 ， 被 复制 出 来 的 所 有 数据 束 组 成 了 源 数据 集 在 
那个 时 刻 的 一 个 克隆 实体 。 














我 们 知道 Snapshot 一 般 都 是 只 读 的 ， 即 这 个 “幻像 ”你 只 能 去 看 ， 而 
不 能 被 改变 ， 就 像 历史 一 样 。 但 是 在 计算 机 的 世界 里 ， 这 个 结论 是 不 成 
并 的 ，Snapshot 一 样 可 以 写 。 可 能 有 人 不 太 理 解 ，Snapshot 作 为 一 个 源 
卷 在 某 一 时 刻 的 照片 ， 其 内 容 皆 为 源 卷 内 容 的 投射 ， 自 映 并 不 存在 任何 
实体 内 容 ， 加 Snapshot 写 入 数据 ， 到 底 是 个 什么 概念 呢 ? 正如 Snapshot 
自身 一 样 ， 可 写 的 Snapshot 也 只 不 过 是 对 指针 的 处 理 而 已 ， 即 系统 增加 
了 一 个 RoFW 数 据 映 射 表 。 比 如 ， 存 储 系统 将 Snapshot1 映 射 给 了 
HostA，HostA 将 其 挂 载 到 了 F 盘 ， 某 时 刻 HostA 对 F 盘 的 第 一 个 而 区 写 入 
全 0， 存 储 系 统 收 到 这 个 请 求 之 后 ， 会 将 这 512B 的 数据 重 定 同 地 写 入 一 
个 空 用 存储 空间 的 地 址 ， 并 将 用 新 的 MetaData 来 记录 这 个 新 指 同 。 而 且 
更 灵活 的 是 ， 还 可 以 为 这 个 Clone 的 虚拟 卷 再 次 创建 快照 ， 甚 至 CDP。 








提示 : 16.2.5 节 中 会 对 这 种 可 写 以 及 创建 二 级 快照 或 CDP 的 详 
细 底 层 机 制 进行 论述 。 


某 个 物理 卷 某 时 刻 所 生成 的 一 份 可 写 的 Snapshot， 束 叫做 这 个 卷 某 
时 刻 的 一 份 Clone。 然 而 ， 这 份 Clone 其 内 容 没 有 被 更 改 的 部 分 是 与 源 卷 
共享 的 ， 只 有 被 更 改 之 后 的 数据 才 是 实 实在 在 地 存在 于 男 一 处 的 ， 所 
以 ， 源 卷 没 了 ， 则 Clone 也 就 没 了 。 这 种 Clone 叫 做 虚拟 Clone， 虚 拟 
Clone 的 好 处 是 本 里 不 占用 空间 ， 只 有 被 更 改 的 数据 部 分 占用 对 应 的 空 
间 。 如 果 想 对 这 个 Clone 做 保留 ， 保 留 其 实体 的 数据 ， 则 需要 将 这 份 
Clone 与 源 卷 所 共享 的 那 部 分 数据 复制 出 来 ， 加 上 后 来 被 更 改 的 数据 部 
分 (当然 也 可 以 不 去 更 改 这 份 Clone 的 内 容 ) ， 生 成 一 个 独立 的 卷 。 此 
时 ， 这 份 Clone 就 会 与 源 卷 脱离 关系 ， 相 当 于 依附 于 源 卷 的 快照 被 切割 
开 ， 或 者 说 Split， 这 个 过 程 叫 做 Split ”Clone。Split 完 成 之 后 ， 束 会 生成 
一 个 实 实在 在 的 真正 的 物理 上 独立 于 源 卷 的 卷 ， 而 且 源 卷 对 应 的 这 个 快 
照 也 束 消 失 了 ， 因 为 此 时 快照 已 经 变 成 了 实际 的 物理 数据 ， 也 就 是 实 























Clone， 实 Clone 需 要 占用 与 源 卷 等同 的 物理 空间 。 
2. 虚 殉 隆 和 实 克 隆 的 比较 


实 元 隆 与 虚 元 隆 相 比 有 两 个 好 处 。 第 一 个 是 安全 性 方面 。 虚 克隆 是 
依托 在 物理 源 卷 上 的 一 个 空中 楼 阁 ， 一 旦 源 卷发 生 任 何 物理 上 的 损坏 ， 
比如 承载 源 着 的 底层 物理 磁盘 发 生 损坏 ， 例 如 ， 某 Riad 5 阵列 中 损坏 多 
余 两 块 磁盘 之 后 ， 此 时 源 卷 物理 上 土崩瓦解 ， 则 其 对 应 的 Snapshot 和 克 
隆 也 就 荡然 无 存 了 。 而 实 克 隆 则 是 源 卷 某 快照 的 一 份 真实 物理 复制 ， 如 
果 将 克隆 卷 存 放 在 与 源 卷 不 同 的 Raid 组 中 ， 则 即便 源 卷 Riad 组 发 生 故 
障 ， 那 么 元 隆 卷 依然 存在 ， 可 以 直接 将 克隆 卷 挂 载 到 主机 继续 使 用 。 第 
二 个 是 性 能 方面 。 虚 克隆 由 于 在 物理 上 是 与 源 卷 共 享 大 部 分 数据 块 的 ， 
如 果 对 虚 克 隆 进行 读 IO， 则 会 与 源 卷 的 读 IO 发 生 争 抢 效应 ， 从 而 源 卷 和 
虚 元 隆 卷 的 性 能 都 受到 影响 。 而 实 克 隆 由 于 是 存在 于 男 一 个 Raid 组 ， 对 
实 元 隆 的 读 IO 由 于 是 访问 不 同 的 物理 磁盘 ， 所 以 不 会 影响 到 源 卷 。 这 里 
需要 注意 一 个 问题 ， 如 果 把 实 克 隆 卷 放 到 与 源 卷 相同 的 Raid 组 中 ， 那 么 
在 读 实 克隆 卷 的 时 候 造 成 的 影响 与 虚 殉 隆 相 同 ， 因 为 它们 共同 争 抢 同 一 
份 物理 Raid 组 。 




















3. 卷 Clone 的 作用 





卷 Clone 的 一 个 最 大 的 作用 是 可 以 瞬间 生成 针对 茶 个 卷 的 可 写 的 镜 
像 ， 而 不 管 这 个 卷 的 数据 量 有 多 大 。 比 如 某 企业 有 一 个 数据 量 2TB 的 数 
据 库 系统 ， 为 企业 核心 生产 数据 库 的 存储 空间 ， 非 常 重要 。 近 期 企业 决 
定 部 蜀 一 套 应 用 系统 ， 但 是 需要 利用 现 有 的 生产 数据 库 进 行 上 线 前 测 
试 ，I 开 管理 员 不 得 不 将 备份 过 的 数据 库 恢复 到 一 个 和 源 库 同样 大 的 存储 
空间 内 ， 但 是 很 尴 界 地 发 现 目前 存储 系统 剩余 的 空间 已 经 不 足以 满足 要 











求 ， 不 得 不 将 现 有 存储 系统 扩容 。 这 又 要 牵涉 到 一 个 大 工程 ， 而 且 测 试 
完毕 ， 新 购买 的 空间 又 要 被 浪费 ， 实 在 划 不 来 。 兽 好 现 有 存储 系统 文 持 
苍 Clone，IT 管 理 员 针 对 生产 数据 库 所 在 的 卷 创建 了 一 份 虚拟 Clone， 并 
将 其 挂 载 到 应 用 测试 机 上 ， 应 用 程序 成 功 局 动 ， 进 入 测试 周期 ， 坟 好 应 
用 写 入 的 数据 很 少 ， 以 至 于 Clone 卷 没有 占用 太 多 的 存储 空间 ， 不 需要 
额外 购买 存储 空间 了 。 一 周 后 ， 应 用 测试 管理 员 出 现 失 误 ， 将 Clone 郑 
中 的 大 量 重 要 数据 删 掉 了 ， 和 急 急 忙 忙 找到 了 IT 管理 员 。IT 管 理 员 不 眉 不 
忙 ， 从 容 地 将 这 个 Clone 卷 删 掉 ， 然 后 直接 在 生产 数据 库 的 源 卷 上 又 创 
建 了 一 份 Clone， 了 映射 给 应 用 测试 机 ， 测 试 机 挂 载 后 ， 一 切 如 故 。 





克隆 可 以 用 来 研究 平行 宇宙 、 蝴 蝶 效 应 等 理论 。 将 东 个 时 间 点 的 影 
像 瞬间 复制 成 多 份 平行 复制 ， 然 后 让 其 并 行 地 继续 向 下 发 展 ， 调 查 后 续 
各 份 平 行 数据 的 发 展 路 径 从 而 调查 周围 环境 或 者 未 发现 的 其 他 隐 舍 因素 
对 事件 发 展 的 影响 。 最 简单 和 直观 的 例子 : 有 100 台 硬件 配置 完全 相同 
的 PC， 用 同一 张 光 盘 灌 入 操作 系统 ， 同 样 的 使 用 步骤 和 环境 ， 但 是 随 
着 时 间 的 变化 ， 每 人 台 PC 上 操作 系统 的 行为 开始 产生 兰 异 ， 最 后 迎 异 。 
那么 你 如 何 去 调 碍 到 底 是 什么 因素 引起 了 如 此 巨大 的 差异 ? 你 可 以 编写 
一 套数 据 监控 统计 挖掘 分 析 报 告 的 系统 ， 针 对 同一 份 数据 生成 多 份 并 行 
克隆 ， 然 后 在 其 上 进行 模拟 分 析 。 甚 全 可 以 在 虚拟 现实 系统 中 ， 对 虚拟 
世界 生成 并 行 的 多 个 克隆 ， 然 后 调查 各 种 行为 对 虚拟 世界 后 续 发 展 路 径 
的 影响 。 




















4. 使 用 Clone 卷 来 进行 Rollback 操 作 


1) 用 虚 Clone 卷 来 Rollback 源 卷 


如 果 某 时 刻 ， 源 卷 中 的 数据 发 生 逻 辑 上 的 错误 ， 比 如 大 规模 病毒 感 
染 破 坏 、 分 区 误 删除 、 文 件 误 删 除 等 ， 此 时 可 以 选择 直接 使 用 虚 Clone 


卷 进行 Rollback 操 作 ， 直 接 将 原先 被 CoFW 出 去 的 数据 禾 盖 回 源 卷 。 当 
然 ， 如 果 Clone 卷 已 经 被 其 他 程序 更 改 ， 则 也 可 以 选择 保留 这 些 更 改 。 
如 果 选 择 保留 更 改 ， 那 么 系统 会 先 将 前 几 节 中 描述 的 RoFW 映 射 表 与 快 
照 地 址 映射 表 中 对 应 的 地 址 逐条 检测 ， 如 果 发 现 某 个 地 址 在 两 份 表 中 都 
有 了 映射 条 目 ， 证 明 Clone 卷 中 对 应 的 地 址 被 改写 过 ， 则 快照 映射 表 中 对 
应 的 IO 仓库 中 的 CoFW 数 据 过 期 ， 在 Rollback 的 时 候 直 接 覆 盖 RoFW 表 中 
的 数据 而 无 须 先 履 盖 CoFW 的 数据 再 履 盖 RoFW 表 中 的 数据 ， 节 约 了 资 





2) 用 实 Clone 卷 来 Rollback 源 卷 


如 果 使 用 已 经 被 Clone Split 的 实 Clone 卷 来 对 源 卷 进 行 Rollback， 则 
需要 的 步 又 就 会 复杂 一 些 。 因 为 当初 Clone 被 Split 之 后 ， 系 统 会 将 源 卷 
和 克隆 原来 共用 的 数据 块 复制 出 来 ， 如 果 在 Split 完 成 和 Rollback 之 间 的 
时 段 内 ， 主 机 并 未 对 源 卷 上 的 这 些 原本 共享 的 数据 块 做 太 多 更 改 的 话 ， 
那么 在 Rollback 的 时 候 如 果 依 然 将 有 所 有 原本 共享 的 数据 块 也 一 同居 盖 到 
源 卷 ， 则 这 样 做 就 属于 浪费 资源 了 。 








如 何 解决 这 个 问题 呢 ? 此 时 快照 指针 已 经 不 复 存 在 ， 不 可 能 再 用 快 
照 恢复 源 卷 y 。 要 解决 这 个 问题 ， 就 需要 对 这 些 共 孚 的 数据 块 在 Split 之 
后 所 发 生 的 更 改动 作 做 退 踪 。 这 里 人 们 想 出 一 个 办 法 ， 有 具体 如 下 。 


a 在 Clone ”Split 完成 之 后 ， 立 即 为 源 卷 和 实 元 隆 卷 分 别 创 建 两 份 
Bitmap， 针 对 源 卷 的 Bitmap 中 为 全 0， 而 实 元 隆 卷 的 Bitmap 中 ， 
对 应 之 前 被 CoFW 出 的 所 有 地 址 的 位 为 1， 其 他 全 为 0， 为 0 的 位 则 
代表 与 源 卷 共享 的 数据 块 。 

Bitmap 生 成 之 后 ， 系 统 才 人 允许 继 续 对 源 郑 或 者 实 Clone 卷 进行 读 
写 IO 操作 。 








a 随后 ， 当 系统 接收 到 任何 针对 源 卷 的 写 IO 后 ， 系 统 就 会 在 刚才 生 
成 的 全 0 源 卷 Bitmap 中 将 对 应 IO 地 址 的 位 置 为 1， 并 将 IO 写 入 源 
卷 。 同 理 ， 当 接收 到 任何 针对 实 Clone 卷 的 写 IO， 也 在 刚才 的 那 
份 针 对 实 Clone 卷 的 Bitmap 中 将 对 应 IO 地 址 的 位 置 为 1， 如 果 已 经 
为 1 则 不 做 动作 。 


设想 一 下 ， 经 过 这 样 的 设计 ， 源 卷 和 实 Clone 卷 在 一 段 时 间 的 数据 
更 改 之 后 ， 只 有 在 两 份 Bitmap 中 都 为 0 的 位 ， 才 表示 目 上 一 次 Clone Split 
之 后 两 闪 均 未 发 生 更 改 的 地 址 。 而 针对 实 Clone 卷 的 初始 Bitmap 中 只 有 
当时 与 源 卷 共享 的 数据 块 才 为 0， 这 样 台 可 以 推导 出 ， 两 份 Bitmap 中 都 
为 0 的 地 址 ， 其 对 应 的 数据 块 内 容 是 完全 一 样 的 ， 所 以 在 进行 Rollback 
时 ， 可 以 跳 过 这 些 数据 块 。 





如 图 16-25 所 示 ， 我 们 将 这 两 份 Bitmap 做 OR 操作 ， 得 到 的 新 Bitmap 
中 ， 所 有 为 1 的 地 址 ， 就 代表 需要 从 实 Clone 卷 中 将 对 应 地 址 的 数据 禾 盖 
回 源 卷 ， 为 0 则 跳 过 。 帮 善 成 功 之 后 ， 将 当前 处 理 的 位 重 置 为 0， 然 后 接 
着 处 理 下 一 位 ， 顺 序 扫 摘 并 处 理 结果 Bitmap 中 的 每 一 位 。 这 样 的 设计 可 
以 大 大 降低 Rollback 过 程 中 需要 复制 的 数据 ， 缩 短 Rollback 时 间 。 








图 16-25 SplitClone 和 RollBack 
3) 用 源 卷 来 Catchup 实 Clone 卷 到 当前 时 间 点 


在 Clone Split 完 成 之 后 的 茶 时 刻 ， 如 末 用 户 对 上 一 个 实 元 隆 欠 做 了 
很 多 更 改 而 且 发 现 有 逮 辑 上 的 问题 ， 想 对 当前 的 源 卷 再 次 生成 一 份 实现 
隆 卷 ， 当 然 ， 用 户 可 以 再 次 用 传统 的 步 又 ， 即 先生 成 快照 ， 然 后 Split 进 
行 数据 复制 ， 成 功 之 后 ， 删 除 原 来 的 旧 实 克隆 和 天。 但 古 这 样 做 需要 花费 
很 长 的 数据 复制 时 间 ， 是 否 有 一 种 办 法 在 上 一 个 旧 克 隆 卷 的 基础 上 ， 将 








源 卷 目 上 次 Clone Split 之 后 所 发 生 的 所 有 数据 更 改 同步 到 上 一 次 生成 的 
实 克 隆 卷 上 呢 ? 


答案 是 肯定 的 。 很 显然 ， 根 据 上 一 步 中 的 OR 操作 之 后 的 Bitmap， 

只 有 为 0 的 位 才 是 Rollback 时 源 卷 和 实 Clone 卷 上 内 容 相 同 的 数据 地 址 ， 
那么 此 时 我 们 不 是 要 从 Clone 卷 复制 数据 覆盖 到 源 卷 ， 而 是 要 做 相反 方 
向 的 动作 ， 那 么 直接 就 可 以 根据 结果 Bitmap， 将 所 有 为 1 的 位 对 应 的 源 
卷 上 的 地 址 的 数据 复制 出 来 并 覆盖 到 实 Clone 卷 。 才 盖 成 功 之 后 ， 将 当 
前 处 理 的 位 置 为 0%， 然 后 接着 处 理 下 一 位 ， 顺 序 扫描 并 处 理 结果 Bitmap 
中 的 每 一 位 。 之 后 ， 实 Clone 卷 就 与 当前 源 卷 的 内 容 相同 了 。 这 期 间 的 
数据 复制 跳 过 了 两 个 卷 原本 内 容 束 相同 的 数据 块 ， 节 约 了 很 多 时 间 。 














4) Clone Split 期 间 如 何 处 理 主机 读 写 IO 


Split 执 行 开 始 之 前 ， 系 统 需 要 首先 创建 一 个 针对 源 卷 的 RoFW 数 据 
映射 表 ，Split 开 始 之 后 ， 所 有 针对 源 卷 的 写 操作 都 被 重 定 同 写 到 表 中 ， 
一 直到 Split 结 束 ， 将 源 卷 与 快照 中 共有 至 的 数据 块 复制 到 实 Clone 郑 中 之 
后 ， 系 统 慢 慢 在 后 台 将 RoFW 表 中 的 数据 宪 盖 回 源 着 ， 过 程 与 上 一 步 介 
绍 的 相同 。 


5) Rollback 期 间 如 何 处 理 主 机 读 写 IO 


Rollback 过 程 都 可 以 在 后 台 执 行 ， 即 对 于 前 端 来 讲 ，Rollback 可 以 
被 通告 为 立即 完成 。 在 Rollback 后 台 执 行 期 间 内 ， 如 果 遇 到 主机 端的 读 
IO 操 作 ， 则 系统 必须 参考 OR 运算 之 后 的 结果 Bitmap。 如 果 IO 的 地 址 对 
应 的 位 为 1， 则 从 实 Clone 卷 中 读 取 对 应 地 址 的 数据 返回 给 主机 (所 以 在 
Rollback 期 间 ， 实 Clone 卷 是 不 允许 写 的 ， 人 否则 会 不 一 致 ) ;， 如果 对 应 的 
位 是 0， 则 直接 从 源 卷 对 应 的 地 址 读 取 数 据 并 且 返 回 给 主机 。 如 果 遇 到 











写 操 作 ， 依 然 首先 查找 结果 Bitmap， 对 应 地 址 的 位 如 果 为 0， 则 直接 将 
IO 写 入 源 卷 ， 如 果 对 应 的 位 为 1， 则 系统 将 IO 写 入 源 卷 对 应 地 址 之 后 立 
即将 结果 Bitmap 中 对 应 的 这 一 位 置 为 0。 


6) Catchup 期 间 如 何 处 理 主机 读 写 IO 


总 体 来 讲 ， 这 一 步 与 上 一 步 的 操作 步骤 本 质 上 相同 ， 但 是 需要 增加 
一 步 。 由 于 Rollback 时 实 Clone 卷 不 允许 接受 写 IO， 那 么 同 理 ，Catchup 
时 源 卷 也 就 不 能 接受 写 IO。 但 是 这 样 做 是 不 允许 的 ， 除 非 是 前 台 
Catchup， 但 是 这 样 会 对 主机 应 用 造成 暂停 影响 。 解 决 的 办 法 依然 是 使 
用 RoFW 大 法 了 。 在 Catchup 执 行 之 前 首先 创建 一 个 针对 源 卷 的 RoFW 数 
据 映 射 表 ， 所 有 在 Catchup 期 间 针 对 源 卷 的 写 IO 都 被 重 定 癌 到 这 个 表 
中 ， 读 IO 则 首先 查询 这 个 表 ， 如 果 找 到 对 应 的 地 址 则 从 这 个 表 而 不 是 源 
卷 中 读 取 数 据 并 返回 给 主机 ， 如 果 是 写 IO 则 也 先 查 询 这 个 表 ， 如 果 对 应 
IO 地 址 已 经 存在 条 目 则 窗 盖 ， 不 存在 则 插入 。 当 Catchup 完 成 之 后 ， 系 
统 再 将 RoFW 表 中 的 数据 慢 慢 在 后 台 同 步 回 源 卷 。 





卷 Clone 是 依托 在 快照 技术 上 的 一 个 高 附加 值 产物 ， 其 附加 价值 就 
体现 在 一 个 RgFW 了 映射 表 上 ， 从 而 使 快照 可 写 。 实 现 这 个 技术 不 是 什么 
难事 ， 但 却 能 得 到 高 回报 京 。 


ca 


5. EMC 公 司 卷 Clone 产 品 简 述 
1) Snapview 系 列 


Snapview 是 运行 在 EMC 公 司 中 低 端 存储 系统 Clariion CX 平台 的 操作 
系统 FLARE 上 的 一 个 软件 模块 ， 它 又 被 分 为 Snapview/snapshot 和 
Snapview/clone 两 个 功能 选项 。 前 者 代表 普通 快照 功能 ， 后 者 则 代表 卷 


Clone 功 能 。 


Snapview/snapshot 在 进行 CoOFW 时 会 以 64KB 为 单位 进行 COFW， 也 
就 是 说 ， 快 照 生 成 之 后 ， 如 果 有 有 某 个 针对 源 卷 的 写 IO 仅 为 4KB， 那 么 系 
统 依然 会 将 这 4KB 上 所 在 的 64KB 单 元 全 部 复制 到 IO 仓库 〈EMC 的 说 法 是 
Reserved LUN) 中 存放 。 如 采 随 后 某 个 写 IO 再 次 落 在 了 这 64KB 单 元 地 
址 的 任何 地 址 段 ， 系 统 也 不 会 再 进行 CoFW 操 作 。 这 种 提高 CoFW 单 元 
粒度 的 方法 一 方面 降低 了 维护 更 细 粒 度 地 址 映射 表 的 开销 ， 另 一 方面 也 
显 音 降低 了 CoFW 对 系统 写 性 能 的 影响 所 持续 的 时 间 。 唯 一 一 个 坏处 就 
是 会 浪费 IO 仓 库 中 一 定 的 空间 ， 可 以 说 是 以 空间 换 性 能 。 








Snapview/Clone 使 用 一 种 叫做 Copy On First Access (CoFA) 的 机 
制 ， 当 挂 载 并 使 用 克隆 的 那 台 主机 发 起 针对 这 个 克隆 卷 的 任何 IO 时 ， 不 
管 是 读 还 是 号 ， 如 果 IO 的 目标 地 址 块 是 首次 被 读 或 者 写 ， 那 么 系统 将 从 
源 卷 中 将 对 应 的 块 ( 或 者 更 大 的 粒度 ， 见 上 文 ) 复制 出 来 放 到 元 隆 卷 空 
间 里 存放 。 同 时 ， 针 对 源 卷 的 首次 窗 盖 写 入 时 当然 也 会 触发 复制 ， 但 是 
针对 源 卷 的 块 的 读 操 作 是 不 会 触 友 复制 的 ， 只 有 和 针对 元 隆 卷 的 首次 读 才 
会 触发 复制 。 这 样 做 的 目的 是 为 了 降低 克隆 卷 对 源 卷 的 性 能 影响 ， 但 是 
却 增 加 了 存储 空间 的 需求 量 。 




















如 图 16-26 所 示 为 EMC Clariion 配 置 界面 ， 其 中 Fracture、 
Synchronize 和 Reverse ”Synchronize 分 别 对 应 上 文中 的 ”Clone Split、 
Catchup 和 Rollback。 


图 16-26 Fracture 





2) Timefinder 系 列 


Timefinder 是 运行 在 EMC 公 司 高 端 存储 系统 Symmetrix DMX 平 台 的 


操作 系统 Enginuity 上 的 一 个 软件 套件 模块 。 它 包括 TimeFinder/Snap、 
TimeFinder/Clone、TimeFinder/Mirror、TimeFinder/CG (Consistency 
Group) 等 几 个 组 件 。 


TimeFinder/Snap、TimeFinder/Clone 分 别 对 应 了 快照 和 卷 Clone 的 功 
能 。TimeFinder/CG 则 实现 了 一 致 性 组 功能 ， 关 于 一 致 性 组 技术 会 在 后 
面 的 章节 详细 地 论述 。 





这 里 需要 着 重 提 一 下 TimeFinder/Mirror 功 能 。 传 统 的 Clone 卷 是 基于 
对 源 卷 在 某 一 时 间 点 的 快照 而 作成 的 ， 但 是 TimeFindervMirror 则 不 依托 
快照 来 实现 ， 而 是 直接 对 源 卷 进行 实时 的 同步 镜像 ， 针 对 源 卷 的 任何 写 
IO 都 被 实时 同步 到 一 个 镜像 卷 中 。 





某 时 刻 ， 用 户 可 以 发 起 Split 动 作 ， 使 这 个 镜像 卷 脱 离 源 卷 而 成 为 一 
个 独立 的 卷 ， 也 就 相当 于 在 这 个 时 刻 创 建 了 一 份 卷 Clone， 只 不 过 这 份 
卷 Clone 在 Split 之 后 立即 就 是 一 个 物理 独立 卷 了 ， 而 不 需要 任何 数据 复 
制 过 程 。Split Mirror 之 后 ， 源 卷 与 切 开 后 的 镜像 卷 也 可 以 各 自 记 录 一 份 
Bitmap， 就 像 上 文中 所 说 的 。 而 随后 ， 可 以 选择 利用 源 卷 来 Catchup 这 
个 Clone 卷 ， 或 者 选择 使 用 Clone 卷 来 Rollback 源 卷 。EMC 将 这 种 镜像 卷 
称 为 BCV， 即 Business Continuous “ Volume。 其 作用 与 传统 Clone 卷 相 
同 。 唯 一 优点 就 是 Split 之 后 立即 可 用 ， 无 须 等 竺 数据 复制 。 最 大 的 缺点 
则 是 由 于 数据 完全 与 源 卷 同步 ， 一 旦 源 着 数据 发 生 逻 辑 错 误 ， 而 发 生 错 
误 之 前 又 没有 手动 Split， 则 镜像 卷 的 数据 也 同样 变 为 逻辑 不 一 致 的 了 。 














16.2.5 ”Continuous Data Protect (CDP， 连 续 数 据 保 护 ) 


SNIA 对 于 CDP 给 出 了 一 个 定义 。CDP (持续 数据 保护 ) 是 一 种 在 
不 影响 主要 数据 运行 的 前 提 下 ， 可 以 实现 持续 捕捉 或 跟踪 目标 数据 所 发 








生 的 任何 改变 ， 并 且 能 够 恢复 到 此 前 任意 时 间 点 的 方法 。CDP 系 统 能 够 
提供 块 级 、 文 件 级 和 应 用 级 的 备份 。 


有 一 类 所 谓 的 Near CDP 产 品 ， 可 以 生成 高 频率 的 快照 ， 比 如 一 小 时 
几 十 次 、 上 百 次 等 。 用 这 种 方法 来 保证 数据 恢复 的 粒度 足够 细 。 





CDP 是 这 样 一 种 机 制 ， 即 它 可 以 保护 从 某 时 刻 开 始 卷 或 者 文件 在 此 
后 任意 时 刻 的 数据 状态 ， 也 惑 是 数据 的 每 次 改变 ， 都 会 被 记录 下 来 ， 无 
一 遗漏 。 这 个 机 制 乍 一 看 非常 神奇 ， 其 实 它 的 底层 只 不 过 是 比 快照 多 了 
一 些 考虑 而 已 ， 下 面 我 们 就 来 分 析 它 的 实现 原理 。 








1. 应 用 级 和 文件 级 的 CDP 


所 谓 应 用 级 CDP， 是 说 对 数据 的 连续 保护 机 制 是 发 生 在 应 用 程序 层 
的 ， 换 句 话说 ， 由 应 用 程序 自己 对 上 自己 的 数据 加 以 连续 保护 ， 记 录 和 保 
存 每 一 笔 更 改 。 应 用 级 CDP 的 典型 例子 就 是 比如 Oracle 和 DB2 等 各 种 数 
据 库 系统 ， 数 据 库 系 统 对 每 一 笔 交 易 都 会 进行 日 志 记录 ， 在 归档 日 志 模 
式 下 ， 所 有 曾经 对 数据 库 进 行 的 更 改 操作 均 会 被 打 入 时 间 惟 并 记录 到 日 
志 中 ， 老 日 志 不 断 地 被 归档 存放 以 便 为 新 日 志 腾 出 空间 。 当 数据 库 发 生 
问题 的 时 候 ， 利 用 归档 的 日 志 ， 就 能 够 将 数据 库 状 态 恢复 到 任何 一 个 指 
定 的 时 间 点 ， 数 据 库 会 顺序 读 出 库 中 的 每 一 
CReplay) ， 对 应 的 数据 重新 写 入 数据 库 文 件 。 重 放 完 成 后 ， 还 需要 进 
行 Redo 和 Undo 操 作 ， 即 检 碍 日 志 中 最 后 ee ， 一 致 
点 之 后 发 生 的 交易 全 部 回 退 。 回 退 完成 后 ， 数 据 库 便 处 于 一 个 一 致 的 状 
态 并 且 可 用 。 应 用 层 CDP 不 需要 任何 其 他 程序 的 辅助 ， 不 需要 任何 特殊 
的 存储 系统 功能 ， 完 全 由 应 用 程序 自 喘 融 可 以 完成 。 应 用 级 CDP 是 最 纯 
粹 、 最 厚道 、 最 彻底 、 最 实用 的 CDP。 

















文件 级 CDP 束 是 通过 监视 文件 系统 动作 ， 文 件 的 每 一 次 变化 (包括 
实际 数据 或 者 元 数据 的 变化 ， 比 如 重 命名 、 删 除 、 裁 前 每 属性 的 改变 ) 
以 日 志 的 形式 被 记录 下 来 。CDP 引 擎 分 析 应 用 对 文件 系统 的 IO 数 据 流 ， 
然后 计算 出 文件 变化 的 部 分 ， 将 其 保存 在 CDP 仓 库 设 备 (存放 CDP 数 据 
的 介质 ) 中 ， 可 以 针对 每 个 文件 生成 单独 的 日 志 链 。 可 以 对 一 个 文件 ， 
或 者 一 个 目录 ， 甚 至 一 个 卷 来 监控 。 文 件 级 的 CDP 方 案 ， 一 般 需 要 在 生 
产 主 机 上 安装 代理 ， 用 来 监控 文件 系统 ID， 并 将 变化 的 数据 信息 传送 到 
CDP 仓 库 介 质 中 ， 或 者 使 用 本 地 文件 系统 或 者 厂 盘 的 东 块 额外 空间 来 充 
当日 志 仓 库 。 文 件 级 的 CDP， 能 够 保证 数据 的 一 致 性 。 因 为 它 是 作用 于 
文件 系统 层次 ， 捕 获 的 是 完整 事务 操作 。 所 有 的 文件 版 本 管理 软件 都 可 
以 算 作 是 文件 级 CDP 的 实现 。 








其 实 日 志 型 文件 系统 自身 也 可 以 算 作 是 一 个 粗 线条 的 CDP 实 现 ， 因 
为 日 志 型 文件 系统 自身 也 会 记录 每 一 笔 操 作 记录 和 数据 ， 只 不 过 其 日 志 
古 循 环 的 ， 并 非 归 档 模式 ， 同 时 默认 的 日 志方 式 是 只 记录 元 数据 更 改 而 
不 记录 实际 数据 ， 并 且 也 不 提供 用 户 目 定义 回溯 时 间 操 的 功能 。 如 果 能 
够 直接 在 文件 系统 模块 中 或 者 外 髓 一 个 模块 来 针对 每 个 文件 记录 归档 模 
式 的 元 数据 十 实际 数据 日 志 ， 那 么 恢复 的 时 候 就 可 以 指定 茶 个 文件 的 茶 
个 时 间 点 进行 数据 回 深 了 。 

















2. 块 级 的 CDP 


块 级 的 CDP， 与 应 用 级 和 文件 级 CDP 实 现 思想 相同 ， 其 实 就 是 捕获 
底层 卷 的 写 IO 变 化 ， 并 将 每 次 变化 的 块 数据 打 入 时 间 惟 并且 保 存 下 来 。 
这 里 移 不 探讨 具体 产品 的 架构 ， 而 只 对 其 代码 层 设计 原理 做 一 个 细致 的 
描述 。 后 文中 则 会 对 块 级 别 CDP 整 体 架 构 做 更 加 细致 的 论述 。 


提示 : 以 下 对 于 CDP 的 描述 引 目 效 育 云 的 博客 


(aogingy.spaces.live.com) 。 


CDP 起 源 于 Linux 下 的 CDP 模 块 。 它 持续 地 捕获 所 有 LO 请 求 ， 并 且 
将 这 些 请 求 打上 时 间 惟 标志。 它 将 数据 变化 以 及 时 间 戳 保存 下 来 ， 以 便 
恢复 到 过 去 的 任意 时 刻 。 


在 Linux 的 CDP 实 现 中 ， 包 含 下 列 三 个 设备 。 


a 主机 磁盘 设备 《host disk) 
mn CDP 仓 库 设备 (repository) 
sn CDP 元 数据 设备 (metadata) 


CDP 代 码 对 主机 磁盘 设备 在 任意 时 刻 所 做 的 写 操作 都 会 记录 下 来 ， 
将 实体 数据 按 顺 序 写 入 CDP 仓 库 设 备 中 ， 对 于 这 些 实体 数据 块 的 描述 信 
晨 ， 则 被 写 入 到 CDP 元 数据 设备 的 对 应 山区 





元 数据 包含 以 下 信息 : 


struct metadata { 

int hrs，min，sec; 该 数据 块 被 号 入 主机 磁盘 设备 的 时 间 
unsigned int bisize; 该 数据 块 以 字 节 为 单位 的 长 度 

sector_t CDP_sector; CDP 仓 库 设备 中 对 应 数据 块 的 起 始 扇 区 编号 
sector_t host_sector; 该 数据 块 在 主机 磁盘 设备 中 的 起 始 硝 区 编号 
}; 


图 16-27 反 映 了 主机 磁盘 设备 和 CDP 仓 库 设 备 之 间 的 关系 。CDP 仓 
库 设备 中 按时 间 顺 序 保存 了 对 主机 磁盘 设备 的 数据 修改 。A 为 主机 磁盘 
设备 上 的 一 个 扇 区 ， 该 扇 区 在 9: 00 和 9: 05 分 别 进行 了 修改 ， 它 在 CDP 
仓库 设备 中 对 应 的 而 区 分 别 为 A1 和 A2。 











图 16-27 ”CDP 仓 库 与 主机 磁盘 设备 间 的 关系 





图 16-28 反 映 了 CDP 仓 库 设 备 和 CDP 元 数据 设备 之 间 的 关系 ， 它 们 
的 写 入 顺序 一 一 对 应 。CDP 仓 库 设备 中 的 一 个 元 数据 ， 对 应 CDP 元 数据 
设备 中 一 个 IO 请 求 ， 实 际 上 可 能 是 多 个 而 区 。 有 具体 忆 区 数 由 元 数据 中 
的 bisize 指 定 ， 而 起 始 忆 区 位 置 由 CDP_sector 指 定 。 


图 16-28 ” CDP 仓库 设备 与 CDP 元 数据 设备 间 的 关系 





全 局 变量 maddr 保 存 了 下 一 个 IO 请 求 ， 在 CDP 仓 库 设 备 上 执行 的 地 
址 〈 起 始 扇 区 编号 ) 。maddr 的 初 值 被 定义 为 宏 
START METADATA (0) 。 


unsigned int maddr = START_METADATA 


当 一 个 写 请 求 到 来 时 ， 对 应 数据 被 写 到 CDP 仓 库 设备 中 ， 这 时 所 做 
的 操作 如 下 : 





(1) 将 写 入 CDP 仓 库 设 备 的 数据 块 起 始 扇 区 编号 设置 为 maddr; 
(2) 根据 要 写 入 主机 磁 副 设备 的 数据 块 的 出 区 数目 增加 maddr。 


这 时 ， 用 户 要 将 这 里 写 入 CDP 仓 库 设备 的 数据 块 编号 记录 下 来 ， 以 
便 构造 对 应 的 元 数据 。 


全 局 变量 taddr 保 存 了 下 一 个 IO 请 求 ， 对 应 的 元 数据 ， 在 CDP 元 数 
据 设 备 中 保存 的 地 址 (起 始 忆 区 编写 )。taddr 的 初 值 被 定义 为 宏 
START_METADATA (0) 。 





unsigned int taddr = START_METADATA 





当 一 个 写 请 求 到 来 时 ， 对 应 的 元 数据 被 记录 在 CDP 元 数据 设备 中 。 


为 了 简单 起 匈 ， 在 元 数据 设备 上 ， 一 个 届 区 “512B〉 只 保存 一 个 元 
数据 信息 (只 有 32B)〉， 这 样 浪费 了 大 量 的 存储 空间 ， 但 对 元 数据 设备 
的 处 理 却 非常 简单 : 








(1) 将 写 入 CDP 元 数据 设备 的 元 数据 起 始 扇 区 编号 设置 为 taddr， 
长 度 为 1 个 肩 区 ; 


(2) 将 taddr 增 加 1; 
(3) 请 求 处 理 过 程 。 


请 求 处 理 过 程 是 从 make_request 函 数 开 始 的 。 考 虑 到 读 请 求 处 理 的 
相似 性 ， 甚 至 更 为 简单 ， 这 里 只 分 析 对 写 请 求 的 处 理 过 程 。 首 先 获 得 当 
前 的 系统 时 间 ， 然 后 写 请 求 bio 结 构 〈 为 便于 说 明 ， 这 里 记 为 B) 被 分 为 
三 个 写 请 求 bio 结 构 〈 分 别 为 B0、B1 和 B2) ， 如 图 16-29 所 示 。 这 三 个 
bio 结 构 的 作用 如 下 。 





图 16-29 ”三 个 写 请 求 bio 结 构 





a B0: 将 数据 块 写 到 主机 磁盘 设备 。 
ms Bl: 将 数据 块 写 到 CDP 仓 库 设 备 。 
sa B2: 将 元 数据 写 到 CDP 元 数据 设备 。 





同 其 他 块 设备 驱动 程序 的 实现 一 样 ， 从 B 复 制 产 生 B0、B1 和 B2， 然 
后 重 定向 它们 要 处 理 的 设备 ， 即 bi _bdev 域 。 另 外 一 个 大 的 变动 是 重新 
设置 了 bi _end io 域 ， 用 于 在 IO 请 求 完成 之 后 进行 善后 处 理 。 


为 了 处 理 善 后 ， 还 要 将 BO0、B1 和 B2 的 bi_private 指 向 同一 个 


CDP_biol 结 构 。 从 这 个 结构 能 够 回 到 对 B 的 处 理 。 


struct CDP_bio { 

struct bio *master_bio; 原来 的 pio， 通 过 这 个 域 用 户 可 以 从 BO、B1、B2 找 
struct bio *bios[3]， 如 果 I0 为 WRITE， 这 个 指针 数组 分 别 指向 BO、B1、B2， 
需要 这 个 域 ? 

atomic t remaining; 这 是 一 个 计数 器 ， 在 后 面 会 解释 

unsigned long state; 在 I/0 完 成 方法 中 使 用 

}; 








善后 工作 的 主要 目的 是 在 B0、B1 和 B2 都 执行 完成 后 ， 回 去 执行 B， 

为 此 需要 一 个 “have we finished” 计 数 器 ， 这 就 是 原子 整 型 变量 
remaining。 在 构造 BO0、B1、B2 时 分 别 递增 ， 同 时 在 BO0、B1 和 B2 的 IO 

完成 方法 中 递减 ， 最 后 根据 该 值 是 否 递 减 到 0， 来 判断 B0、B1 和 B2 是 否 
都 已 经 执行 完毕 。 为 了 防止 B0 在 构造 后 、 在 B1 和 B2 构 造 之 前 就 执行 到 

B0 的 IO 完成 方法 ， 从 而 使 得 remaining 变 成 0 这 种 错误 情况 ， 我 们 没有 将 
remaining 的 初 值 设置 为 0， 而 是 设 为 1， 并 在 BO0、B1、B2 都 构造 完成 执 

行 递减 一 次 。 








B0、B1、B2 都 执行 完成 之 后 ， 进 行 如 下 的 处 理 。 
(1) 调用 B 的 善后 处 理 函 数 。 
(2) 释放 期 间 分 配 的 数据 结构 。 
(3) 同上 层 buffer cache 返 回 成 功 /错误 码 。 


提示 : “对 B2 的 构造 ， 这 个 bio 结 构 需 要 处 理 的 是 元 数据 。 时 间 
樵 已 经 在 进入 make_request 时 获得 了 保存 ， 而 对 主机 磁盘 设备 








操作 的 起 始 忆 区 和 长 度 从 B 中 可 以 获得 ， 对 应 的 CDP 仓 库 和 
CDP 元 数据 的 起 始 地 址 分 别 保存 在 全 局 变量 maddr 和 taddr 中 。 





数据 恢复 过 程 


用 户 可 以 将 数据 恢复 到 以 前 的 任意 时 刻 。CDP 实 现代 码 中 提供 了 一 
个 blk ioctl 函 数 ， 用 户 空间 以 GET_TIME 为 参数 调用 该 函数 ， 将 主机 磁 
盘 设 备 中 的 数据 恢复 到 指定 的 时 间 点 。 恢 复 的 过 程 分 为 以 下 几 个 步骤 。 








(1) 顺序 读 取 CDP 元 数据 设备 的 所 有 而 区 ， 构 造 一 个 从 主机 磁盘 
设备 数据 块 到 CDP 仓 库 设备 的 《在 这 个 时 间 点 之 前 〉 更 新 数据 块 的 映 
射 。 其 结果 保存 在 以 mt_home 为 首 的 《映射 表 ) 链表 中 ， 如 图 16-30 所 


不 。 
图 16-30 ”CDP 恢 复 过 程 


这 里 需要 构造 taddr 个 对 CDP 元 数据 设备 的 读 请 求 ， 每 个 请 求 读 取 一 
个 扇 区 。 在 这 些 请 求 的 TO 完成 方法 中 ， 从 读 到 的 数据 中 构造 元 数据 ， 
并 递减 计数 絮 count。 








如 果 元 数据 中 的 时 间 戳 早 于 或 等 于 指定 的 恢复 时 间 点 ， 则 需要 添加 
或 修改 mt_home 链 表 的 元 数据 结构 。 


提示 :这 些 项 是 以 host_sector 为 关键 字 索 引 的 ， 因 此 添加 或 修 
改 取决 于 前 面 是 个 出 现 对 同一 个 host_sector 的 修改 。 在 以 顺序 
方式 读 取 的 过 程 中 ， 可 以 保证 host_sector〈 在 指定 的 恢复 时 间 
点 之 前 ) 的 最 新 修改 CDP_sector 会 出 现在 这 个 链表 中 。 














由 于 计数 器 count 为 taddr， 如 果 它 递减 为 0， 说 明 CDP 元 数据 设备 中 


的 所 有 数据 均 已 读 出 并 处 理 ， 这 时 就 可 以 继续 往 后 面 执行 。 


(2) 从 CDP 仓 库 设 备 中 读 取 这 些 更 新 的 数据 块 ， 构 造 以 
mt_bi_home 为 首 的 链表 。 





同上 面 的 处 理 类 似 ， 我 们 需要 为 mt_home 链 表 中 的 每 一 项 构造 对 
CDP 仓 库 设备 的 读 请 求 ， 每 个 请 求 在 CDP 仓 库 设备 的 起 始 编写 取决 于 
CDP_sector 域 ， 长 度 则 根据 bisize 而 定 。 这 个 请 求 读 出 的 数据 需要 被 写 入 
到 主机 磁盘 设备 中 ， 为 此 在 读 请 求 O 完 成 函数 中 ， 构 造 一 个 对 应 的 往 
主机 磁盘 设备 的 写 请 求 bio， 该 写 请求 的 起 始 编 号 取决 于 host_sector 域 ， 
长 度 根据 bisize 而 定 ， 而 要 写 入 的 数据 是 刚刚 从 CDP 仓 库 设 备 中 读 出 的 
数据 。 另 外 ， 在 读 请 求 O 完 成 函数 中 ， 还 要 递减 一 个 计数 器 ， 当 该 计 
数 器 递减 到 0 时 ， 说 明 用 户 已 经 全 部 处 理 了 mt_home 链 表 中 的 项 ， 这 时 
会 得 到 一 个 以 mr_bio_home 为 首 ， 每 项 中 都 指 同一 个 bio 结 构 的 链表 。 











struct 1list_head mt_home; /VBI0O 更 新 链表 
struct most_recent_ blocks { /VBI0O 更 新 表 项 
struct bio *mrbio; 
struct list head list,; 


}; 
(3) 将 mt_bi_ home 链表 的 数据 块 都 恢复 到 主机 磁盘 设备 中 。 


这 个 操作 相对 比较 人 简单， 用 户 只 需要 在 主机 磁盘 设备 上 执行 
mt_bi_home 链 表 的 每 一 个 bio 请 求 项 即 可 。 当 然 还 要 在 这 些 请 求 项 的 IO 
完成 方法 中 做 善后 处 理 ， 即 如 果 所 有 请 求 项 都 已 经 执行 完毕 ， 则 释放 
mt_home 链 表 和 mt_bi home 链表 。 





3. CDP 架 构 模 型 演绎 


前 面 主要 给 出 了 CDP 底 层 的 设计 思想 和 思路 ， 丁 将 对 CDP 的 有 具体 
实现 做 一 个 架构 模型 猜想 和 分 析 ， 在 下 一 节 中 则 介绍 几 个 目前 市 场 上 广 
家 的 CDP 产 品 ， 通 过 分 析 其 产品 架构 从 而 对 CDP 进 行 更 加 深刻 的 理解 。 


演绎 之 前 ， 我 们 再 来 总 结 一 下 CDP 的 基本 原理 : 对 需要 保护 的 数据 
进行 连续 的 监视 ， 每 当 有 写 IO 发 生 ， 视 设计 方法 不 同 ， 将 这 份 IO 的 数据 
打上 时 间 戳 ， 保 存 到 另外 的 空间 中 (Row) 或 者 将 被 覆盖 的 数据 先 复制 
出 来 打上 时 间 惟 并 保存 到 另外 的 空间 中 然后 再 覆盖 新 写 入 的 数据 
(CoW) 。 这 里 为 何 没有 用 CoFW 或 者 RoFW 呢 ?因为 我 们 这 里 做 的 不 
仅仅 是 一 次 Snapshot， 而 是 连续 数据 保护 ， 记 录 每 个 IO， 所 以 怎么 会 允 
许 第 二 次 覆盖 写 就 不 Copy 或 重 定向 了 了 呢 ? 每 次 写 都 要 Copy 或 者 
Redirect， 除 非 用 于 保存 变化 IO 的 仓库 已 满 或 者 已 经 达到 用 户 所 设 定 的 
保护 期 限 闪 值 。 














说 明 : CDP 思想 的 核心 可 以 说 就 是 时 间 惟 ， 任 何 IO 都 必须 有 
时 间 戳 ，CDP 引 擎 在 壳 历 整个 链 的 时 候 ， 除 了 要 参考 FS 或 者 

VM 自身 的 元 数据 映射 链 或 者 映射 图 表 之 外 ， 还 要 参考 时 间 截 
链 ， 能 够 做 到 对 于 每 一 个 给 出 的 时 间 点 ，CDP 引 擎 都 可 以 从 源 
数据 区 和 变化 IO 仓 库 区 从 链表 /映射 图 以 及 时 间 惟 链 中 遍历 抓 

取出 一 份 完整 的 对 应 所 给 出 的 时 刻 的 源 数据 卷 的 元 数据 链 ， 从 
而 得 到 了 完整 的 实际 数据 卷 的 一 份 影像 〈image) 。 这 份 影像 
就 像 Snapshot 一 样 可 以 被 只 读 挂 载 以 用 于 恢复 数据 或 者 备份 到 
人 磁带， 或 者 像 卷 Clone 一 样 可 写 。 如 图 16-31 所 示 为 作者 自演 经 
的 一 种 CDP 产 品 模型 。 


图 16-31 ”自己 演绎 的 CDP 模 型 

















图 16-31 所 示 的 是 一 个 假想 中 的 CDP 实 现 架 构 。 特 别 需 要 注意 的 是 


图 中 所 有 箭头 的 位 置 和 指向 ， 每 个 位 置 和 指向 都 是 有 特殊 意义 的 ， 方 向 
四 上 的 第 头 代 表 读 IO 操 作 ， 同 下 则 代表 写 IO 操 作 。 下 面 束 这 个 染 构 模型 
来 做 一 个 论述 


一 台 主 机 后 端 通过 FC 交 换 机 连接 了 一 人 台 磁 盘 阵列 ， 磁 盘 阵 列 映射 
了 奋 干 LUN 给 这 台 主 机 使 用 ， 并 且 主 机 还 有 本 地 磁盘 ， 受 保护 的 文件 和 
卷 卫 有 一 部 分 存放 在 磁盘 阵列 中 ， 叉 有 一 部 分 存放 在 本 地 磁盘 中 。 其 前 
端 通过 以 太 网 交换 机 连接 了 一 台 CDP 服 务 器 。 主 机 上 安装 有 CDP 客 户 端 
套件 ， 包 括 的 主要 模块 有 : CDP 主 代理 模块 、 块 IO 捕 获 虚 拟 设 备 模 块 和 
文件 IO 过 滤 驱 动 模块 。 








1) 文件 IO 过 滤 模块 


这 个 模块 作用 于 文件 系统 层 劳 路 以 及 卷 管 理 层 之 上 ， 其 作用 是 监视 
每 个 受到 CDP 保 护 目录 下 的 文件 的 所 有 写 操 作 ， 一 旦 发 现 某 个 受 保护 的 
文件 有 写 入 操作 ， 则 将 这 个 操作 所 对 应 的 数据 和 偏 移 量 一 同 通 过 以 太 网 
发 送 到 CDP 服 务 器 端 (RoW 方 式 下 ) ， 或 者 先 将 受 保 护 的 文件 对 应 的 即 
将 被 履 盖 的 部 分 的 现 有 内 容 读 出 然后 附带 对 应 的 偶 移 量 信息 一 并 发 送 到 
0 出 后 再 将 待 写 入 的 数据 写 到 对 应 的 磁盘 空间 中 (CoW 方 式 

。 文 件 IO 过 滤 层 是 实现 文件 级 CDP 的 一 个 必需 组 件 。 而 实现 卷 级 或 
Re 的 CDP， 就 需要 在 卷 管理 层 之 下 的 Block IO 链条 之 间 插 入 一 
层 ， 也 束 是 网 示 的 块 IO 捕获 虚拟 设备 层 。 

















2) IO 捕获 虚拟 设备 层 


这 个 组 件 在 卷 管理 层 之 下 生成 了 一 个 虚拟 设备 ， 卷 管理 层 直 接 对 这 
个 设备 进行 IO， 从 而 将 任何 试图 写 入 受 CDP 保 护 的 卷 的 IO 操作 截获 ， 与 
文件 IO 过 涯 组 件 作 用 方式 相同 ， 根 据 不 同 设 计 方 式 比如 CoW 或 者 








RoW， 将 对 应 的 数据 和 LBA 地 址 段 信 息 发 送 到 CDP 服 务 器 端 。 这 两 个 组 
件 并 不 是 所 有 IO 都 监控 ， 它 们 只 会 回 操 作 系 统 API 注 册 受 CDP 保 护 的 目 
录 或 者 卷 的 监控 过 滤 权 限 ， 上 层 对 未 受 保护 对 象 的 写 IO 操作 均 会 Bypass 
掉 这 两 个 层 直 接 写 向 原 有 的 下 层 。 图 中 的 箭头 明确 标示 了 各 个 层次 之 间 
的 关系 。 








3) CDP 主 代理 模块 


这 个 模块 是 受 保护 的 客户 端 主 模块 ， 负 责 协调 与 CDP 服 务 器 的 通信 
和 数据 传输 ， 以 及 适 配 上 述 的 两 个 模块 。 如 果 说 上 面 两 个 模块 是 两 杆 
枪 ， 则 客户 端 主 代理 模块 就 是 前 线 指挥 者 ，CDP 服 务 器 就 是 后 方 总 指挥 
外 加 战俘 集中 营 。 主 代理 模块 还 负责 把 每 个 从 上 面 两 个 模块 接收 到 的 写 
IO 数据 打上 时 间 惟 并 发 送 给 CDP 服 务 端 模 块 保存 。 


如 有 果 使 用 RoW 方 式 ， 则 上 层 的 每 个 读 IO 也 均 会 经 过 文件 IO 过 滤 驱 
动 层 ， 过 滤 驱 动 将 IO 的 地 址 传送 给 主 代理 模块 ， 主 代理 模块 向 CDP 服 务 
器 发 出 查询 请 求 〈 民 好 的 设计 情况 下 无 须 每 次 都 查询 ， 代 理应 当 定 时 从 
CDP 服 务 器 端 将 地 址 统计 表 拉 过 来 做 缓存 ) ， 如 果 这 个 IO 的 地 址 恰好 是 
以 前 曾经 被 RowW 过 的 地 址 ， 则 CDP 服 务 器 从 IO 仓库 中 将 这 段 地 址 对 应 的 
实际 数据 提取 并 发 送 给 客户 端 主 代 理 ， 代 理 将 收 到 的 数据 传送 给 文件 过 
滤 驱 动 ， 然 后 文件 过 小 驱 动 再 将 数据 传送 给 上 层 请 求 者 。 可 以 看 出 ， 
RoW 方 式 的 流程 过 多 ， 效 率 非 党 低下， 但 是 可 以 利用 另外 一 种 方式 来 既 
用 到 Row 不 消耗 额外 的 IO 资源 这 个 优势 ， 又 能 屏蔽 掉 读 操作 对 主机 的 影 
响 ， 这 种 设计 思路 将 在 下 文 描述 

















在 利用 CDP 做 实 恢复 (对 应 虚拟 影像 来 讲 ) 的 时 候 ， 主 代理 模块 还 
负责 从 CDP 服 务 器 提取 对 应 时 间 点 之 前 的 所 有 被 保存 的 IO 数据 并 将 恢复 
的 数据 窗 盖 到 对 应 的 目录 或 者 天 。 在 利用 CDP 做 虚拟 影像 挂 载 读 写 的 时 








候 ， 上 层 针对 虚拟 卷 或 者 目录 的 每 次 读 或 者 写 IO， 都 需要 代理 根据 本 地 
所 缓存 的 地 址 统计 表 来 判断 对 应 IO 的 实际 数据 在 源 目 录 / 卷 还 是 位 于 
CDP 服 务 端的 IO 仓库 中 ， 并 去 将 数据 取 回 并 返回 给 请 求 者 。 








4) CDP 服 务 器 端 


CDP 服 务 器 端 是 整个 CDP 系 统 的 总 控制 台 和 IO 仓库 。 服 务 端 负责 监 
控 和 记录 所 有 受 保 护 的 客户 端 主机 上 的 代理 程序 状态 以 及 目录 / 卷 的 状 
态 、 传 输 状 态 等 。 服 务 端 负责 响应 代理 端的 查询 请 求 并 在 查询 命中 时 将 
保存 在 仓库 中 的 IO 数据 返回 给 代理 端 。 服 务 端 还 负责 接收 各 个 代理 端 传 
送 过 来 的 需要 保存 的 IO， 并 将 这 些 IO 数据 加 以 分 类 并 存放 到 本 地 的 存储 
空间 中 ， 并 做 好 时 间 错 索引 /地 址 段 索 引 等 重要 步骤 以 便 提 高 查询 速 
度 。 服 务 端 还 负责 提供 用 户 配置 接口 ， 用 CLIGUT 方 式 接收 用 户 的 配 
置 ， 比 如 保存 期 限 、 空 间 配额 、 备 份 策略 、 传 输 模 式 、 带 宽 控 制 、 用 户 
权限 控制 等 。 














CDP 服 务 端 可 以 是 一 人 台 普 通 的 服务 器 ， 安 装 对 应 的 软件 ， 也 可 以 是 
内 符 软 件 的 成 品 一 体 化 硬件 服务 器 。 至 于 CDP 服 务 器 的 存储 空间 ， 则 需 
要 根据 受 保护 的 总 容量 、 人 处 理 能 力 和 具体 需求 等 来 配置 ， 服 务 器 机 箱 内 
本 地 磁盘 以 及 通过 FC 或 者 SAS 之 关 的 适 配 卡 连接 的 外 置 扩展 柜 或 者 第 三 
方 独立 存储 系统 ， 均 可 作为 IO 仓库 存储 空间 。 


5) 源 郑 数据 被 保护 的 详细 步 又 阐述 





有 一 台 主 机 ， 其 上 有 一 个 100GB 大 小 的 卷 或 者 分 区 ， 需 要 对 其 进行 
CDP 连 续 保 护 ， 保 护 期 限 为 一 周 ， 也 就 是 说 只 保留 一 周 前 到 现在 的 所 有 
变化 数据 即 可 。CDP 服 务 器 已 经 安装 配置 完毕 。 





(1) 首先 在 这 台 主 机 上 安装 CDP 客 户 端 代理 模块 ， 安 装 完毕 后 需 





要 重新 启动 。 重 启 后 ， 对 这 个 卷 的 10 更 改 率 进行 评估 ， 得 出 结论 ，IO 仓 
库容 量 为 源 卷 容量 的 20% 即 可 。 





(2) 打开 代理 程序 主 界面 ， 在 其 中 申请 20GB 大 小 的 IO 仓库 ， 并 将 
其 分 配给 待 保护 的 卷 。 配 置 确定 后 ， 将 其 保存 ， 此 时 代理 与 CDP 服 务 器 
进行 通信 ， 服 务 器 端 自动 在 其 本 地 存储 仓库 内 分 配 了 一 块 20GB 大 小 的 
空间 并 记录 这 个 空间 的 使 用 者 和 卷 的 信息 ， 并 且 对 这 个 空间 做 一 些 元 数 
据 的 初始 化 操作 ， 等 待 接收 客户 端 发 送 过 来 的 IO 数据 。 





(3) 服务 端 完成 配置 后 ， 回 客户 端 代理 发 送 成 功 信号 。 客 忆 端 代 
理 在 GUI 界面 中 将 成 功 的 状态 显示 出 来 并 等 待 管理 员 的 下 一 步 指 示 。 此 
时 ， 数 据 保护 还 没有 局 动 ， 需 要 管理 员 手 动 司 动 。 管 理 员 手动 将 数据 保 
护 引 擎 月 动 ， 此 时 ， 块 IO 捕获 引擎 开始 工作 ， 将 需要 被 保 护 的 IO 数据 源 
源 不 断 地 发 送 给 代理 主 模块 ， 主 模块 打上 时 间 戳 后 将 IO 数据 传送 到 服务 
端 保存 。 








(4) 服务 端 收 到 对 应 客户 端 代理 的 IO 数据 后 将 其 存放 到 对 应 的 IO 
仓库 中 ， 按 照 设计 的 保存 格式 将 其 写 入 硬盘 ， 并 做 好 MetaData 的 更 新 。 
目前 几乎 所 有 的 CDP 设 计 都 类 似 ， 即 为 每 个 Block 地 址 形成 一 条 单独 的 
数据 块 链条 ， 每 个 针对 源 卷 这 个 地 址 的 写 IO 所 产生 的 CoW 或 者 RoW 出 
来 的 块 都 会 被 退 加 到 这 个 链条 末尾 并 打 入 时 间 玲 。 


(5) 随 着 客户 端的 IO 数 据 不 断 传 来 ，IO 仓 库 将 变 得 越 来 越 满 ， 在 


仓库 未 全 满 之 前 ， 比 如 一 周 之 后 ， 服 务 端 引擎 开始 根据 时 间 戳 来 判断 并 
删除 时 间 惟 时 于 一 周 的 所 有 IO 数据 以 便 清 空 部 分 空间 。 





(6) 当 服 务 疹 的 IO 仓库 内 容量 达到 所 设 定 的 浆 值 的 时 候 ， 将 会 产 
生 告 警 信息 提示 管理 员 将 IO 仓库 扩容 。 当 满仓 之 后 ， 针 对 这 个 郑 的 CDP 











引擎 集 止 在 当前 的 时 间 点 “RoW 模式 下 不 可 全 停 ， 因 为 随时 要 咽 应 上 层 
的 读 IO 请 求 ) ， 等 竺 管理 员 进 一 步 指示 。 当 管理 员 删 除 一 些 早 期 时 间 戳 
IO 数据 之 后 ， 或 者 扩容 IO 仓库 之 后 ， 重 新 局 动 CDP 引 擎 ， 停 止 时 间 氮 与 
局 动 时 间 点 之 间 客 户 端 卷 变 化 的 数据 没有 被 记录 ， 所 以 这 段 时 间 是 空 

期 ， 数 据 不 能 回调 到 这 期 间 的 时 间 点 。 而 且 ， 如 果 使 用 RoW 方 式 的 话 ， 
一 旦 IO 仓库 满仓 ， 则 不 但 不 能 回调 到 空白 期 ， 而 且 还 会 发 生 过 辑 上 的 巴 
盾 。 














比如 ， 满 仓 之 后 ， 假 设 源 卷 有 一 个 写 IO 是 针对 LBA1024 的 ， 并 且 
LBA1024 在 满仓 之 前 就 已 经 被 覆盖 过 多 次 ， 所 以 这 个 地 址 的 多 份 IO 数据 
被 冠 以 不 同 的 时 间 戳 保存 在 仓库 中 ， 此 时 ， 客 户 端 代理 由 于 仓库 满仓 而 
停止 了 IO 捕获 ， 那 么 这 个 IO 应 该 如 何 处 理 ? 难道 要 直接 写 到 源 卷 将 原来 
的 数据 履 盖 么 ? 如 果 这 样 做 ， 随 后 上 层 发 起 一 个 读 IO 请 求 ， 读 取 
LBA1024 的 话 ， 则 客户 端 代理 经 过 查询 服务 端 后 ， 会 将 服务 端 仓 库 中 对 
应 这 个 地 址 的 最 后 一 个 时 间 惟 的 数据 返回 ， 而 忘记 了 这 个 地 址 的 最 后 一 
次 写 动作 其 实 是 直接 写 到 了 源 卷 了 ， 并 没有 RoW， 此 时 如 有 果 有 果真 返回 了 
仓库 中 的 数据 而 不 是 源 卷 上 这 个 地 址 的 数据 ， 则 会 对 上 层 应 用 造成 重大 
影响 ， 轻 则 数据 错乱 ， 重 则 骨 溃 ， 这 是 绝对 不 容许 发 生 的 事情 。 











要 解决 也 不 难 ， 客 户 端 代理 在 让 这 个 写 IO 直 接 写 到 源 卷 之 前 ， 先 做 
一 下 记录 ， 这 份 记录 包含 所 有 在 IO 捕获 引擎 停止 之 后 发 生 的 ， 并 且 服 务 
端 仓 库 中 包含 对 应 地 址 的 数据 的 写 IO 信 息 ， 这 样 ， 上 层 写 完 之 后 再 发 起 
读 这 个 地 址 的 请 求 的 时 候 ， 客 户 端 代理 程序 优先 查询 这 份 记 录 ， 匹 配 则 
直接 将 IO 定向 到 源 卷 。 当 服务 端 IO 仓库 有 足够 剩余 空间 之 后 ，CDP 引 擎 
启动， 继续 接受 Row 的 IO 数据 ， 一 旦 有 茶 个 IO 是 针对 这 份 新 记录 中 的 
某 一 条 地 址 的 ， 则 客户 端 代 理 将 IO 打 入 时 间 恰 并 及 送 到 服务 端 仓库 之 
后 ， 立 即将 这 条 地 址 从 记录 中 删除 ， 以 后 上 层 针 对 这 个 地 址 的 读 IO 便 会 





再 次 被 重 定 癌 到 服务 端 仓库 里 对 应 这 个 地 址 的 最 后 一 个 时 间 稚 的 数据 。 


提示 : “Row 方式 流程 确实 够 复杂 够 变态 ， 所 以 ， 本 模型 宣告 
抛弃 这 种 方式 ， 全 面 转向 CoW 方 式 ， 大 家 可 以 目 己 演绎 一 下 ， 
CoW 方 式 并 不 会 出 现 上 述 的 问题 ， 这 里 就 不 再 具体 论述 了 。 使 
用 RoW 模 式 的 情景 会 在 力 一 个 模型 中 介绍 ， 而 且 这 也 是 目前 主 
流产 品 都 在 使 用 的 模型 。 


6) 数据 恢复 /回调 时 的 详细 步骤 阐述 〈 基 于 CoW 方 式 ) 


(1) 周一 早晨 ， 管 理 员 对 这 个 卷 做 了 一 次 Snapshot。 周 二 上 午 ， 一 
位 员工 小 糊 找 到 管理 员 说 他 在 周一 下 班 的 时 候 ， 在 编辑 完 这 个 卷 上 保存 
的 一 份 重 要 文档 之 后 ， 竟 然 稀里糊涂 地 将 其 误 删 除了 ， 问 能 不 能 恢复 回 
来 。 管 理 员 说 ， 恢 复 太 困难 了 ， 得 耽误 很 长 时 间 ， 而 且 很 嘛 烦 。 小 糊 中 
午 请 管理 员 吃 了 顿 大 和 餐 。 

















(2) 下 午 上 班 ， 管 理 员 首先 想到 了 用 Snapshot 做 恢复 ， 但 是 不 巧 ， 
最 后 一 份 Snapshot 是 周一 早 展 做 的 ， 而 那 老兄 在 周一 下 午 对 它 进行 了 编 
辑 ， 所 以 这 个 Snapshot 并 不 包含 这 份 被 编辑 后 的 文档 。 幸 好 ， 这 个 卷 正 
受到 CDP 的 保护 ， 就 让 时 光 来 倒流 吧 。 打 电话 询问 了 那 位 糊涂 兄 ， 得 知 
编辑 完 之 后 大 概 是 周一 下 午 5 点 整 左右 ， 什 么 时 候 删 除 的 ， 他 也 不 知 
道 ， 他 只 知道 自己 是 5 点 半 下 班 走 人 的 。 这 可 难为 管理 员 了 ， 不 知道 准 
确 时 间 的 话 ， 只 能 摸 着 石头 过 河 ， 用 二 分 法 吧 ， 看 来 中 午 这 顿 饭 吃 对 
可 受 























(3) 管理 员 打开 文件 服务 器 上 的 CDP 客 户 端 代理 配置 界面 ， 选 择 
了 Rewind Wizard， 然 后 选中 要 时 光 倒 流 的 疮 ， 下 一 步 ， 出 现 一 个 滑动 
条 ， 管 理 员 首先 将 滑 块 拖 动 到 周一 17 点 15 分 ， 也 就 是 糊涂 兄 开始 编辑 到 


下 班 走 人 这 期 间 的 中 点 。 然 后 单 击 Mount。 当 鼠标 单 击 Mount 的 一 猎 

那 ， 客 户 问 代理 迅速 地 将 指令 发 送 给 了 人 CDP 服务 器 问 ， 告 知 本 代理 需要 
提供 服务 ， 请 准备 一 下 相关 的 资源 ， 绥 存 Buffer 进 程 线程 都 给 准备 好 ， 
不 得 令 慢 ! 服务 端 迅速 准备 好 ， 然 后 通知 代理 : 准备 好 了 ! 代理 收 到 服 
务 病 反馈 后 ， 立 即 在 文件 服务 器 上 虚拟 出 一 个 新 卷 并 且 挂 载 到 一 个 盘 符 
下 





(4) 管理 员 打 开 *“ 我 的 电脑 ”， 出 现 了 一 个 新 磁盘 F 盘 ， 总 容量 与 受 
保护 的 卷 一 样 ， 一 看 就 知道 是 源 卷 在 周一 17 点 15 分 时 刻 的 虚拟 影像 了 ， 
宇 不 犹 驳 地 双击 进去 。 


(5) 客户 端 代理 没 想到 管理 员 手 竟然 这 么 快 ， 刚 挂 载 上 就 要 双 
击 ， 本 来 想 葡 一 阵子 看 来 不 行 了 ， 来 活 了 ! 谁 呀 ， 一 看 是 文件 系统 老 
大 ， 这 可 不 敢 禄 慢 —， 主 机 上 的 红 人 啊 !“ 文 兄 ， 有 何 指 示 ? ”代理 点 头 哈 
腰 地 说 。“ 咽 ， 老 大 有 指示 ， 让 我 来 视察 一 下 F 区 大 堂 都 有 些 什 么 人 儿 
啊 ， 我 查 了 查 地 图 ，F 区 大 堂 在 LBA1024 到 LBA2048 这 段 地 址 上 ， 你 给 
我 跑 趟 腿 ， 去 看 看 然后 告诉 我 结果 。?” 代 理 赶 忙 先 问 了 问 CDP 服 务 器 端 
仓库 中 对 应 LBA1024 到 LBA2048 这 些 数 据 块 的 各 自 链 条 中 有 没有 带 周 一 
17 点 15 分 的 玲子 的 ， 有 的 话 全 部 给 发 过 来 。 得 到 CDP 服 务 端的 答复 ， 
LBA1024 到 LBA1096 有 ， 内 容 也 发 过 来 了 ， 但 是 LBA1097 到 LBA2048， 
在 对 应 的 链条 中 没 找到 带 周 一 17 点 15 分 戳 子 的 。 代 理 一 下 明白 了 ， 既 然 
对 应 这 个 截 子 的 数据 不 在 CDP 服 务 端 仓库 里 ， 那 一 定 就 在 原 处 了 ， 赶 紧 
去 了 趟 源 卷 ， 把 这 段 地 址 的 数据 也 拿 了 过 来 。 然 后 点 头 哈 腰 地 给 文件 系 
统 过 目 ， 文 件 系统 拿 到 数据 后 ， 把 数据 给 了 管理 员 老 大 。 












































(6) 《上述 情节 发 生 在 半 秒 钟 前 〉 管理 员 双 击 进去 之 后 ， 看 到 其 
中 有 个 目录 叫做 “难得 糊涂 ”， 想 都 没 想 ， 老 糊 的 那个 文档 一 定 就 在 这 里 
面 了 ， 于 是 又 双击 进去 。 








(7) 文件 系统 喘 着 粗 气 又 来 到 代理 这 里 ， 上 和 气 不 接 下 气 地 说 :“ 竟 
然 又 让 老子 跑腿 ， 他 就 不 会 一 次 到 位 么 ! 哎 我 说 ， 你 再 跑 个 腿 ， 老 大 让 
我 再 看 看 F 区 下 面 的 难得 糊涂 楼 里 面 都 有 些 什 么 人 儿 ， 我 查 了 查 ， 在 地 
址 LBA8192 到 LBA10240 这 段 上 。” 代 理 心 想 ， 你 这 不 也 在 让 我 跑腿 么 ， 
扯淡 。 和 上 次 一 样 ， 把 对 应 的 数据 都 给 了 文件 系统 。 老 文 接 过 来 一 
看 :“ 空 的 ? ”代理 扭捏 道 : “ 额 .……. 我 可 看 不 懂 这 些 内 容 。?” 老 文 一 皱 
眉 :“ 你 小 子 ， 骗 我 的 话 有 你 好 看 ! ” 


(8) 《上述 情 节 发 生 在 半 秒 前 〉 管理 员 打 开 老 糊 的 这 个 目录 一 
看 ， 什 么 都 没有 ， 顿 时 明白 了 : 糊涂 兄 一 定 是 在 17 点 到 17 点 15 之 前 某 个 
时 间 把 文档 给 删 了 。 太 背 了 ， 还 得 再 用 一 次 。 管 理 员 打开 代理 程序 配置 
界面 ， 选 中 已 经 Mount 的 虚拟 卷 ， 单 击 Unmount 将 其 外 载 。 之 后 又 打开 
Rewind Wizard， 滑 动 条 拖 到 17 点 07 分 ， 单 击 Mount， 然 后 “我 的 电脑 ” 双 
击 进入 新 挂 载 的 虚拟 卷 ， 进 入 糊涂 兄 目 录 ， 一 看 ， 很 好 ， 这 次 文档 出 现 
了 ， 证 明 糊 涂 兄 一 定 是 在 17 点 07 分 到 17 点 15 分 之 间 将 其 误 删 除 的 。 但 是 
07 分 的 这 份 文档 影像 并 不 见得 就 是 删除 前 最 后 的 影像 ， 还 得 继续 找 。 定 
位 到 17 点 11 分 ， 挂 载 ， 进 入 目录 ， 文 档 存 在 ; 定位 到 17 点 13 分 ， 进 入 ， 
文档 存在 ; 定位 到 17 点 14 分 ， 进 入 ， 文 档 存 在 ; 17 点 14 分 30 秒 ， 存 在 ; 
14 分 45 秒 ， 存 在 ; 14 分 52 秒 ， 存 在 ; 14 分 56 秒 ， 存 在 ; 14 分 58 秒 ， 存 
在 ; 14 分 59 秒 ， 存 在 .…... 噢 ， 小 样 儿 ， 你 挺 能 整 人 儿 啊 ， 在 17 点 14 分 59 
秒 和 17 点 15 分 之 间 删 除 的 ， 算 你 狠 ， 给 我 出 这 等 难题 。 看 我 的 ! 再 次 打 
开 滑 动 条 ， 傻 眼 了 ， 最 小 单位 是 秒 ， 转 眼 一 看 ， 下 面 有 个 输入 框 ， 劳 边 
还 写 着 “请 输入 时 间 点 ， 最 小 单位 ， 上 毫秒 ”*”。 我 算 算 哈 ，1 秒 二 1000 毫 
秒 ， 对 吧 ， 对 。 啊 ! ! ! 二 分 1000， 好 么 ， 谁 怕 谁 .….….. 








(9) 文件 系统 跟 跟 踊 踊 来 找 代 理 : “我 说 ， 老 见 ， 大 和 爷 ， 帮 大 
我 .…… 快 ， 老 大 发 疡 了 ， 人 快 去 给 我 得 奋 .……。” 


《10) 两 小 时 后 〉 下 午 下 班 前 ， 管 理 员 精 神 懂 履 地 来 到 糊涂 兄 面 
前 :“ 你 小 子 ， 你 知道 我 为 了 恢复 你 这 份 破 文 档 ， 费 了 多 少 劲 么 ? 
啊 ! ”。 糊 涂 兄 拿 过 文档 一 看 ， 一 点 数据 也 没 委 ， 乐 呵呵 说 道 : “小 管 ， 
辛 百 了 啊 ! 会 有 补偿 地 一 一 ”。 管 理 员 一 避 ， 只 听 背 后 Boss 走 过 来 :“ 呵 
呵 ， 小 管 啊 ， 做 的 不 错 啊 ，CDP 用 得 很 熟 纤 了 ， 这 份 文档 如 果 丢 失 ， 将 
会 带 来 惨痛 损失 啊 ， 做 的 不 错 ， 这 月 奖金 多 给 你 50%! ?小 管 顿 时 眼泪 


哗 哗 


7) 模型 改进 演绎 





细心 的 读者 可 能 已 经 发 现 了 ， 上 面 的 模型 存在 儿 个 问题 。 一 是 ， 源 
数据 卷 或 者 目录 中 没有 被 写 履 再 的 文件 部 分 或 者 Block， 并 未 被 传送 至 
CDP 服 务 端 做 备份 ， 而 只 是 将 被 履 盖 的 数据 (CoW) 或 者 新 数据 
(RoW) 传送 到 CDP 服 务 嚣 。 如 果 被 保护 的 目录 或 者 疮 由 于 某 种 原因 整 
体 损坏 ， 或 者 整体 被 删除 ， 则 CDP 服 务 器 上 保存 的 IO 数据 就 会 变 得 无 
用 。 虽 然 在 源 卷 或 者 源 目录 完好 的 情况 下 ， 利 用 CDP 可 以 回溯 到 之 前 的 
任何 时 间 点 的 状态 ， 但 是 由 于 没有 对 源 处 的 数据 进行 备份 ， 所 以 并 没有 
达到 严格 的 备份 和 保护 数据 的 作用 。 第 二 个 问题 ，CDP 服 务 器 与 客户 机 
之 间 只 是 通过 以 太 网 互联 ， 作 为 数据 存储 系统 的 IO 传输 通道 未 免 有 些 提 
衬 见 肘 。 




















基于 以 上 两 个 因素 考虑 ， 我 们 把 这 个 模型 做 一 下 改进 ， 改 进 后 的 模 
型 拓扑 图 如 图 16-32 所 示 。 





图 16-32 ”改进 后 的 模型 





上 图 中 ， 主 机 端 迎 辑 模 块 没有 变化 ， 但 是 主 代理 模块 的 功能 有 变 ， 
原来 的 模型 中 ， 主 代理 模块 需要 在 恢复 的 过 程 中 负责 在 本 地 主机 虚拟 一 








个 对 应 时 间 点 的 卷 影像 ， 并 负责 接收 这 个 卷 的 IO 并 且 通 过 以 太 网 络 加 

CDP 服 务 端 引擎 用 起 查询 和 数据 传输 操作 。 新 模型 中 ， 这 个 工作 全 部 被 
转移 给 了 CDP 服 务 端的 虚拟 卷 映 射 引 擎 来 完成 ， 主 机 端 代理 模块 主要 负 
责 状 态 监 控 和 报告 以 及 提供 用 户 配置 接口 ， 控 制 信息 的 传输 依然 通过 代 
理 模块 经 过 以 太 网 来 与 服务 端 通信 。 同 时 ， 我 们 可 以 看 到 CDP 服 务 器 在 
新 模型 中 也 连接 了 FC 交换 机 ， 目 的 是 让 捕获 的 10 通过 FC 网 络 而 不 是 以 
太 网 络 来 传输 ， 加 快速 度 。 


运行 在 CDP 服 务 端 上 的 虚拟 卷 映 射 管理 引擎 的 作用 有 两 个 。 一 是 在 
数据 持续 保护 期 间 ， 生 成 并 通过 FC 通 道 或 者 以 太 网 ISCSI 通 道 向 主机 端 
映射 一 个 与 源 卷 相 同 容量 的 卷 空间 ，IO 捕 获 层 首先 将 源 卷 上 已 经 存在 的 
数据 全 部 同步 到 新 映射 的 卷 ， 完 成 之 后 ， 主 机 端 针 对 源 卷 的 每 个 上 层 IO 
便 会 都 镜像 一 份 ， 同 时 写 入 源 郑 和 CDP 服 务 端 映射 过 来 的 卷 。 此 时 ， 这 
个 块 IO 捕 获 层 就 充当 了 类 似 LVM 的 卷 管理 层 。CDP 服 务 端 接 收 到 每 个 
写 IO 之 后 ， 打 入 时 间 惟 ， 并 将 服务 端的 镜像 卷 中 等 待 被 覆盖 的 BLock 进 
行 CoW 操 作 ， 复 制 至 IO 仓库 中 保存 。 








这 样 算 来 ，CDP 服 务 端 所 需要 的 空间 等 于 源 卷 空间 再 加 上 IO 仓库 占 
用 的 额外 空间 ， 而 第 一 个 模型 则 只 需要 IO 仓库 空间 。 虐 拟 卷 映 射 引 擎 的 
第 二 个 作用 ， 便 是 在 回调 恢复 的 过 程 中 提供 对 应 时 间 点 的 源 卷 的 虚拟 影 
像 卷 ， 也 就 是 提供 第 一 个 模型 中 客户 端 代理 在 恢复 过 程 中 所 执行 的 功 
能 。 有 一 点 不 同 的 是 ， 第 一 个 模型 中 的 卷 是 完全 在 本 地 虚拟 ， 而 第 二 个 
模型 中 的 卷 则 是 在 CDP 服 务 端 虚 拟 的 ， 通 过 FC 通 道 或 者 以 太 网 ISCSI 通 
道 映射 给 主机 ; 其 次 ， 虐 拟 卷 映射 引擎 向 IO 仓库 管理 引擎 发 出 查询 等 通 
信 的 过 程 均 无 须 经 过 任何 外 部 网 络 ， 直 接 在 内 存 中 进行 ， 与 第 一 个 模型 
相 比 ， 速 度 和 效率 相对 提升 。 

















上 述 均 以 着 级 CDP 为 基础 ， 对 于 文件 级 的 JO 过滤 捕获 ， 还 是 通过 以 





太 网 来 传递 比较 好 控制 ， 如 果 非 要 将 文件 级 IO 数据 也 通过 FC 网 络 进行 
传输 ， 不 是 不 可 以 ， 而 是 开发 起 来 相对 复杂 ， 毕 葛 基 于 以 太 网 的 TCPIP 
是 比较 开放 和 成 熟 的 接口 。 而 SCSI Block 级 别 的 捕获 由 于 FC 协议 栈 已 经 
提供 了 完善 的 FCP 层 文 持 ， 所 以 开发 起 来 相对 方便 。 





经 过 改进 之 后 的 模型 ， 优 点 是 达到 了 对 数据 全 部 保护 万 无 一 失 的 要 
求 ， 并 且 提 升 了 数据 传输 速度 ， 而 且 降 低 了 主机 资源 的 耗费 。 不 足 则 是 
CDP 服 务 端 需要 比 源 卷 更 大 的 存储 空间 。 这 种 架构 还 能 够 实现 一 个 非常 
实用 的 功能 ， 就 是 裸 机 恢复 。 比 如 ， 用 CDP 来 保护 主机 操作 系统 所 在 的 
磁盘 或 者 分 区 ， 一 旦 某 时 刻 ， 主 机 操作 系统 月 涡 ， 或 者 中 毒 已 深 ， 或 者 
一 些 重要 配置 比如 Domain 配 置 给 倒 腾 废 了 ， 如 果 没 有 CDP 保 护 ， 重 装 个 
系统 加 上 应 用 程序 安装 配置 怎么 也 得 半天 时 间 ; 有 了 CDP 保 护 ， 就 大 不 
相同 了 ， 此 时 在 CDP 服 务 端 上 将 系统 源 卷 在 崩 演 前 某 时 间 点 的 一 份 可 写 
的 影像 通过 FC 通道 Map 给 这 台 主 机 的 FC 适 配 卡 的 WWPN 地 址 ， 然 后 主 
机 在 BIOS 中 设置 通过 FC 卡 局 动 ， 完 毕 后 重 司 ， 即 可 从 CDP 服 务 端 的 这 
份 虚拟 影像 卷 来 启动 操作 系统 ， 局 动 后 的 状态 与 骨 溃 之 前 完全 一 致 。 








操作 系统 司 动 之 后 ， 通 过 配置 主机 代理 或 者 操作 系统 目 身 的 卷 管理 
软件 ， 将 当前 的 系统 盘 ， 也 就 是 CDP 服 务 器 上 的 虚拟 影像 ， 镜 像 回 本 地 
系统 磁盘 ， 镜 像 同步 完成 之 后 ， 重 新 局 动 主机 。BIOS 设 为 本 地 硬盘 局 
动 ， 启 动 系统 之 后 ， 重 新 初始 化 CDP 引 擎 ， 系 统 运行 如 初 。 这 整个 过 程 
所 耗费 的 时 间 很 短 ， 操 作 另 练 的 话 ， 几 分 钟 之 内 就 能 将 一 台 骨 演 的 主机 
重新 局 动 起 来 。 





8) 二 次 改进 模型 





IO 捕获 模块 运行 在 受 保护 的 主机 上 ， 上 毕竟 对 主机 资源 有 一 定量 的 耗 
费 ， 尤 其 是 这 个 模块 处 于 比较 低层 的 位 置 ， 处 理 IJO， 延 迟 是 首要 考 碟 的 


事情 ， 此 处 产生 瓶 颂 的话， 就 会 对 主机 整体 性 能 产生 很 大 影响 。 应 该 考 
虑 将 其 移出 主机 内 部 ， 放 置 到 外 部 某 处 ， 实 现 对 IO 的 捕获 镜像 而 主机 客 
户 端 只 运行 一 个 主 代 理 模 块 即 可 ， 用 于 监控 以 及 提供 配置 界面 而 且 用 于 
Snapshot 管 理 等 。 主 机 IO 路 径 的 下 一 个 关口 就 是 FC 交 换 机 了 ， 如 果 可 以 
在 交换 机 上 实现 一 种 类 似 问 口 镜像 同时 又 比 简单 镜像 更 智能 的 写 IO 镜 像 
的 话 ， 那 么 这 个 问题 也 就 解决 了 。 





幸好 ， 两 大 FC 交换 机 生产 商 Cisco 和 Brocade 均 已 经 开发 了 这 个 功 

能 ， 分 别称 为 SANTap Service 和 Brocade Storage Application Services。 这 
两 种 功能 在 原理 上 是 一 样 的 ， 只 不 过 分 别 由 两 家 公司 各 自 开 发 。 其 基本 
原理 是 : 通过 在 交换 机 上 运行 一 个 智能 的 IO 处 理 程 序 ， 其 生成 一 个 或 者 
多 个 虚拟 的 TargetLUN 和 虚拟 的 Initiator， 受 保护 的 主机 所 连接 的 LUN 其 
实 是 这 个 虚拟 的 Target， 这 样 主机 针对 源 LUN 的 写 IO 便 会 被 Virtual 
Target 截 获 ， 然 后 通过 Virtual Initiator 将 这 份 写 IO 同时 发 送 给 源 LUN 和 镜 
像 LUN， 镜 像 LUN 束 是 位 于 CDP 服 务 器 并 的 存储 空间 。CDP 服 务 器 需要 
通过 FC 链 路 同 运 行 在 交换 机 上 的 SANTap Service 或 者 Brocade Storage 
Application ”Services 注 册 所 要 保护 的 源 LUN， 注 册 成 功 之 后 ， 写 IO 才 能 
持续 的 镜像 到 CDP LUN。 


如 图 16-33 所 示 为 Brocade 公 司 两 蒜 文 持 Brocade Storage Application 


Services 的 产品 。 























图 16-33 ”支持 BSAS 的 两 款 博 科 产品 


如 图 16-34 所 示 为 两 款 Cisco 公 司 生 产 的 文 持 SANTap Service 的 产品 








图 16-34 ”支持 SANTap Service 的 思科 产品 


二 次 改进 之 后 的 模型 拓扑 图 如 图 16-35 所 示 。 可 以 看 到 块 IO 捕 获 虚 
拟 设 备 已 经 不 再 捕获 FC SAN 上 的 磁盘 的 IO， 而 只 负责 捕获 针对 本 地 磁 
盘 的 写 IO 了 。 文 件 IO 过 滤 层 依然 存在 ， 因 为 需要 满足 文件 级 CDP 的 需 








图 16-35 ”二 次 改进 模型 
4. CDP 所 面临 的 最 大 技术 难题 ， 如 何 保证 时 序 一 致 性 


如 果 说 Snapshot 是 普通 照相 机 的 话 ，NearCDP〈 准 CDP) 束 好 比 是 

亿 速 连 拍照 相机 ，CDP 则 是 带 移 动 货 测 功能 的 摄像 机 。CDP 之 所 以 能 够 
比 Snapshot 的 回溯 粒度 更 细 ， 就 是 因为 Snapshot 是 Copy on First Write， 

在 Snapshot 做 成 之 后 被 覆盖 过 的 Block， 当 再 次 被 覆盖 的 时 候 ， 被 覆盖 的 
数据 就 不 会 再 被 Copy 出 来 了 ， 而 CDP 则 依然 会 Copy， 每 多 一 个 写 操 作 

就 会 多 占用 一 份额 外 的 IO 仓 库 空间 。 再 就 是 时 间 稚 ， 因 为 用 户 决 定 CDP 
恢复 的 时 候 只 会 给 出 要 恢复 的 时 间 点 的 数据 ， 每 个 IO 数据 都 需要 记录 时 
间 惟 ， 恢 复 的 时 候 根 据 时 间 惟 做 统计 。 而 Snapshot 并 不 对 每 个 IO 都 打 入 
时 间 惟 信息 。 再 就 是 回溯 之 后 的 数据 一 致 性 问题 ， 这 个 非常 重要 ， 下 文 
es 

















1) CDP 和 Snapshot 数 据 一 致 性 讨论 


对 这 个 话题 进行 论述 之 前 ， 先 介绍 一 下 所 谓 “ 数 据 一 致 性 ”。 举 例 说 
明 什 么 是 数据 一 致 性 : 比如 有 某 个 程序 正在 运行 ， 它 的 工作 是 计算 1 十 1 
二 2， 不 停 地 计算 ， 并 将 结果 以 “1 十 1 二 2” 的 字 串 形式 记录 到 一 个 文件 
中 ， 并 且 假 设 这 个 程序 在 记录 的 时 候 古 一 个 字 市 一 个 字 市 地 写 入 的 ， 比 
如 先 写 入 “1”， 接 着 是 “十 *"， 接 着 “1”， 再 “二 ”*”， 然 后 “2”"。 茶 时 刻 ， 程 厅 
运算 这 个 加 法 完成 了 ， 立 即 开始 同文 件 中 写 入 记录 ， 当 刚 写 完 “ 三 ”的 时 











候 ， 存 储 系统 触发 了 一 个 Snapshot， 谁 也 没 通知 ， 而 恰好 在 Snapshot 之 
前 一 瞬间 ， 文 件 系统 也 刚好 将 “三 ”这 个 数据 成 功 写 到 了 磁盘 上 。 





在 这 份 Snapshot 中 ， 对 应 这 个 程序 生成 的 文件 中 的 最 后 一 条 记录 将 
会 是 这 样 的 “1 十 1 二 ”， 这 就 是 数据 不 一 致 的 表现 。 不 一 致 的 数据 会 币 来 
什么 后 果 呢 ? 某 时 刻 ， 存 储 管理 员 将 这 份 Snapshot 影 像 做 了 Restore， 重 
新 挂 载 了 该 卷 之 后 ， 这 个 应 用 程序 启动 ， 它 需要 将 之 前 的 数据 结果 读 出 
并 显示 到 显示 器 上 ， 当 它 逐 条 扫描 之 后 ， 直 到 最 后 一 条 它 发 现 竟然 只 有 
等 式 的 左边 ， 结 果 没 了 。 此 时 ， 根 据 程序 的 设计 好 坏 会 做 出 对 应 的 反 
应 ， 如 采 由 于 某 些 bpug 导 致 设 计 者 根本 没有 考虑 到 这 种 只 有 左边 没有 右 
边 的 情况 ， 很 有 可 能 造成 程序 朋 尝 。 骨 尝 还 算 负 责任 的 ， 如 果 过 到 不 负 
责任 的 程序 员 ， 不 总 三 七 二 十 一 ， 几 是 遇 到 这 种 情况 ， 结 宁都 是 0， 屠 
就 毁 了 ， 自 己 玩 玩 还 行 ， 拿 到 桌面 上 搞 那 可 是 要 出 大 事情 的 。 而 设计 良 
好 的 程序 ， 就 会 充分 考虑 每 一 个 细节 ， 比 如 一 旦 发 现 这 种 不 完整 的 算 
式 ， 芯 即将 其 删 摊 ， 不 再 处 理 ， 并 且 报 出 具体 错误 。 后 者 又 称 为 一 致 性 
检查 。 数 据 库 、 文 件 系统 均 有 这 种 机 制 。 所 以 ， 直 接 在 存储 设备 上 随机 
生成 的 Snapshot， 多 数 时 候 都 是 不 一 致 的 ，Restore 之 后 一 般 都 要 经 过 一 
层 层 的 一 致 性 检查 之 后 才能 最 终 被 应 用 程序 所 使 用 。 























还 有 一 点 很 重要 ， 即 “数据 一 致 性 ?和 “数据 丢失 ”的 关系 。 数 据 一 

致 ， 并 不 代表 数据 没有 丢失 ， 而 数据 没 丢 失 并 不 代表 数据 就 是 一 致 的 。 
如 采 理 解 起 来 困难 ， 就 看 看 上 面 那个 例子 ， 最 后 一 条 运算 的 结果 很 显然 
在 那个 Snapshot 被 Restore 之 后 就 丢失 了 ， 但 是 通过 程序 的 一 致 性 检查 过 
程 之 后 ， 不 完整 的 记录 被 删 挥 ， 此 时 数据 就 变 得 一 改 了 。 所 以 说 ， 数 据 
一 致 并 不 代表 数据 没有 丢失。 那么 数据 没有 丢失， 是 否 束 代表 数据 一 定 
一 致 呢 ? 非 也 ， 看 看 数据 库 系 统 就 知道 了 ， 数 据 库 对 数据 文件 的 每 一 笔 
Update 都 会 记录 到 日 志 中 ， 丢 不 掉 ， 但 是 最 终 有 意义 的 却 是 每 笔 














Transaction。 每 笔 Transaction 又 由 多 笔 Update 形 成 ， 只 有 当 最 后 一 笔 
Update 完 成 ， 并 且 应 用 程序 癌 数 据 库 提 起 Commit 请 求 ， 数 据 库 成 功 地 将 
Commit 点 写 入 日 志文 件 ， 此 时 这 笔 Transaction 才 算 真 正 完成 。 如 果 在 
Commit 点 被 写 入 日 志文 件 之 前 ， 系 统 Down 机 ， 虽 然 这 笔 Transaction 包 
含 的 每 一 笔 Update 都 还 在 ， 数 据 都 没有 丢失 ， 但 是 Commit 点 不 存在 ， 此 
时 数据 库 在 Replay 的 时 候 无 法 判断 这 些 Update 是 否 能 形成 一 笔 完整 的 
Transaction， 所 以 此 时 ， 数 据 就 是 不 一 致 的 ， 这 些 Update 只 能 被 Undo 回 
退 。 数 据 没 有 丢失 但 是 不 一 致 的 情况 是 比较 理想 的 情况 ， 通 过 Replay， 
总 可 以 回调 到 一 致 状态 。 





数据 丢失 





关于 数据 丢失 ， 这 里 还 需要 理解 一 点 。 上 文中 说 过 ， 和 存储 端 随机 生 
成 的 Snapshot 无 寞 于 一 份 系统 突然 挥 电 时 刻 人 硬盘 上 的 数据 影像 ， 那 么 有 
人 问 了 ， 系 统 Down 机 的 情况 ， 随 时 随地 都 在 发 生 着 ， 而 且 根据 上 面 的 
例子 来 判断 ， 每 次 Down 机 都 很 有 可 能 丢失 些 数据 了 ? 这 个 问题 要 从 多 
方面 来 看 ， 不 仅 涉及 底层 数据 是 否 丢 失 ， 基 重要 的 是 系统 后 端 与 前 端的 
沟通 ， 以 及 终端 操作 员 的 判断 和 最 终 人 为 的 介入 。 我 们 来 演绎 一 个 场 
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你 去 银行 提现 1 万 元 ， 把 银行 卡 交 给 操作 员 ， 操 作 员 首先 需要 刷卡 
调 出 你 的 信息 ， 然 后 会 输入 要 提取 的 数值 ， 然 后 会 单 击 提 取 。 此 时 ， 这 
个 动作 将 会 被 传送 至 应 用 服务 器 疾 ， 应 用 程序 将 会 在 你 当前 的 余额 上 减 
掉 1 万 元 ， 然 后 将 更 新 的 数据 发 送 给 数据 库 服务 器 ， 命 令 数据 库 服 务 器 
更 新 这 条 新 记录 ， 而 且 最 重要 的 一 步 是 需要 对 本 次 操作 进行 Commit， 
也 束 是 提交 操作 。 只 有 Commit 之 后 ， 数 据 库 服务 占 才 会 将 这 条 记录 写 
入 日 志 永 久保 存 于 磁盘 ， 而 且 是 同步 写 入 ， 不 允许 文件 系统 将 数据 缓存 
到 内 存 而 实际 却 不 写 入 便 盘 。 妆 文件 系统 疝 数据 库 返 回 写 入 成 功 的 消 轧 














之 后 ， 数 据 库 此 时 才 会 向 正在 等 待 Commit 结 果 的 应 用 程序 返回 Commit 
结束 ， 此 时 应 用 程序 便 知 道 ， 记 录 百 分 之 百 已 经 写 入 了 磁盘 ， 掉 电 也 不 
会 丢失 数据 了 。 所 以 这 时 候 ， 操 作 员 终 并 机 上 才 会 提示 存 入 成 功 ， 这 时 
你 才 可 以 离 去 。 如 果 在 数据 库 成 功 回 日 志 中 写 入 了 Commit 点 ， 正 准备 
回应 用 程序 通告 Commit 成 功 通 知之 前 ， 数 据 库 系统 Down 机 ， 此 时 操作 
员 终 器 机 长 时 间 没 有 收 到 回应 之 后 将 提示 通信 失败 ， 未 能 提现 。 而 此 
时 ， 数 据 库 确实 已 经 将 余额 减少 了 1 万 。 数 据 库 服务 器 重启 之 后 ， 系 统 
恢复 ， 操 作 员 重新 尝试 提现 1 万 元 的 操作 ， 而 此 时 操作 员 并 没有 关注 账 
户 中 的 余额 其 实 已 经 相对 刚才 减少 了 1 万 ， 这 次 提现 成 功 了 。 最 终 实 际 
情况 就 是 ， 你 只 拿 到 了 1 万 ， 而 系统 却 将 余额 减少 了 2 万 ， 你 损失 了 1 万 
元 。 如 果 是 换 成 你 存 球 1 万 元 ， 按 照 刚 才 的 场景 演绎 ， 操 作 员 没有 关注 
余额 的 变化 ， 而 进行 了 两 次 重复 操作 ， 给 你 多 存 了 1 万 进去 。 











所 以 ， 数 据 一 致 性 问题 是 所 有 层次 都 要 关心 的 (VM，FS， 

APP) ， 而 数据 丢失 和 误 操 作 ， 不 是 数据 存储 层 或 者 数据 库 层 的 问题 ， 

而 是 一 种 沟通 问题 和 应 用 程序 设计 问题 ， 同 时 ， 也 是 最 重要 的 ， 就 是 人 
的 问题 。 如 果 操 作 员 仔细 一 点 ， 就 不 会 出 现 重 复 操 作 。 然 而 话 又 说 回 

来 ， 计 算 机 本 来 就 是 用 来 帮助 人 来 实现 人 的 需求 的 ， 如 果 需 要 让 人 来 随 
时 监控 计算 机 所 做 的 事情 ， 如 果 每 一 笔 都 仔细 核对 ， 那 没什么 问题 ， 但 
终究 不 是 好 办 法 。 是 不 是 存在 人 也 无 法 探知 的 潜在 数据 丢失 呢 ? 很 有 可 
能 ， 一 笔记 录 丢 了 可 以 对 一 对 ， 如 果 底 层 傈 个 数据 的 丢失 并 没有 通过 茶 
种 渠道 被 业务 层 感 知 ， 或 者 丢失 之 后 到 被 感知 的 时 间 过 长 以 至 于 业务 层 
也 无 法 调查 了 ， 这 是 人 否 就 是 死 账 形成 的 原因 之 一 呢 ? 答案 是 : 人 为 因 系 
十 系统 因素 。 














现在 ， 我 们 对 比 一 下 Snapshot 和 CDP 的 数据 一 致 性 方面 。 先 说 说 
Snapshot 的 一 致 性 。 比 如 ， 摄 影 师 给 你 拍照 之 前 ， 你 总 得 摆好 姿势 后 才 





能 拍 ， 也 就 是 说 你 预先 知道 你 要 被 担 了 ， 已 经 摆 出 了 最 佳 姿 势 了 ， 此 时 
应 保持 仅 人 硬 的 笑容 不 许 动 、 不 许 有 有 眼 ， 摄 影 师 按 下 快门 。 这 就 好 比 
Application Aware Snapshot 和 FS Aware Snapshot， 即 能 够 感知 应 用 程序 
和 文件 系统 对 数据 的 操作 此 时 已 经 处 于 一 个 完整 一 致 的 状态 ， 绥 存 中 没 
有 留存 的 只 同 磁 盘 中 保存 了 一 半 结 果 数 据 的 运算 ， 此 时 立即 对 底层 卷 触 
发 一 个 Snapshot， 此 时 的 卷 影 像 上 的 数据 就 是 一 致 上 的 。 即 ， 用 这 个 
Snapshot 进 行 回 溯 /Restor 之 后 ， 应 用 程序 将 对 应 的 数据 读 出 之 后 ， 不 会 
产生 异常 结果 。 








这 种 方式 需要 在 主机 端 安装 一 个 Agent 来 负责 将 主机 的 状态 告知 存 
储 系统 从 而 在 正确 的 时 机 生成 Snapshot， 或 者 由 人 为 和 干预， 在 生成 
Snapshot 之 前 将 应 用 程序 退出 或 者 静默 。 如 果 你 不 想 受 到 约束 ， 要 求援 
影 师 随机 拍照 ， 拍 完 之 后 再 一 张 一 张 挑选 姿势 恰好 的 ， 那 么 也 没有 问 
题 ， 这 就 对 应 了 在 存储 端 随机 生成 Snapshot， 乱 放 枪 ， 打 着 赚 了 ， 打 不 
着 也 不 浪费 什么 ， 但 是 要 查看 哪个 Snapshot 是 一 致 的， 哪个 是 不 一 致 
的 ， 那 可 就 难 了 。Snapshot 毕 竟 不 是 可 以 拿 在 手中 端详 的 照片 ， 除 非 另 
外 部 署 一 套 应 用 系统 ， 一 个 一 个 地 挂 载 Snapshot 卷 ， 一 次 一 次 地 启动 应 
用 程序 判断 ， 这 也 属于 无 事 生 非 。 至 于 抓拍 偷拍 ， 目 前 的 存储 系统 可 没 
有 这 个 能 力 来 直接 感知 应 用 层 什 么 时 候 处 于 一 致 状态 ， 再 说 也 用 不 着 这 
样 ， 做 个 Snapshot 还 得 藏 着 掖 着 不 让 人 知道 。 

















再 来 次 说 CDP 的 一 致 性 。 看 照片 是 看 瞬间 的 姿势 ， 看 电影 则 是 看 情 
节 ， 电 影 的 情 市 是 一 段 一 段 的 ， 漏 下 一 段 没 看 的 话 ， 束 感觉 很 不 严 了 。 
此 时 你 需要 将 播放 器 的 滑动 条 往 回 拖 ， 拖 一 拖 ， 看 一 看 ， 再 拖 一 拖 ， 再 
看 一 看 ， 直 到 你 有 记忆 的 地 方 为 止 ， 接 着 往 下 看 。 这 个 场景 恰好 对 应 了 
糊涂 兄 让 小 管 恢 复数 据 的 那个 场景 ， 小 管用 二 分 法 答 试 了 N 次 才 找到 那 
份 文档 的 最 后 时 间 扣 的 影像 。 但 即便 是 这 样 ， 我 们 仍然 无 法 确定 哪个 时 




















刻 的 影像 是 对 于 应 用 层 一 致 的 ， 因 为 底层 的 处 理 根本 就 无 法 感知 上 层 的 
人 逻辑， 除非 一 次 一 次 的 尝试 ， 但 是 这 样 做 却 是 费时 费力 而 且 也 失去 了 
CDP 的 意义 。 所 以 说 ，CDP 虽 然 在 回溯 时 间 粒 度 上 比 Snapshot 强 大 ， 但 
是 在 保证 数据 一 致 性 方面 ， 却 不 如 Snapshot。 在 后 面 的 产品 介绍 章节 中 
我 们 就 会 看 到 ， 存 储 产 品 厂家 是 深刻 意识 到 这 一 点 的 ， 所 以 它们 结合 
CDP 和 Snapshot 的 优点 ， 将 二 者 整合 起 来 使 用 。 








利用 CDP 随 机 回调 到 任何 一 个 时 间 点 之 后 所 得 到 的 数据 影像 ， 很 大 
几率 上 都 是 不 一 致 的 ， 此 时 ， 影 像 被 挂 载 到 主机 端 之 后 ， 一 定 要 经 过 一 
层 层 的 一 致 性 检查 。 一 致 性 检查 会 在 下 面 几 个 层次 上 依次 进行 : VM 着 
管理 层 ， 文 件 系 统 层 ， 最 后 是 应 用 层 。 站 先是 VM 层 ，VM 是 一 个 程 
序 ， 它 自身 需要 向 硬盘 上 写 入 MetaData 元 数据 用 以 记录 虚拟 换 和 物理 卷 
地 址 的 映射 关系 ， 如 果 这 些 数据 变 得 不 一 致 或 者 丢失 ， 轻 则 无 法 挂 载 
(这 也 是 为 何 Down 机 经 常 导 致 操作 系统 无 法 启动 或 者 不 认 卷 、 无 法 挂 
载 卷 的 原因 ) ， 重 则 卷 边界 错乱 以 假 乱 真 。 所 以 VM 在 挂 载 某 个 卷 之 前 
一 定 要 对 其 进行 数据 一 致 性 检查 。VM 层 之 上 是 文件 系统 层 ， 与 VM 同 
样 的 道理 ， 文 件 系统 MetaData 同 样 要 经 过 一 致 性 检查 的 步骤 ， 检 得 完成 
之 后 方 可 被 挂 载 。 最 后 就 是 应 用 层 了 ， 应 用 层 逻 辑 上 的 不 一 致 只 能 够 靠 
应 用 程序 自身 解决 。 在 一 层 层 一 致 性 检查 完成 之 后 ， 系 统 方 可 恢复 工 
让 











2) 一 致 性 组 技术 


设想 这 样 一 个 应 用 程序 ， 它 需要 将 数据 存放 在 多 个 不 同 的 卷 中 ， 而 
且 这 多 个 卷 中 的 数据 有 相互 依存 关系 ， 哪 个 卷 中 的 数据 发 生 不 一 致 或 者 
丢失 ， 其 他 卷 中 的 数据 也 就 不 再 可 用 。 要 对 这 样 的 环境 做 Snapshot 或 者 
CDP 数 据 保 护 ， 需 要 考虑 额外 的 步骤 ， 即 必须 保持 这 多 个 卷 在 相同 的 时 
刻 同时 被 触发 APP &:-FS Aware Snapshot， 保 证 APP 和 FS 层面 的 一 致 性 。 


那么 对 于 CDP 来 说 ， 由 于 CDP 的 先天 优势 ， 即 IO 时 间 惟 ， 既 然 每 个 卷 的 
IO 都 被 打 入 时 间 戳 ， 那 么 只 要 给 出 一 个 时 间 点 ，CDP 所 遍历 出 的 卷 影 
像 ， 其 上 的 IO 写 入 时 序 一 定 是 可 以 保证 严格 按照 时 间 的 行进 排列 的 。 比 
如 ，T1 时 刻 应 用 向 卷 1 写 入 了 数据 ， 然 后 T2 时 刻 又 向 卷 2 写 入 了 数据 ， 

当 用 CDP 恢 复 卷 1 到 T1 时 刻 之 后 ， 卷 2 则 必须 也 恢复 到 T1 时 刻 。 虽 然 CDP 
不 能 保证 任意 时 间 点 的 应 用 层 一 致 性 ， 但 是 它 起 码 可 以 保证 底层 的 一 致 
性 ， 然 后 靠 应 用 的 Replay 过 程 来 完成 最 终 一 致 性 恢复 。 








一 致 性 组 技术 对 于 Snapshot 和 CDP 来 讲 其 实 并 不 需要 多 么 复杂 的 额 

外 设计 ， 只 需要 将 相互 天 联 的 多 个 着 组 成 逻辑 组 ， 做 Snapshot 的 时 候 保 

证 同时 触发 即 可 ，CDP 则 更 是 无 须 做 什么 本 质 改 变 ， 只 需要 在 程序 界面 
告诉 操作 员 哪 些 卷 在 一 个 组 中 即 可 。 








而 真正 需要 大 动 干戈 的 是 远程 异步 数据 复制 容 灾 系 统 ， 多 个 关联 郑 
的 数据 一 致 性 问题 的 解决 需要 引入 更 复杂 的 一 致 性 组 技术 。 在 DR 系统 
中 ,，“ 一 致 性 组 ”将 有 两 个 含义 ， 下 文 以 及 本 书后 面 间 市 会 详细 介绍 一 致 
性 组 技术 的 细 市 原理 。 





3) 关于 CDP 的 回溯 粒度 问题 的 论述 


不 少 人 认为 CDP 既 然 连 续 捕获 了 每 个 写 IO 并 且 打 入 时 间 戳 ， 那 么 
CDP 的 回溯 粒度 最 小 可 以 达到 一 个 IO 的 级 别 。 这 种 看 法 是 错误 的 ， 持 有 
这 种 观点 的 人 忽略 了 一 个 问题 ， 即 时 间 的 最 小 粒度 和 上 层 的 IOPS 数 。 本 
书 第 3 章 中 的 3.1.3 小 节 中 曾经 得 到 结论 ， 即 时 间 是 没有 最 小 单位 的 ， 在 
目前 的 认 知 领域 中 可 以 认为 其 是 无 限 连续 的 。 





设想 这 样 一 种 情景 ， 某 CDP 设 备 所 接收 到 的 写 IOPS 为 每 秒 10000 
次 ， 也 就 是 说 平均 每 毫秒 会 有 10 次 IO。 如 果 这 个 CDP 设 备 的 恢复 粒度 可 











以 达到 一 个 IO 的 级 别 ， 即 分 辨 出 这 1 最 秒 之 内 发 生 的 所 有 IO 的 先后 顺 
序 ， 那 么 它 的 额定 时 间 戳 粒度 就 必须 至 少 设置 为 0.1 军 秒 级 别 。 如 有 果 收 
到 的 写 IOPS 每 秒 100 万 次 (当然 目前 现 有 存储 系统 可 以 达到 这 种 级 别 ， 
CDP 产 品 就 更 别提 了 ， 这 里 只 是 理论 推导 ) ， 则 要 达到 回调 每 个 IO 的 粒 
度 ， 时 间 戳 设 定 粒 度 就 要 设置 为 微 秒 级 别 了 ， 以 此 类 推 。 时 间 心 粒度 越 
细 ， 维 护 的 开销 就 要 越 大 ， 耗 约 资 源 越 大 ， 效 率 也 就 越 低 。 但 是 如 果 非 
要 实现 单个 IO 级 别 的 区 分 ， 也 不 是 没有 办 法 ， 如 宁 对 每 个 IO 标记 一 个 目 
然 数 序号 而 不 是 时 间 戳 ， 那 么 吏 可 以 完全 分 开 每 个 IO 了 《这 种 方法 同样 
可 以 用 于 容 灾 技 术 中 的 一 致 性 组 技术 中 ， 参 考 本 书后 面 章节 ) 。 此 外 ， 
IO 序号 的 功能 不 仅仅 是 区 分 每 个 IO 先后 ， 而 且 它 的 另 一 个 重要 作用 则 是 
对 乱 序 接受 的 IO 进行 重 排 和 丢 包 监 测 〈 见 容 灾 一 章 中 一 致 性 组 一 节 ) 。 
由 于 数据 包 在 网 络 上 传输 的 时 候 有 可 能 是 乱 序 到 来 的 ， 如 果 将 乱 序 的 IO 
按照 顺序 追加 到 CDP 日 志 链 末尾 ， 那 么 所 保存 的 IO 也 是 乱 序 的 ， 这 样 不 
管 怎么 搞 都 不 可 能 做 到 时 序 一 致 。 








话 又 说 回来 ， 既 然 CDP 随 机 回溯 后 的 数据 一 致 性 本 来 融 几 乎 不 可 能 
保证 ， 没 有 人 能 够 判断 在 哪 两 个 IO 之 间 切 开 时 数据 是 一 致 的 ， 所 以 以 每 
个 IO 为 回 渊 粒度， 不 仅 没有 必要 而 且 也 没有 意义 。 通 常 时 间 戳 粒度 设置 
为 坚 秒 级 别 已 经 足够 。 


注意 : ”只 用 时 间 戳 而 不 使 用 目 然 数 序号 来 标记 IO 的 情况 下 ， 
不 能 够 保证 单个 IO 的 时 序 一 致 性 〈 见 本 书后 面 章节 对 一 致 性 组 
技术 的 讨论 ) ， 所 以 生成 的 LUN 影 像 也 将 会 是 时 序 不 一 致 的 ， 
而 这 种 不 一 致 是 最 严重 的 一 种 ， 可 以 导致 数据 库 类 应 用 程序 其 
至 操作 系统 都 无 法 局 动 。 所 以 ， 一 个 CDP 系 统 设计 是 否 考虑 了 
数据 一 致 性 ， 是 非常 重要 的 考量 指标 。 所 以 ， 同 时 使 用 序号 和 
时 间 戳 才 征 解决 数据 时 序 一 致 性 错乱 的 有 效 方法 ， 序 号 用 于 区 


分 单个 IO 的 时 序 ， 时 间 戳 则 只 用 来 定位 用 户 给 出 的 大 致 的 影像 
时 间 点 。 





然而 ， 即 便 是 同时 使 用 时 间 惟 和 序号 也 只 能 够 保证 全 局 日 志 连 模式 
( 见 下 文 ) 的 CDP。 对 于 每 个 块 均 对 应 一 个 日 志 链 的 CDP 系 统 ， 由 于 块 
与 块 之 间 的 日 志 链 之 间 互 相 独 立 ， 当 用 户 要 求 某 时 间 点 的 卷 影像 的 时 
候 : CDP 系 统 就 需要 在 每 个 块 的 日 志 链 中 找到 用 户 所 要 求 的 这 个 时 间 点 
所 对 应 的 块 ， 此 时 间 题 就 出 现 了 : 每 个 块 日 志 链 的 序号 如 果 都 各 自 计 数 
的 话 ， 那 么 就 无 法 分 辨 块 与 块 之 间 的 先后 顺序 了 不 像 全 局 日 志 链 ) 。 
此 时 的 解决 办 法 就 是 全 局 计数 ， 不 管 所 接收 到 的 IO 目 标 是 哪个 块 ， 每 接 
收 到 一 个 IO 计数 器 就 加 1 并 且 将 序号 保留 在 对 应 块 的 日 志 链 中 。 











同时 使 用 IO 序号 和 时 间 改 必定 会 耗费 不 少 资源 ， 为 了 提高 效率 ， 有 
商定 时 在 每 个 块 的 日 志 链 中 做 标记 。 





些 


六 -一 


理想 : “有 若干 条 豆腐 传送 带 ， 每 条 传送 带 上 接收 到 的 豆腐 速 
率 不 同 ， 形 状 也 不 同 ， 间 隔 也 不 同 ， 如 宁 要 区 分 所 有 传送 带 上 
的 所 有 豆腐 的 到 达 先 后 ， 是 很 复杂 的 。 但 是 如 果 降 低 粒 度 ， 比 
如 每 秒 记 录 一 次 ， 保 证 秒 与 秒 之 间 肯 定 是 先后 排列 的 ， 但 古 一 
秒 之 内 所 接收 的 豆腐 无 法 分 辩 其 先后 顺序 ， 这 也 不 失 为 一 种 变 
通 方法 。 所 以 ， 在 这 些 传 送 融 上方 放 一 把 闸 刀 ， 每 秒 切 下 一 
次 ， 这 样 豆腐 不 管 是 什么 形状 ， 以 什么 速率 到 达 ， 豆 腐 块 之 间 
间隔 多 少 ， 只 要 闸 刀 一 落下 ， 所 有 传送 带 上 的 豆腐 此 时 都 被 定 
型 ， 每 秒 定 一 次 型 。 当 数据 回调 的 时 候 ， 只 能 恢复 到 每 次 定型 
的 时 候 。 这 个 思想 就 是 “一 致 性 组 ”的 思想 。 (一 致 性 组 的 具体 
内 容 可 以 在 容 灾 一 半 中 阅读 。) 














CDP 即 便 是 从 理论 上 来 讲 ， 也 不 可 能 做 到 每 个 应 用 程序 的 写 IO 都 不 


遗漏 。 因 为 有 缓存 机 制 的 存储 系统 层 都 有 一 种 所 谓 Delay Write 的 机 制 ， 
比如 文件 系统 层 ， 某 时 刻 应 用 程序 要 求 更 改 文件 名 A 为 B， 这 个 要 求 被 
文件 系统 收 到 ， 文 件 系统 会 读 出 这 个 文件 的 元 数据 ， 然 后 将 对 应 的 部 分 
更 改 。 但 是 更 改 之 后 的 dirty 数 据 块 先 不 急于 写 入 和 磁盘， 会 缓存 一 段 时 
间 ， 一 旦 在 这 段 时 间 内 ， 应 用 程序 再 次 发 起 请 求 ， 要 求 将 B 再 改 为 C， 
文件 系统 接收 到 请 求 之 后 会 发 现 这 个 文件 的 元 数据 所 对 应 的 最 新 数据 块 
已 经 在 缓存 中 的 某 个 dirty 块 中 ， 则 文件 系统 直接 再 次 更 改 这 个 dirty 块 使 
其 二 次 dirty， 直 到 文件 系统 将 dirty 块 写 盘 之 前 ， 任 何 再 次 的 更 改 请 求 都 
会 直接 更 改 。 这 种 情景 为 “ 写 命 中 ”的 一 种 情况 〈 其 他 情况 见 本 书后 面 章 
节 ) 。 这 样 ， 应 用 程序 的 多 次 写 IO 请 求 ， 在 底层 却 只 表现 为 文件 系统 的 
一 次 写 IO 请 求 ， 如 果 CDP 是 作用 在 文件 系统 及 之 下 的 层次 ， 那 么 这 样 的 
CDP 系 统 就 不 能 截获 每 个 应 用 层 的 IO 了 。 














能 做 到 真正 意义 的 应 用 层 一 致 性 保障 的 以 及 最 细 粒 度 的 CDP 其 实 束 
是 基于 应 用 层 的 基于 Transaction 日 志 链 记录 的 CDP 系 统 ， 每 一 笔 改 变 都 
不 会 丢掉 ， 而 且 占 用 存储 空间 少 ， 只 不 过 针对 应 用 层 的 CDP 需 要 针对 每 
个 应 用 来 开发 ， 不 像 克 层 CDP 一 样 具 备 通用 性 。 在 此 是 人 否 可 以 大 胆 想象 
一 下 : 今后 可 能 会 出 现 类 似 VSS 公 共 快 照 服 务 一 样 的 公共 CDP 日 志 中 间 
件 。 





通过 记录 日 志 的 方法 很 容易 做 到 一 致 性 保证 ， 但 是 对 于 使 用 分 块 日 
志 链 的 卷 级 的 CDP， 由 于 为 了 保证 任意 历史 版 本 可 以 瞬间 挂 载 读 写 ， 不 
可 能 采取 全 局 日 志 链 〈 见 下 文 ) 的 方式 ， 必 须 保 证 每 个 块 的 历史 版 本 都 
可 迅速 定位 寻 址 。 这 样 的 话 ， 如 何在 这 些 众多 的 块 日 志 链 中 迅速 地 抓 取 
出 一 份 具有 时 序 一 致 性 的 块 链 出 来 ， 成 了 一 大 技术 难题 。 下 面 我 们 来 看 
一 下 CDP 是 如 何 攻 破 这 个 技术 难题 的 。 








4) 自演 绎 的 一 招 一 一 疾风 匀 月 斩 


从 上 文中 的 “ 切 豆腐 ?思想 ， 作 上 自己 推演 出 了 一 个 保证 CDP 回 渊 时 时 
序 一 致 性 的 模型 。 说 明 : ”此 模型 完全 为 个 人 演绎 ， 如 与 茶 专 利 或 者 三 
商 实现 雷同 ， 纯 属 巧合 ， 请 勿 对 号 入 座 。 


在 如 图 16-36 所 示 的 二 维 象 限 中 ， 横 轴 是 时 间 轴 ， 纵 轴 上 的 每 个 点 
代表 某 个 LUN 或 者 卷 中 的 一 个 Block/Sector/Cluster， 具 体 粒度 是 块 / 簇 还 
是 届 区 可 以 人 为 选择 ， 一 般 使 用 Block 作 为 最 小 单位 。 这 里 只 示意 了 8 个 
块 ， 并 不 表示 实际 情况 。 











图 16-36 ”疾风 铁 月 斩 关 系 模 型 


在 没有 引入 CDP 之 前 ， 这 个 LUN 是 没有 时 间 轴 的 ， 此 时 整个 LUN 束 
是 一 个 线性 的 由 所 有 Block 所 串 起 来 的 一 维 直 线 ， 不 可 回 滴 。 当 引入 
CDP 后 ， 时 间 轴 被 拉 开 ， 将 一 维 直线 拉 成 了 二 维 的 平面 ， 这 个 平面 就 是 
图 16-36 所 示 的 二 维 象限 。 这 个 象限 中 的 每 个 点 B〈Tn，Bn) 表示 卷 中 
对 应 的 Block 在 某 时 刻 的 内 容 ， 这 个 象限 的 本 质 其 实 就 是 一 个 CDP 分 块 
日 志 链 。 每 个 块 每 次 的 写 IO 内 容 都 被 记录 了 下 来 ， 每 个 块 在 每 个 时 间 点 
都 有 它 对 应 的 内 容 。T0 时 刻 表 示 CDP 引 警 启 动 之 后 对 应 的 卷 影像 时 刻 ， 
即 尚 未 有 任何 变化 的 时 刻 ，Too 时 刻 表示 当前 最 新 时 刻 。 采 用 CoW 模 式 
的 CDP 系 统 中 ， 当 前 时 刻 的 源 卷 影 像 就 是 最 新 的 卷 影像 。Tn 表 示 任 何 一 
个 介 于 T0 和 当前 时 刻 之 间 的 时 刻 ， 即 任 一 历史 时 刻 。 





F 这 个 函数 关系 没有 规律 可 循 ， 因 为 IO 顺序 、 间 隔 都 是 无 规律 可 循 
的 。 正 因 如 此 ， 可 以 看 到 所 有 块 日 志 链 中 的 历史 块 的 存在 形式 是 凌乱 而 
没有 规律 的 ， 除 了 TO 时 刻 的 块 纵向 链 之 外 。 因 为 TO 时 刻 是 一 个 确定 的 
时 刻 ，CDP 系 统 做 好 准备 接收 卷 1O 的 那 一 刻 ， 就 是 TO 时 刻 。 但 是 随后 的 
时 间 中 ，IO 可 以 在 任意 时 间 点 到 达 任意 块 ， 所 以 从 T0 之 后 就 再 也 没有 规 
律 可 循 。 只 要 对 应 的 块 有 写 IO， 那 么 第 一 个 被 CoW 出 来 的 块 就 是 TO 时 





刻 的 历史 块 ， 所 以 可 以 看 到 这 个 时 刻 的 纵 癌 块 链 是 整齐 排列 的 。 另 外 ， 
由 于 B3 这 个 块 从 未 被 修改 过 ， 所 以 它 的 日 志 链 为 空 ， 当 前 的 B3 块 的 内 
容 等 于 T0 时 刻 的 B3 内 容 。 





上 文中 多 次 说 过 ， 面 对 高 IOPS 数 的 情况 下 ， 系 统 可 能 对 一 个 块 日 志 
链 中 先后 来 到 的 多 个 甚至 上 干 个 被 CoW 出 来 的 历史 块 打 入 同一 个 时 间 截 
《或 者 使 用 时 间 惟 十 全 局 序号 法 来 避免 这 个 问题 ， 但 是 消耗 资源 太 
大 ) ， 那 么 此 时 整个 系统 就 不 可 能 分 辨 出 纵 问 的 块 与 块 之 间 的 时 序 先后 
性 了 《 横 同 依然 可 以 分 辨 但 是 没有 意义 ) 。 上 文 也 提 到 过 ， 解 决 这 个 
问题 的 一 个 变通 方法 就 是 定时 地 在 所 有 块 日 志 链 中 做 标记 以 划 清 时 间 
线 。 





那么 大 家 来 看 一 下 ， 何 时 、 何 地 、 怎 么 来 做 标记 呢 ? 如 果 这 个 做 标 
记 的 动作 发 生 在 后 人 台 ， 即 前 合 源源 不 断 地 将 历史 块 存 入 日 志 链 之 后 再 做 
标记 的 话 ， 一 定 行 不 通 ， 因 为 此 时 你 已 经 无 法 分 清 到 底 该 在 哪 两 个 块 之 
间 切 开 了 ， 具 有 相同 时 间 惟 的 块 随处 可 见 ， 此 时 再 做 标记 已 经 晚 了 。 那 
就 只 能 在 前 全 做 标记 ， 也 束 是 说 在 被 CoW 出 来 的 历史 块 尚 未 写 到 日 志 链 
之 前 ， 用 一 把 闸 刀 纵 问 地 在 所 有 块 日 志 链 上 挥 斩 一 下 ， 被 斩 到 的 块 便 被 
做 上 对 应 时 刻 的 标记 ， 之 后 这 些 已 经 标记 的 块 便 被 写 入 对 应 的 日 志 链 。 
以 不 同 的 频率 挥 刀 抢 斩 ， 就 可 以 做 到 不 同 粒度 的 CDP 回 济 。 











我 们 假设 CoW 出 来 的 块 会 按照 图 示 的 顺序 和 间隔 到 达 ， 如 图 16-37 
所 示 。Ta 时 刻 系统 做 了 一 次 斩 断 《〈 对 应 到 专业 说 法 是 “采集 ?或 者 “ 采 
样 ?) ， 其 中 B0、B2、B7 这 三 个 日 志 链 都 斩 中 了 块 ， 而 剩余 的 日 志 链 斩 
空 。 对 于 斩 中 的 块 ， 系 统 对 其 做 时 间 线 标记 然后 退 加 到 日 志 链 末尾 。 对 
于 斩 空 的 日 志 链 ， 可 以 认为 当前 时 间 点 对 应 的 块 内 容 与 本 日 志 链 下 一 个 
即将 到 来 的 块 相同 ， 此 时 系统 可 以 沿 看 日 志 链 的 上 游 方 同 监测 ， 如 末 在 
线程 监测 的 时 间 段 内 恰好 有 刚 被 CoW 出 来 的 块 准 备 存 入 该 日 志 链 ， 则 线 





程 将 其 标记 纳入 本 次 斩 断 的 时 间 线 ， 如 果 在 监测 时 间 段 内 没有 新 块 被 妃 
加 到 该 日 志 链 ， 那 么 线程 需要 从 源 多 将 对 应 的 块 内 容 读 出 (注意 读 取 对 
应 的 块 时 需要 考虑 线程 苋 争 互 斥 ， 必 须 锁定 该 块 防止 新 数据 将 其 覆 
兰 ) ， 然 后 做 标记 纳入 本 次 时 间 线 ， 然 后 奶 加 a 到 日 志 链 末尾 存放 。 


图 16-37 Ta 时 刻 挥 刀 抢 斩 


然而 ， 对 于 那些 更 新 频率 很 小 的 源 吞 块 来 讲 ， 每 次 斩 断 均 需 要 读 取 
源 卷 ， 每 次 读 出 的 内 容 都 相同 ， 除 非 对 应 块 被 更 改 ， 这 样 的 话 日 志 链 中 
将 会 有 很 多 元 余数 据 并 且 耗 费 额 外 的 读 操 作 。 对 于 这 个 问题 ， 可 以 使 用 
另外 的 方法 来 解决 ， 比 如 对 每 个 由 于 斩 空 而 从 源 卷 该 出 并 追加 到 日 志和 链 
的 块 ， 除 了 做 时 间 线 标记 之 外 ， 再 做 一 个 特殊 标记 来 表明 它 的 特殊 性 ， 
这 样 ， 当 下 一 次 斩 断 时 刻 到 来 的 时 候 ， 系 统 检查 日 志 链 末尾 ， 如 果林 尾 
的 块 被 标记 为 这 种 特殊 块 ， 那 么 系统 只 需要 完成 日 志 链 上 游 巡 检 “(其 实 
就 是 癌 CoW 线 程 进 行 查询 ) 阶段 即 可 。 如 果 近 检 完 成 之 后 未 发 现 已 被 
CoW 出 的 块 ， 那 么 本 次 斩 断 时 间 线 可 以 直接 指向 日 志 链 末尾 的 那个 块 而 
无 须 再 次 复制 ， 市 约 了 资源 。 




















在 图 16-37 中 ， 标 记 为 C 的 块 意味 着 此 块 是 从 当前 的 源 卷 中 复制 出 来 
的 ， 可 以 看 到 由 于 B3、B4、B5 这 三 条 日 志 链 在 挥 刀 抢 斩 的 时 刻 并 没有 
CoW 出 的 块 到 来 ， 所 以 Ta 时 刻 对 应 的 块 的 内 容 就 是 源 卷 对 应 块 的 内 容 ， 
因此 系统 从 源 卷 将 这 三 个 块 读 了 出 来 追加 到 日 志 链 末尾 存放 并 做 时 间 线 
标记 和 特殊 标记 。 被 标记 为 W 的 块 表 示 相 关 线 程 沿 日 志 链 上 游 方向 巡查 
时 一 定 会 遇 到 该 块 ， 所 以 系统 会 等 待 〈(W) 该 块 的 到 来 ， 届 时 会 将 其 作 
时 间 线 标记 《不 做 特殊 标记 ) 。 这 里 的 所 谓 “ 等 待 ”其 实 并 不 是 真正 的 去 
等 待 ， 而 是 采样 线程 主动 地 查询 CoW 线 程 去 探测 是 否 已 经 有 CoW 出 的 
块 正 等 待 写 入 日 志 链 ， 如 果 有 则 去 获取 ， 没 有 则 按照 上 文 所 述 的 逻辑 继 
续 处 理 。 

















依 此 类 推 ， 在 Ta 十 b 和 Ta 十 c 时 刻 ， 系 统 又 做 了 两 次 斩 断 。 可 以 看 
到 ，B3、B4、B5 三 个 块 被 公用 了 ， 节 约 了 IO 资源 ， 如 图 16-38 所 示 。 


图 16-38 ”定时 挥 刀 抢 斩 





我 们 对 图 16-38 做 一 些 抽象 工作 。 对 于 每 个 时 间 线 ， 沿 着 时 间 线 所 
跨越 的 块 的 右边 界 划 线 ， 如 图 16-39 所 示 。 


图 16-39” 划 定时 间 线 


然后 ， 将 凡是 右边 界 不 贴 线 的 所 有 块 进行 铁 空 ， 剔 除 它 们 ， 只 留 下 
被 时 间 线 跨越 的 块 ， 如 图 16-40 所 示 。 





图 16-40 “” 炙 空 不 可 回 询 的 块 


然后 我 们 再 将 被 时 间 线 所 跨越 的 块 也 全 部 删 控 ， 如 图 16-41 所 示 。 
这 样 ， 这 个 象限 中 只 剩 下 了 我 们 所 男 的 线条 。 可 以 将 这 个 线条 称 做 “ 回 
漳 线 "。 只 有 右 侧 边 紧 邻 回 调 线 的 块 才 可 以 被 回调 ， 也 就 是 图 16-40 中 所 
包含 的 那些 块 。 





图 16-41 回溯 线 








回溯 线 是 纵向 延伸 、 横 同上 有 所 浮动 的 线 ， 理 想 情 况 下 ， 每 次 斩 断 
所 生成 的 回调 线 不 交叉 不 重合 ， 便 于 分 辨 ,但 是 一 旦 遇 到 共享 块 ， 那 么 
多 条 回调 线 便 会 有 所 重合 和 交叉。 回溯 线 是 在 纵 回 方 同 上 将 这 一 时 间 点 
的 所 有 块 的 内 容 连 接 成 为 一 个 完整 的 卷 影 像 的 脉络 线 。 如 果 利 用 快刀 斩 
乱 拱 的 方式 来 鲁莽 地 将 日 志 链 切 分 ， 那 么 得 到 的 虽然 是 个 光滑 表面 ， 但 
征 这 个 光 请 的 表面 是 至 无 用 处 的 ， 不 能 保证 时 序 一 致 性 ， 而 利用 疾风 链 
月 斩 所 生成 的 虽然 是 一 条 曲 示 扔 索 的 坑 洼 表面 ， 但 是 依附 在 这 个 表面 上 
的 数据 块 都 是 带 有 时 序 一 致 性 的 。 








每 次 进行 回溯 的 时 候 ， 系 统 会 根据 用 户 所 指定 的 时 间 点 来 寻找 系统 
中 离 用 户 给 出 的 时 间 点 最 为 接近 的 斩 断 点 ， 然 后 将 数据 回溯 到 此 处 ， 这 
样 即 可 保证 整个 卷 所 有 块 之 间 的 时 序 一 致 性 了 。 


另外 ， 本 招 之 所 以 裤 称 为 “疾风 镁 月 斩 ”， 不 但 是 因为 其 像 疾 风 一 样 
迅速 ， 而 且 还 因为 它 可 以 将 日 志 链 中 不 可 回溯 的 无 用 块 剔 除 掉 以 市 省 空 
间 。 


5) 改进 之 后 的 招式 一 迅雷 幻影 手 








疾风 铂 月 斩 在 斩 断 点 之 间 保 存 了 大 量 的 无 用 历史 块 ， 写 入 这 些 块 需 
要 耗费 额外 的 IO 资 源 。 与 其 完 写 入 再 匀 空 ， 为 何不 干脆 就 不 要 将 这 些 明 
知 后 来 将 要 被 铁 空 掉 的 块 写 到 日 志 链 中 呢 ? 


思考 : ”想象 一 下 ， 有 成 千 上 万 串 的 IO 在 不 断 的 下 落 ， 速 度 非 
常 快 ， 此 时 有 一 只 手 ， 它 能 够 以 迅雷 不 及 掩 耳 的 速度 将 茶 个 时 
间 点 的 某 个 固定 横向 方向 上 的 正在 下 落 的 IO 抓 取 出 来 ， 没 被 抓 
取 的 IO 块 随 后 就 被 漂 灭 了 ， 只 保留 那些 被 抓 取 出 来 的 块 。 


古 的 ， 在 疾风 镁 月 斩 一 招 中 ， 负 责 斩 断 的 线程 和 负责 写 日 志 的 线程 
之 间 沟 通 的 不 够 ， 导 致 效率 低下 。 如 果 让 斩 断 线程 作用 于 写 日 志 线 程 之 
前 ， 日 志 写 线程 只 写 入 那些 被 保留 的 数据 块 并 且 做 相应 标记 ， 这 样 就 可 
以 大 大 提高 效率 。 





且慢 ! 仔细 考虑 考虑 。 如 果 这 样 做 的 话 ， 那 么 在 两 次 采样 的 间 辽 中 
所 发 生 的 更 改 块 就 不 会 被 保留 ， 可 能 在 某 个 采样 间隙 之 中 ， 东 个 块 已 经 
有 了 多 次 更 改 ， 而 都 没有 被 记录 下 来 。 这 样 ， 当 下 一 次 采样 点 时 ， 如 果 
恰 马 没有 采 到 针对 这 个 块 的 更 新 块 ， 而 上 一 次 采样 时 的 块 是 从 源 卷 复制 





而 来 的 ， 那 么 本 次 采样 依然 会 将 回溯 线 贴 附 到 日 志 链 结尾 的 上 一 次 采样 
点 对 应 的 块 中 。 而 这 样 显然 是 错误 的 ， 因 为 这 个 块 在 之 前 的 间隙 中 已 经 
有 了 多 次 更 新 ， 而 晚 于 这 些 更 新 时 间 点 的 采样 却 错误 地 认为 采样 点 对 应 
的 块 与 上 次 采样 相同 ， 





所 以 ， 迅 雷 幻影 手 这 一 招 ， 用 不 得 ! 只 能 先 留 碟 ， 所 有 IO 一 个 都 不 
能 少 ， 后 删除 ， 后 人 台 处 理 ， 先 斩 后 奏 ! 


6) 一 次 修炼 之 后 的 新 套路 


之 前 的 招 法 都 是 基于 CoW 模 式 来 设计 的 ，CDP 服 务 端 不 停 的 CoW， 
这 样 的 话 如 何 保证 性 能 ? 由 于 产生 额外 的 2 倍 写 惩 避 ， 相 当 于 IOPS 和 带 
宽 耗 费 变 为 不 启动 CDP 时 的 3 倍 ! 这 怎么 可 以 让 人 接受 呢 ? 必须 无 条 件 
转向 RoW 模 式 ， 有 再 大 的 技术 难题 ， 也 要 攻克 ! 我 们 之 前 曾经 讨论 过 
CoW 与 RoW 方 式 的 对 比 ，RoW 耗 费 IO 资 源 ， 但 是 后 续 的 所 有 访问 会 一 
直 持 续 地 计算 资源 ， 但 是 这 个 结论 对 于 CDP 环 境 就 不 成 立 了 ， 主 机 发 起 
的 读 操作 不 会 落 到 CDP 镜 像 卷 上 ， 而 是 落 在 了 源 卷 ， 这 样 根 本 不 需要 
CDP 来 处 理 什 么 。 既 然 这 样 ， 如 果 在 CDP 环 境 下 使 用 RoW 模 式 ， 那 么 将 
不 会 影响 到 主机 IO。RoW 模 式 虽 然 不 适合 大 部 分 快照 设计 ， 但 却 非 常 适 
"CDP 








此 外 ， 可 以 看 到 在 疾风 铁 月 斩 招 法 中 ， 首 次 采样 时 如 果 遇 到 茶 个 块 
从 来 没 被 CoW 过 ， 那 么 需要 从 镜像 卷 中 将 其 复制 出 来 放 到 日 志 链 中 ， 而 
第 一 次 采样 时 基本 上 大 部 分 的 块 都 是 尚未 被 履 瘟 过 的 ， 那 总 不 是 等 于 需 
要 复制 出 镜像 卷 中 大 部 分 的 数据 块 到 日 志 链 中 ? 几乎 等 于 再 将 镜像 卷 叉 
镜像 了 一 份 ! 在 首次 采样 的 短 短 时 间 之 内 需要 做 这 么 大 量 的 事情 ， 从 空 
间 和 性 能 上 都 不 能 接受 ， 是 人 否 可 以 只 用 指针 来 指 同 镜像 卷 对 应 的 块 地 址 
呢 ?” 其 实 ， 首 次 复制 这 个 动作 是 有 苗 衷 的 。 

















试想 一 下 ， 一 旦 CDP 引 擎 〈CoW 或 者 Row 引擎 ) 发 生 故 障 ， 中 断 工 
作 ， 而 源 卷 可 不 管 你 CDP 是 否 故障 ， 它 还 是 在 不 断 地 被 写 入 。 


那么 此 时 有 两 种 处 理 办 法 。 第 一 种 处 理 方式 是 主机 问 的 IO 镜像 堪 停 
止 向 CDP 服 务 端 发 送 IO 数据 ， 等 CDP 恢 复 之 后 再 次 发 送 ， 如 果 这 样 的 
话 ， 从 故障 到 恢复 这 期 间 的 数据 变化 就 无 法 被 同步 到 CDP 上 的 镜像 卷 
了 。 就 算 CDP 恢 复 之 后 ， 再 次 采样 ， 那 么 所 生成 的 历史 时 刻 影像 就 是 不 
一 致 的 ， 因 为 缺失 了 一 段 历史 ， 在 采集 之 前 必须 补 回来 才 可 以 。 解 决 这 
个 问题 的 办 法 是 在 主机 端 IO 镜像 器 设计 一 个 位 图 用 于 退 踩 断 开 与 恢复 之 
间 的 数据 变化 ， 当 恢复 之 后 ， 首 先 利用 这 个 追踪 位 图 将 这 些 变化 的 块 不 
呆 地 传送 到 CDP 端 覆盖 到 镜像 卷 ， 同 时 不 断 地 记录 正在 发 生 的 源 卷 改 
变 ， 之 后 不 断 地 退 赶 ， 最 终 达 到 收 玖 状态 ， 双 方 严 格 同步 ， 然 后 再 启动 
采样 进程 开始 采样 。 但 是 恢复 之 后 的 采样 进程 在 首次 采样 时 也 依然 需要 
将 镜像 卷 中 对 应 的 块 复制 出 来 放 到 日 志 链 中 ， 这 又 会 占用 大 量 的 存储 空 
间 。 























提示 : 这 样 做 的 好 处 是 : CDP 故 障 之 前 的 历史 版 本 都 还 可 
用 ， 因 为 当时 首次 采样 时 做 了 复制 留 奈 而 不 是 用 指针 指 问 镜像 
卷 ， 所 以 ，CDP 故 隐 期 间 所 丢失 的 历史 时 刻 数据 仅仅 是 故障 到 
恢复 期 间 这 段 时 间 的 历史 。 所 以 ， 如 宁 首 次 采样 时 只 用 指针 指 
问 镜 像 卷 对 应 的 块 ， 那 么 当 镜 像 卷 上 的 茶 些 块 发 生 罗 兰 的 时 

候 ， 指 针 束 无 效 了 ， 之 前 的 历史 版 本 数据 也 就 都 随 之 漂 炙 了 。 





第 二 种 处 理 方式 是 : 当 CDP 引 获 发 生 故 障 时 ， 主 机 端 IO 镜 像 器 依然 
源源 不 断 地 将 写 IO 发 送 过 来 ， 此 时 这 些 IO 会 直接 履 盖 镜像 卷 上 对 应 的 
块 ， 因 为 此 时 由 于 CDP 故 障 而 做 不 了 找 出 或 者 重 定向 动作 了 ， 如 果 当 初 
没有 首次 采样 复制 而 只 是 用 了 指针 ， 那 么 之 前 的 指针 与 现在 的 实际 数据 
的 时 序 一 致 性 将 无 法 得 到 保证 了 ， 因 为 镜像 卷 已 经 受到 了 “污染 ”。 所 
































以 ， 之 前 所 有 的 历史 版 本 数据 此 时 也 同样 都 将 不 再 可 用 。 


如 果 使 用 指针 ， 那 么 故障 之 后 当 CDP 引 擎 恢复 时 ， 就 必须 从 头 开 
始 ， 之 前 所 有 保存 的 历史 数据 版 本 都 不 可 用 。 而 如 果 首 次 采样 时 复制 一 
份 基 线 版 本 出 来 ， 那 么 就 算 CDP 引 擎 暂时 停止 工作 ， 也 只 是 导致 从 停止 
那 一 刻 到 恢复 那 一 刻 起 这 之 间 的 历史 时 刻 不 可 回调 ， 再 往 前 或 者 再 往 后 
的 版 本 都 可 以 回潮 。 另 外， 不 管用 指针 还 是 首次 复制 方式 ， 当 CDP 引 擎 
恢复 之 后 ， 需 要 以 当前 时 刻 的 镜像 卷 为 基线 版 本 重新 开始 采样 ， 这 也 就 
意味 着 不 能 与 之 前 首次 复制 的 块 公用 了 。 这 样 做 显然 是 非常 浪费 空间 
的 ， 可 以 估算 日 志 卷 至 少 是 源 卷 的 一 倍 大 小 ， 这 是 至 少 。 要 真正 跑 起 
来 ， 臣 怕 得 1.5 倍 而 且 还 得 期 望 CDP 引 擎 不 要 中 断 ， 中 断 了 再 恢复 如 果 还 
想 保留 以 前 的 历史 版 本 的 话 那 就 得 2 倍 起 了 。 


























鉴于 首次 复制 方式 太 过 浪费 空间 ， 也 无 法 让 人 承受 ， 只 好 退 而 求 其 
次 ， 一 旦 CDP 故 障 或 者 中 断 ， 那 么 在 CDP 恢 复 之 前 ， 用 户 可 以 选择 将 东 
儿 个 关键 时 间 扣 的 数据 影像 备份 下 来 ， 然 后 再 恢复 CDP 运 行 。 恢 复 之 
后 ， 所 有 历史 版 本 数据 将 被 删除 重 来 ， 但 是 CDP 服 务 端的 镜像 卷 可 以 保 
留 ， 主 机 端的 IO 镜 像 占 可 以 在 CDP 中 断 工作 期 间 记 录 变 更 位 图 ， 当 CDP 
再 次 局 动 之 后 ， 主 机 端 可 以 只 将 变更 的 块 再 次 同步 过 来 即 可 。 





经 过 上 面 两 层 的 修炼 之 后 ， 我 们 有 了 结论 : 必须 使 用 RoW 方 式 ， 必 
须 抛 弃 首 次 复制 的 做 法 ， 改 用 指针 。 我 们 下 面 看 一 下 Row 十 首次 指针 模 
式 下 CDP 引 擎 的 工作 流程 。 











如 图 16-42 所 示 为 RoW 十 无 首次 复制 模式 下 采样 示意 图 。 

















图 16-42 RoW 十 无 首次 复制 模式 下 采样 示意 图 





TO 时 刻 的 块 链 〈( 苍 〉， 也 残 是 图 中 所 示 的 CDP 引 擎 开始 采集 的 那 一 


瞬间 的 基线 卷 版 本 。 当 采集 尚未 开始 时 ， 所 有 对 这 个 卷 的 更 新 会 直接 履 
兰 于 其 上 ， 不 产生 Row 动作 。 一 旦 采集 线程 开始 工作 时 ， 那 一 瞬间 的 卷 
版 本 即 被 冻 住 ， 随 后 针对 这 个 多 任何 块 的 更 改 内 容 均 补 RoW 人 退 加 到 每 个 
块 的 日 志 链 中 。 每 隔 一 段 时 间 ， 采 样 线 程 触发 采样 。 





Tl 时 刻 触 发 一 个 采样 点 ， 采 样 线程 首先 同日 志 链 写 线程 发 起 伍 询 以 
确认 是 否 当 前 时 刻 存 在 即将 被 RoW 入 日 志 链 的 数据 块 ， 也 就 日 志 写 线程 
已 经 对 外 面 返回 ACK 写 成 功 信号 但 尚未 写 到 日 志 中 的 数据 块 。 如 果 得 到 
日 志 写 线程 的 回馈 说 没有 ， 那 么 采样 线程 直接 对 日 志 链 尾部 的 块 做 标 
记 ， 将 其 标记 为 本 次 采样 的 命中 块 。 











本 例 中 ， 对 于 BO0、B1、B2、B5、B6 这 5 个 块 的 日 志 链 ， 采 样 线程 
并 没有 查询 到 有 即将 被 写 入 的 RoW 块 ， 并 且 在 日 志 链 尾部 也 并 没有 之 前 
的 RowW 的 块 〈 本 例 中 T1 时 刻 这 几 个 块 的 日 志 链 为 空 ) ， 所 以 采样 线程 
直接 指向 TO 时 刻 卷 对 应 的 块 上 在 日 志 链 末尾 生成 一 个 指针 记录 ) ; 对 
于 B3、B7 的 日 志 链 ， 采 样 点 时 恰好 采 到 了 日 志 链 末尾 的 一 个 RoW 过 来 
的 块 ， 标 记 之 ; 对 于 B4 的 日 志 链 ， 采 样 点 时 刻 并 未 发 现 日 志 链 末尾 有 
RoW 的 块 ， 但 是 通过 查询 日 志 链 写 线程 ， 得 到 回馈 ， 正 有 一 个 RoW 的 
块 要 被 写 入 日 志 链 ， 所 以 采样 线程 等 待 日 志 写 线程 成 功 将 这 个 块 写 入 日 
志 链 之 后 ， 对 其 进行 标记 。 至 此 ，T1 时 刻 采样 完成 。 























T2 时 刻 再 次 触发 采样 。 同 样 ， 采 样 线程 首先 查询 日 志 写 线程 得 到 有 
哪些 块 的 日 志 链 将 要 有 RoW 的 块 补 写 入 ， 对 于 那些 有 RoW 块 即将 个 写 
入 的 日 志 链 ， 采 样 线程 就 等 等 其 写 入 ; 对 于 那些 没有 RoW 即 将 被 写 入 的 
日 志 链 ， 采 样 线程 直接 对 日 志 链 末尾 的 块 进行 标记 ， 标 记 为 本 次 采样 的 
命中 块 。 如 果 电 到 尚 为 空 的 日 志 链 ， 则 在 日 志 链 尾部 生成 指针 指向 TO 时 
刻 源 卷 对 应 的 块 。 











之 后 的 所 有 采样 点 都 依 此 类 推 ， 执 行 同 样 的 过 程 。 同 时 ， 系 统 可 以 
尼 动 一 个 后 台 进 程 ， 专 门 对 日 志 链 中 没有 被 采样 点 采 中 的 块 进行 铁 空 操 
作 ， 将 其 删 掉 以 市 约 空间 。 删 挥 之 后 就 变 成 了 如 图 16-43 所 示 的 样子 ， 
每 条 采样 线 粘 住 的 块 链 就 是 这 个 时 刻 这 个 卷 的 历史 影像 了 。 经 过 再 次 抽 
象 ， 将 粘 住 的 块 也 腐蚀 掉 之 后 ， 只 剩 下 了 抽象 的 回调 线 ， 系 统 只 能 回 淹 
到 这 些 线 所 代表 的 时 刻 以 及 块 链 ， 也 就 意味 着 只 有 右 侧 紧 贴 回溯 线 的 块 
才 可 以 被 回溯 。 





























图 16-43 ” 先 斩 后 镁 及 铁 空 后 显现 出 来 的 回溯 线 








CDP 引 擎 必须 作用 于 整个 CDP 服 务 端 的 总 IO ”Queue 之 下 ， 缓 存 之 
前 。 即 在 Queue 这 个 水 渠 处 做 抬 断 ， 这 样 才 可 以 分 辨 出 每 个 IO 的 时 序 先 
后 然后 严格 按照 时 序 下 发 到 日 志 链 中 ， 从 而 让 采样 线程 中 相关 时 序 逻 辑 
的 作用 结果 达到 预期 。 如 果 等 到 所 有 IO 都 进入 了 缓存 ， 然 后 再 将 各 个 块 
内 容 下 发 到 日 志 链 ， 那 么 此 时 就 像 大 海 捞 针 一 样 ， 无 法 分 辨 出 时 序 ， 所 
下 发 的 IO 都 是 乱 序 的 。 日 志 写 线程 为 了 保证 每 个 IO 被 按照 顺序 写 入 日 志 
链 ， 也 要 耗费 一 定 资源 ， 比 如 在 写 入 数据 之 前 ， 需 要 把 所 有 待 写 入 的 IO 
数据 块 做 成 一 条 按时 间 先 后 排列 的 链 ， 然 后 依次 下 发 ， 这 样 是 非常 低 效 
的 ， 必 须 进 行 流程 优化 。 











进一步 优化 流程 在 总 Queue 的 尾部 处 执行 Suspend 暂 挂 ， 当 然 暂 挂 
期 间 ， 主 机 的 IO 依然 可 以 下 发 ，Queue 不 断 充 满 。 当 拘 住 点 之 下 的 IO 全 
部 写 到 日 志 链 中 之 后 ， 采 集 线 程 立 刻 做 采集 ， 和 采集 完毕 ， 回 漳 线 生成 之 
后 ， 总 Queue 解 除 暂 挂 。 这 样 ， 数 据 按照 批 次 来 写 入 日 志 链 ， 这 一 个 批 
次 之 内 的 IO 不 需要 分 辨 时 序 ， 但 是 批 次 与 批 次 之 间 是 严格 按照 时 序 先后 
发 生 的 ， 每 一 批 次 的 IO 被 写 入 日 志 链 之 后 ， 再 进行 采集 。 这 样 做 ， 不 但 
可 以 简化 日 志 写 线程 的 设计 以 及 流程 ， 同 时 也 简化 了 采集 线程 的 设计 与 




















流程 ， 因 为 采集 线程 此 时 不 需要 沿 着 日 总 链 辣 上游 巡 得 了 ， 也 就 是 说 采 
集 线 程 在 采集 时 不 需要 回 日 志 写 线程 进行 查询 操作 了 。 








此 外 ， 除 了 在 CDP 服 务 端 存储 阵列 的 总 IO Queue 处 实现 暂 挂 外 ， 还 
可 以 定期 的 在 主机 端 相应 的 层次 ， 比 如 文件 系统 处 、 各 种 应 用 程序 处 实 
现 一 致 性 刷 盘 暂 挂 ， 待 CDP 和 采集 线程 采集 标记 完 后 解除 暂 挂 ， 这 样 束 可 
以 实现 完全 应 用 层 的 一 致 性 了 ， 这 些 采 样 点 便 是 应 用 层 一 致 的 。 不 过 这 
种 采样 不 可 多 做 ， 因 为 会 对 应 用 产生 影响 ， 定 期 做 即 可 。 这 样 ， 在 日 志 
链 中 既 可 以 保证 各 干 份 应 用 层 一 致 的 影像 ， 又 可 以 保证 一 致 性 层次 较 低 
的 大 量 其 他 历史 时 刻 的 影像 。 











批量 IO 以 保证 时 序 一 致 性 的 做 法 是 个 通用 做 法 ， 已 经 用 于 数据 远程 
复制 技术 中 。 这 种 技术 又 被 称 为 “一 致 性 组 ”技术 ， 关 于 这 一 技术 更 详细 
的 阐述 请 见 本 书后 面 的 革 市 。 


经 过 这 样 的 流程 优化 之 后 ， 系 统 就 可 以 利用 有 限 的 资源 生成 更 届 频 
率 的 采样 ， 降 低 CDP 的 回调 粒度 到 秒 级 甚至 更 低 。 





7) 二 次 修 炬 之 后 的 最 终 招 式 一 雕 心 铁 月 约 影 斩 


之 前 所 列 出 的 招式 ， 无 一 例外 都 需要 在 块 日 志 链 中 做 动作 ， 标 记 对 
应 的 块 。 但 是 仔细 思考 一 下 之 前 的 模型 ， 每 个 块 都 有 一 条 物理 上 的 日 志 
链 ， 那 么 一 开始 要 为 每 个 块 的 日 志 链 分 配 多 少 空间 呢 ? 如 果 某 个 块 频繁 
被 更 新 导致 其 日 志 链 迅速 充满 ， 此 时 如 何 解决 ?另外 一 个 问题 是 ， 每 次 
采样 时 需要 对 所 有 的 块 做 标记 ， 需 要 做 大 量 的 写 入 动作 ， 而 且 这 些 写 入 
都 属于 随机 IO 类 型 ， 那 么 此 时 如 何 保证 IO 性 能 ?人 针对 以 上 两 个 问题 ， 虽 
然 可 以 有 各 种 技术 手段 解决 ， 但 是 其 效率 将 会 是 非常 低 的 ， 尤 其 是 IO 效 
率 上 ， 将 会 使 整个 系统 运行 缓慢 。 








如 图 16-44 所 示 为 分 块 日 志 链 与 全 局 日 志 链 的 物理 结构 比较 ， 很 显 
然 ， 对 分 块 日 志 链 的 写 入 动作 将 会 非常 耗费 资源 ， 但 是 写 入 全 局 日 志 链 
就 不 用 考虑 那么 多 了 ， 所 有 分 块 的 RoW 的 10 只 要 追加 到 日 志 链 末尾 即 
可 。 但 是 这 样 做 又 不 利于 快速 寻 址 ， 也 就 不 可 能 实现 瞬间 挂 载 历史 时 刻 
的 影像 。 那 么 有 没有 什么 办 法 将 这 两 种 模式 的 优点 相 结 合 呢 ? 














图 16-44 ”分 块 日 志 链 与 全 局 日 志 链 








答案 似乎 已 经 浮 出 水 面 了 。 如 有 果 把 分 块 日 志 链 的 这 个 框架 全 部 搬 到 
内 存 中 ， 做 成 一 张 分 块 日 志 链 表 ， 而 确 层 实际 数据 的 存储 使 用 全 局 日 志 
链 的 模式 来 存储 ， 在 分 块 日 志 链 表 中 不 保留 实际 数据 块 而 只 保留 数据 块 
在 全 局 日 志 空 间 的 地 址 指针 ， 那 么 就 可 以 完美 地 解决 效率 问题 了 。 











如 图 16-45 所 示 为 全 局 日 志 链 存储 结构 与 分 块 日 志 元 数据 链 结合 之 
后 的 新 模型 。 通 俗 一 点 说 ， 每 个 块 的 RoW 的 IO 到 来 之 后 全 部 顺序 退 加 到 
志 空 间 末 尾 ， 属 于 一 种 完全 连续 IO， 同 时 在 分 块 元 数据 日 志 链 中 将 每 
个 RoW 块 被 写 入 到 日 志 空 间 内 的 地 址 指针 记录 下 来 并 且 追 加 到 每 个 块 日 
志 元 数据 链 的 末尾 ， 由 于 这 个 动作 是 在 内 存 中 完成 ， 不 需要 对 破 盘 进行 
额外 IO 操作 ， 所 以 可 以 保证 性 能 。 


























图 16-45 ”全 局 日 志 链 存储 十 分 块 元 数据 链表 





在 每 次 采样 点 时 ， 系 统 也 只 会 在 分 块 元 数据 日 志 链 中 做 标记 ， 而 不 
需要 去 日 志 存 储 空 间 内 相应 的 块 上 做 标记 了 ， 也 避免 了 无 谓 的 磁盘 IO 消 
耗 。 采 样 点 之 间 的 无 用 块 可 以 在 后 合 将 其 铂 空 掉 以 降低 日 志 空 间 的 耗 
组， 同时 分 块 元 数据 链 中 的 对 应 这 些 无 用 块 的 指针 也 可 以 被 删 挥 以 降低 
元 数据 链 的 容量 和 复杂 度 ， 加 速 寻 址 速度 。RoW 线 程 维 护 一 个 对 日 志 空 
间 的 Space Bitmap 来 充分 利用 被 删除 的 无 用 块 后 所 腾 出 来 的 空余 空间 。 














分 块 元 数据 日 志 链 相当 于 给 无 法 直接 迅速 寻 址 的 、 顺 序 保 存 的 Row 数据 
块 空间 创建 了 一 份 类 似 于 文件 系统 思想 的 、 可 迅速 寻 址 的 元 数据 链 。 全 
局 日 志 链 撒 层 的 每 个 Row 数据 块 都 是 完全 随机 排 布 的 ， 没 有 按照 每 个 块 
来 划分 ， 但 是 这 不 重要 。 正 像 文 件 系 统 中 的 文件 在 底层 也 可 以 是 完全 随 
机 分 布 一 样 ， 只 要 有 一 条 清 清楚 楚 的 元 数据 链 图 纸 ， 按 图 索 双 束 可 以 将 
对 应 的 块 串 成 一 条 按照 历史 时 间 先 后 顺序 排列 的 链 了 。 

















相对 于 之 前 的 “疾风 狂 月 斩 ” 所 用 的 带 内 元 数据 记录 方式 〈 直 接 将 日 
志 链 按照 分 块 来 排 布 而 不 是 全 局 排 布 ， 并 且 和 直接 在 分 块 日 志 链 的 数据 块 
上 增加 标记 ) ,“ 雕 心 铁 月 约 影 新 ? 则 属于 一 种 带 外 元 数据 记录 方式 ， 其 
好 处 是 对 实际 数据 的 排 布 方式 没有 限制 ， 可 以 按照 最 优 的 模式 来 排 布 。 








分 块 元 数据 链表 虽然 存放 的 全 部 都 是 地 址 指针 以 及 相应 的 标记 ， 容 
量 远 小 于 实际 数据 日 志 ， 但 是 其 容量 也 是 不 可 忽视 的 ， 需 要 为 其 提供 一 
个 专门 的 存储 空间 。 为 了 保证 性 能 ， 元 数据 链 全 部 载 入 内 存 ， 所 有 的 更 
改 在 内 存 中 进行 ， 刷 盘 时 间 可 以 适当 提高 而 不 必 频 繁 刷 盘 。 频 繁 刷 盘 意 
义 不 大 ， 因 为 如 果 CDP 服 务 器 发 生 故障 、 宕 机 之 后 ， 需 要 做 重新 同步 ， 
同步 之 后 ， 之 前 所 有 的 历史 时 刻 影 像 均 会 被 抹 除 。 











挂 载 东 历史 采样 点 的 影像 之 后 ， 针 对 影像 中 某 个 块 的 IO 操作 ， 均 需 
要 查询 分 块 元 数据 链 来 寻找 对 应 采样 点 回溯 线 上 对 应 的 块 的 地 址 指针 ， 
然后 通过 这 个 指针 到 全 局 日 志 链 中 将 对 应 地 址 的 块 内 容 读 出 并 且 返 回 给 
主机 端 。 如 果 过 到 针对 这 份 虚拟 影像 的 写 操作 ， 那 么 就 像 之 前 一 样 ， 下 
次 对 这 些 二 次 写 操 作 进行 RowW， 形 成 新 的 日 志 链 ， 也 就 是 日 志 链 上 菏 个 
历史 时 刻 的 分 文 日 筷 链 ， 也 惑 相 当 于 历史 回 退 之 后 ， 从 回 退 点 再 次 辐 前 
发 展 ， 将 所 有 的 发 展 用 相同 的 方法 记录 下 来 ， 从 而 使 得 对 虚拟 影像 的 变 
更 也 可 以 回 退 。 或 者 选择 将 当前 的 虚拟 影像 同步 到 一 个 新 存储 空间 ， 比 
如 主机 直接 从 这 份 虚拟 影像 月 动 ， 然 后 将 这 份 影 像 同步 到 本 地 月 动 盘 ， 























同步 之 后 再 切换 到 本 地 盘 局 动 ， 这 束 是 一 个 典型 的 本 地 操作 系统 或 者 物 
理 故 障 之 后 的 迅速 恢复 过 程 。 


从 上 面 的 模型 不 难看 出 ， 对 CDP 虚 拟 影 像 卷 的 读 IO 操 作为 完全 随机 
的 IO 类 型 ， 因 为 历史 时 刻 的 块 是 完全 随机 分 布 在 全 局 块 日 志 链 中 各 个 位 
置 的 ， 这 也 就 会 导致 性 能 很 低 ， 请 意识 到 这 一 点 。 但 是 对 其 的 写 入 操作 
由 于 会 被 不 断 地 追加 到 日 志 链 末尾 ， 属 于 一 种 连续 IO 类 型 ， 所 以 上 层 的 
写 IO 不 管 原 生 状 态 有 多 么 离散 随机 ， 到 了 地 层 全 部 变 为 连续 IO， 从 这 种 
角度 来 看 ，CDP 服 务 端 至 少 不 会 被 随机 写 IO 所 拖 慢 ， 反 而 还 可 能 比 主 存 
储 的 响应 时 间 更 快 。 不 仅 对 虚拟 影像 的 写 入 操作 时 如 此 ， 所 有 CDP 所 接 
收 的 写 IO 在 底层 均 被 连续 化 处 理 ， 充 分 屏蔽 了 写 IO 的 原生 随机 性 ， 这 样 
就 可 以 大 大 降低 随机 IO 对 系统 性 能 的 影响 ， 随 机 度 完 全 被 体现 在 分 块 元 
数据 链 中 。 








8) CDP 和 快照 的 生态 关系 


我 们 回头 看 一 看 16.2.3 节 中 对 快照 底层 的 演绎 ， 发 现 CDP 和 快照 其 
实 本 是 同根 生 ， 快 照 是 用 一 个 全 局 IO 仓库 卷 和 多 份 映 射 表 来 维持 块 映 射 
关系， 而 CDP 则 十 用 多 份 日 志 链 和 多 个 回溯 线 来 维持 块 映 射 关 系 。CDP 
中 的 回溯 线 相当 于 快照 系统 中 的 块 映射 表 ， 每 次 生成 一 份 快照 部 需要 新 
建 一 份 新 映射 表 ， 同 样 ， 每 次 生成 一 个 可 回溯 点 ， 也 需要 生成 一 条 回 淹 
线 。 快 照 是 个 照相 机 ， 而 CDP 则 是 个 摄像 机 ， 摄 像 机 与 照相 机 的 区 别 就 
古 摄像 机 每 秒 可 以 过 24 张 股 片 ， 生 成 每 秒 24 帧 的 可 以 骗 过 观众 眼睛 的 影 
片 。 电 影 疝 且 有 每 秒 24 帧 的 粒度 ， 那 么 CDP 是 不 是 也 可 以 使 用 茶 种 粒度 
来 满足 用 尸 需求 呢 ? 一 个 道理 ， 没 有 必要 记录 到 自然 界 的 每 一 个 微小 的 
位 移 ， 就 像 没 有 必要 记录 每 一 个 IO 一 样 。 


CDP 的 主要 价值 还 是 体现 在 本 地 和 远程 容 灾 ，CDP 目 身 这 个 技术 只 


是 一 个 岂 子 。 两 分 钟 做 一 个 快照 ， 保 留 30 份 或 60 份 ， 也 就 是 可 以 以 两 分 
钟 的 粒度 回溯 最 近 一 个 或 者 两 个 小 时 内 的 数据 ， 或 者 比如 半分 钟 一 次 快 
照 ， 保 留 一 个 小 时 的 ， 再 早 的 通过 磁带 等 其 他 备份 介质 来 恢复 ， 这 样 算 
不 算 CDP? 也 差不多 。 





由 以 特定 频率 生成 回溯 线 的 CDP 系 统 ， 束 是 所 谓 Near 
CDP。 本 质 上 其 实 就 相当 于 高 频 度 的 快照 。 所 以 说 ， 我 们 经 过 
这 场 游历 之 后 ， 最 终 发 现 : CDP 是 快照 的 进化 形态 ， 粒 度 的 大 
小 是 评价 它 是 快照 还 是 Near CDP 或 者 是 Pure CDP 的 唯一 标准 ， 
粒度 并 没有 一 个 界限 ， 正 因 如 此 ，CDP 和 快照 之 间 是 一 个 随 着 
粒度 变化 而 连续 变化 的 形态 。CDP 相 对 于 快照 并 没有 本 质 上 的 
进化 。 所 以 ， 目 前 市 场 上 的 CDP 产 品 本 质 上 都 是 Near CDP。 如 
果 有 人 宣称 他 可 以 回溯 每 个 IO 做 到 真正 的 Pure CDP， 基 本 上 是 
在 忽 修 你 ， 因 为 束 算 底层 实现 了 回溯 每 个 JO， 用 户 也 不 可 能 一 
个 IO 一 个 IO 的 来 回溯 ， 没 有 实现 的 必要 。 











9) CDP 产 品 对 应 用 层 一 致 性 的 解决 办 法 


上 文中 给 出 了 解决 IO 时 序 一 致 性 的 方法 。 然 而 ， 仪 仅 保 证 时 序 一 致 
性 已 经 无 法 满足 用 户 需 求 了 。 保 证 了 时 友 一 臻 性， 与 突然 宕 机 没有 本 质 
区 别 ， 突 然 宕 机 之 后 人 硬盘 上 的 数据 也 是 具有 时 序 一 致 性 的 ， 但 是 对 于 数 
据 库 等 应 用 来 讲 ， 宕 机 10 次 ， 大 概 会 有 2 次 导致 数据 库 无 法 局 动 ， 需 要 
从 备份 中 恢复 。 所 以 ，CDP 系 统 最 好 可 以 提供 应 用 层 一 致 性 解决 办 法 。 





要 解决 应 用 层 一 致 性 问题 ， 必 须 与 应 用 层 来 交互 ， 也 就 是 说 必须 在 
主机 问安 装 一 个 代理 程序 。 有 两 种 办 法 来 解决 : 第 一 种 是 代理 程序 监控 
文件 系统 的 Flush 点 ， 在 每 次 Flush 完 成 之 后 ， 立 即 通知 CDP 系 统 ，CDP 
引擎 便 在 当前 日 志 链 中 对 当前 时 间 点 进行 标记 ; 第 二 种 办 法 则 是 直接 与 














应 用 程序 进行 交互 ， 比 如 代理 程序 向 对 应 的 应 用 程序 发 送 Clear- 
Up/EFlush 请 求 ， 完 成 之 后 便 通 知 CDP 引 擎 在 日 志 链 当前 点 上 做 标记 。 这 
两 种 方式 中 ， 后 者 对 应 用 系统 有 一 定 影响 ， 随 着 标记 点 的 频 度 提高 ， 应 
用 的 Flush 频 度 也 越 高 ;前 者 则 具有 一 定 的 普 适 性 ， 作 用 在 文件 系统 
处 ， 至 少 能 够 保证 文件 系统 这 一 层 的 一 致 性 ， 但 是 仍然 不 能 彻底 保证 应 
用 一 致 性 ， 只 有 后 者 才能 做 到 真正 端 到 端的 一 致 性 。 用 户 进行 回溯 的 时 
候 ， 可 以 选择 回溯 到 这 些 列 出 的 一 致 点 处 。 





保证 应 用 层 一 致 性 就 像 在 观看 视频 时 所 执行 的 回溯 动作 ， 回 渊 点 处 
所 对 应 的 图 像 帧 上 表达 的 意义 ， 可 能 是 杂乱 无 章 的 。 比 如 东 人 的 手 正 处 
于 半空 中 想 要 做 些 什么 ,但 是 观众 单 从 这 一 帧 图 像 来 判断 的 话 可 能 根本 
无 法 预测 这 个 人 要 干什么 ， 此 时 这 一 帧 图 像 对 于 观众 来 讲 就 是 不 一 致 
的 。 如 果 将 视频 回溯 到 这 个 点 ， 让 视频 中 的 事件 从 这 个 点 开始 继续 演 
化 ， 那 么 此 时 系统 就 无 法 判断 出 这 个 人 的 手 为 何 此 时 处 于 半空 中 ， 他 是 
想 抬 起 来 还 是 想 放 下 去 呢 ? 更 不 知道 这 个 人 此 时 具体 想 要 做 什么 。 但 是 
如 果 将 回溯 点 向 未 来 再 推进 一 些 ， 那 么 此 时 对 应 的 这 帧 图 像 可 能 恰好 堡 
留 在 此 人 抬 起 手 握 住 一 局 门 的 把 手 ， 那 么 此 时 这 个 事件 就 具有 标志 性 意 
义 ， 也 就 相当 于 数据 系统 中 此 时 的 数据 状态 是 一 致 的 ， 业 务 系统 应 用 程 
序 可 以 根据 这 个 状态 继续 演变 下 去 ， 比 如 产生 多 种 情节 : 

















(1) 此 人 推 开 门 走 了 进去 ， 看 到 东 东 场景 
2》 此 大 突然 想到 了 什么 5 久 牧 了 一 下 又 把 手 放 了 下 来 走 本 ， 
(3) 僵 住 了 ， 一 直 握 着 把 手 不 放 ; 


(4) 其 他 各 种 发 展 路 径 ， 这 也 束 对 应 了 平行 宇宙 理论 所 设想 的 。 








但 是 有 人 会 有 疑问 : 如 果 回 溯 到 刚才 那个 不 一 致 的 历史 时 间 点 ， 难 





道 此 时 应 用 系统 不 能 够 针对 这 个 人 的 手 目 己 选择 几 种 场景 继续 及 展 么 ? 
比如 : (D 手 继续 向 上 抬 起 ; 己 手 向 下 放下 ; @ 伪 在 那 不 动 了 。 其 实 ， 提 
出 这 个 疑问 的 人 目 映 已 经 回答 了 这 个 问题 ， 也 就 是 说 ， 此 时 世界 针对 这 
个 人 的 手 的 发 展 路 径 只 给 出 了 三 种 选择 : 向上、 癌 下 、 不 动 。 而 第 三 种 
情况 ， 也 瓯 是 静止 不 动 的 场景 下 ， 其 随后 的 发 展 要 么 也 是 同上 或 者 回 

下 ， 如 果 永 远 不 动 了 ， 那 么 就 证 明 系 统 出 现 问题 了 ， 这 个 人 的 路 径 已 经 
无 法 再 继续 发 展 了 。 











所 以 ， 这 个 人 的 手 最 终 还 是 要 同上 或 者 同 下 发 展 到 一 定 的 程度 才 可 
以 体现 出 具体 标志 性 意义 ， 比 如 向 上 抬 起 握 住 把 手 或 者 择 了 返 头 发 ， 抑 
或 加 下 垂 到 了 腿 边 。“ 抬 起 来 、 抒 了 返 头 发 ”， 这 个 动作 包含 两 个 子 动 
作 ， 第 一 个 是 “ 抬 起 手 ”， 第 二 个 是 “ 放 到 头 上 ”， 第 三 个 是 “ 返 头 发 ”。 完 
成 这 一 次 对 于 观众 有 意义 的 动作 ， 需 要 完成 多 个 子 动作 才 可 以 ， 而 这 其 
中 任何 一 个 子 动作 都 是 无 法 单独 让 观众 看 懂 的 ， 必 须 结合 起 来 。 而 对 于 
应 用 系统 ， 也 是 这 样 的 。 每 一 笔 业 务 逻 辑 (或 称 事 务 、 交 易 ， 
Transaction〉 是 由 多 个 原子 操作 (Atomic Operation) 组 成 的 ， 要 完成 一 
个 有 意义 的 业务 逻辑 ， 必 须 完 成 其 包含 的 所 有 原子 操作 。 而 如 果 在 一 连 
串 的 原子 操作 之 间 出 现 问 题 ， 系 统 停机 ， 那 么 这 些 原子 操作 在 系统 重新 
启动 之 后 就 必须 进行 前 滚 或 者 回 滚 从 而 保证 一 致 性 。 




















前 深 就 是 将 原本 应 该 完成 而 未 完成 的 原子 操作 继续 执行 完毕 ， 而 回 
深 则 是 指 将 自从 上 一 次 业务 逻辑 操作 之 后 发 生 的 原子 操作 全 部 回 退 ， 恢 
复 到 上 一 个 业务 逻辑 完成 时 刻 的 状态 ， 从 而 保证 数据 一 致 性 。 系 统 根据 
日 志 中 所 记录 的 所 有 操作 以 及 状态 来 判断 是 需要 前 深 还 是 回 滚 。 也 就 是 
说 ， 电 影 里 的 那 只 手 要 么 就 同上 发 展 到 一 定 标志 性 时 间 点 ， 比 如 抬 起 来 
握 住 把 手 ， 要 么 就 问 下 回调 回 之 前 的 标志 性 时 间 点 ， 也 就 是 未 抬 起 之 前 
的 状态 ， 比 如 垂 在 两 腿 边 。 








那么 ， 对 于 一 个 CDP 系 统 ， 回 溯 时 最 好 可 以 保证 应 用 一 致 性 以 避免 
应 用 挂 起 这 份 CDP 影 像 之 后 所 经 历 的 前 滚 或 者 回 滚 过 程 。 而 保证 应 用 层 
一 致 性 的 方法 ， 只 能 靠 应 用 层 解 决 ， 比 如 应 用 系统 每 提交 一 份 
Transaction 之 后 ， 利 用 茶 种 手段 将 这 个 事件 通知 CDP 系 统 ， 后 者 从 而 可 
以 做 好 相应 的 回调 标记 。 这 也 就 对 应 着 观众 在 看 电影 时 ， 对 关键 时 间 点 
做 标记 ， 当 回调 的 时 候 ， 只 要 回调 到 这 些 标志 性 时 间 点 融 可 以 得 到 一 个 
可 感知 其 意义 的 图 像 。 











5. CDP 的 适用 场合 


作为 真正 的 “数据 时 光 机 ”，CDP 以 其 叹为观止 的 技术 革新 ， 成 功 实 
现 了 人 类 梦 几 以 求 的 时 光 回 漳 技 术 ， 甚 全 可 以 改写 数据 历史 《下 文中 有 
详细 描述 )， 当 然 只 是 在 计算 机 数据 存储 领域 。 然 而 ， 这 项 扩 术 的 价值 
也 征 不 菲 的 ， 企 业 部 署 起 来 也 应 综合 考虑 。 





首先 要 考虑 的 一 定 是 RPO。 没 有 任何 技术 所 提供 的 RPO 可 以 媲 
CDP 了 。 从 纯 底 层 角 度 来 看 ，CDP 的 RPO 绝 对 等 于 0， 即 数据 0 丢失 。 这 
是 理所当然 的 ， 每 一 个 写 IO 都 被 同步 到 了 CDP 服 务 端 ， 有 什么 理由 RPO 
大 于 0 呢 ? 如 果 非 要 说 大 于 0， 也 只 能 是 上 层 不 和 争气， 就 如 上 文中 对 于 数 
据 丢失 的 讨论 一 样 。 











然后 还 需要 考虑 RTO。 值 得 肯定 的 是 ， 目 前 的 这 种 CDP 解 决 方 案 架 
构 ， 其 所 提供 的 RTO 也 是 相当 惊人 的 。 不 管 是 系统 灾难 还 是 个 别 文件 等 
数据 灾难 ，CDP 所 能 提供 的 RTO 都 可 以 达到 几 分 钟 级 别 。CDP 基 于 磁盘 
的 数据 镜像 及 Snapshot 十 CDP 后 处 理 ， 己 经 注定 了 它 所 能 提供 的 RTO。 
恢复 单个 文件 只 需 在 主机 端 将 对 应 时 间 点 的 影像 挂 载 即 可 ， 主 机 无 须 重 
局 。 恢 复 整 机 操作 系统 也 只 需要 将 虚拟 卷 影像 映射 给 相应 主机 并 在 主机 
端 配置 为 SAN Boot 即 可 。 试 问 哪 种 方案 还 能 够 如 此 方便 呢 ? 





CDP 架 构 也 不 是 完美 无 缺 的 ， 首 先 它 需要 比 受 保护 的 数据 源 的 存储 
容量 更 大 的 容量 ， 相 比 多 余 的 部 分 被 用 作 IO 仓 库 以 保存 持续 的 写 IO 数 
据 。 其 次 ， 由 于 写 IO 的 持续 镜像 操作 ， 势 必 会 对 主机 性 能 造成 一 定 的 影 
啊 ， 如 果 CDP 服 务 器 使 用 的 后 端 存储 性 能 远 低 于 数据 源 所 用 的 存储 性 能 
的 话 ， 这 种 影响 将 会 变 得 更 显 普 。 再 次 ，CDP 方 案 绝 不 适合 大 数据 量 改 
动 的 场合 ， 比 如 经 常 有 大 文件 被 高 速 上 传 到 受 保 护 的 卷 ， 用 不 了 多 入 便 
被 删除 ， 然 后 再 上 传 新 文件 。 这 种 情况 下 ，CDP 服 务 端 很 快 便 会 被 塞 
满 ， 而 且 数 据 高 速写 入 数据 源 ， 也 惑 同 样 需要 高 速 被 同步 到 CDP 服 务 
端 ， 如 果 是 基于 主机 的 IO 捕获 ， 则 其 对 资源 的 耗费 将 不 得 不 考虑 进去 。 














CDP 到 庶 适 合 什么 样 的 场景 呢 ? 总 结 如 下 : 


a 对 RTO 和 RPO 要 求 甚 是 苛刻 ; 

a 对 源 卷 的 数据 更 新 IO 尺寸 较 小 但 是 每 一 笔 都 很 重要 ; 

a 组 烈 需要 极 细 粒 度 的 时 光 回 溯 或 者 历史 改写 ， 比 如 需要 创建 N 个 
平行 影像 卷 进行 测试 等 情景 ; 

a 关键 业务 宕 机 频繁 ; 

a 不 差 钱 。 


符合 上 述 几 个 要 求 的 场合 ， 部 署 CDP 将 会 得 到 很 高 的 投资 回报 率 。 
6. CDP 与 VTL 


同样 都 是 使 用 磁盘 作为 Online 存 储 介 质 ， 当 VTL 遇 见 CDP， 就 像 是 
小 鸡 遇 见 凤 凰 一 般 。VTIL 算 个 什么 呀 ”就 一 虚拟 磁带 库 ， 立 着 磁带 库 的 
牌坊 却 用 硬盘 来 当 存 储 介 质 ， 浑 身 都 透 着 假 。 说 它 容量 大 ， 物 理 磁带 库 
就 笑 了 ; 说 它 耗 电 少 ， 物 理 磁 带 库 又 笑 了 ， 和 磁盘 一 直 转 能 不 耗 电 么 ? 说 
它 备 份 和 恢复 速度 快 ， 连 本 地 磁盘 和 NAS 都 笑 啦 ! 能 快 到 哪 去 ? 备份 格 








式 都 和 磁带 一 样 ， 恢 复 之 前 还 得 吵吵 喷 嗪 扫描 一 大 堆 索 引 ， 创 建 一 大 堆 
文件 列表 。 那 它 到 撒 能 干什么 呢 ? 大 家 都 突 啦 ， 异 口 同 声 地 说 : “给 物 
理 带 库 当 个 缓冲 顺 ! ” 


VIL 的 处 境 正如 它 实 际 的 作用 一 样 ， 确 实 很 尴 粮 。 


你 说 都 是 同样 的 柜子 同样 的 磁盘 同样 的 接口 ， 这 同 处 一 个 机 房 的 两 
个 东西 ， 它 差别 咋 束 这 么 大 ? 买 CDP 吧 ， 不 差 钱 儿 ! 


思考 : 可 以 将 所 有 级 别 的 CDP 理 解 为 Database-Like。 即 任何 操 
作 均 记录 于 日 志 中 ， 日 志 可 以 前 滚 或 者 回 滚 ， 每 条 记录 都 有 时 
间 惟 或 者 序号 。 本 地 CDP 设 备 的 容 灾 就 可 以 考虑 为 类 似 Oracle 
Dataguard 或 者 DB2 HADR 的 架构 ， 其 实 本 质 上 就 是 这 样 的 。 但 
是 CDP 的 日 志 上 有 具体 实现 起 来 与 数据 库 的 日 志 还 是 有 很 大 差别 
的 。 因 为 CDP 可 以 瞬间 提供 任意 时 间 点 的 直接 可 访问 影像 ， 如 
果 使 用 数据 库 类 日 志 记 录 方 式 ， 实 现 这 个 功能 是 绝对 不 可 能 
的 ， 因 为 数据 库 日 志 的 恢复 需要 Replay 过 程 ， 而 这 个 过 程 将 会 
耗费 一 定时 间 。CDP 的 日 志 是 针对 每 个 LBA 或 者 LBA 段 
(Block〉 都 保存 一 个 日 志 链 条 ， 而 不 是 全 局 的 事件 日 志 ， 这 
样 可 以 保证 RTO。 此 外 ， 也 不 排除 有 些 CDP 设 计 为 了 简化 操作 
和 效率 而 直接 使 用 数据 库 方式 日 志 ， 人 恢复 时 ，CDP 根 据 给 出 的 
时 间 点 ， 将 时 间 点 之 前 的 所 有 日 志 进 行 Replay， 但 是 又 不 能 将 
日 志 中 的 数据 操作 直接 窗 关 了 源 卷 〈( 源 卷 需要 保留 以 使 得 可 以 
放弃 当前 影像 )， 上 所 以 只 能 将 日 志 Replay 到 另外 的 存储 空间 ， 
而 且 必 须 以 LBA 为 顺序 来 排放 以 便 碍 找 《〈 日 志 中 只 包含 被 写 过 
的 块 ， 对 于 没有 被 写 过 的 块 ， 依 然 存 放 于 源 卷 中 ， 所 以 Replay 
出 去 的 块 只 是 那些 被 号 过 的 块 ， 整 个 LUN 影 像 是 由 源 卷 中 未 被 
写 过 的 块 和 被 Replay 的 块 共同 组 成 的 ， 所 以 针对 每 个 针对 生成 


























影像 的 读 IO， 都 需要 先 查找 Replay 出 去 的 块 ) ， 也 就 是 将 无 序 
的 日 志 处 理 成 有 序 的 LBA 与 数据 的 对 应 表 。 所 以 本 质 上 来 讲 ， 
CDP 最 终 都 要 实现 以 LBA 或 者 Block 为 单位 的 数据 链条 ， 如 果 
使 用 类 数据 库 日 志 的 方式 也 只 是 拆 东 墙 补 西 墙 ， 看 似 写 入 日 志 
的 时 候 简单 ， 但 是 最 后 恢复 的 时 候 却 要 将 节约 的 时 间 再 拿 出 

来 ， 而 且 还 得 贴 上 一 部 分 存储 空间 。 时 间 、 空 间 、 人 性 能 总 是 两 
两 了 矛盾。 所 以 说 万 物 同 源 ， 虽 处 于 不 同 层次 却 拥有 相同 的 本 

硕 

















7. CDP 与 传统 备份 系统 的 比较 


1) 传统 备份 所 面临 的 挑战 


传统 的 备份 方法 已 经 在 企业 中 根深 带 固 地 使 用 了 很 长 一 段 时 期 了 。 
在 主机 问安 装 对 应 应 用 程序 的 备份 代理 ， 然 后 通过 代理 程序 ， 将 需要 备 
份 的 数据 传送 给 磁带 机 或 者 磁带 库 。 备 份 任务 一 般 每 天 都 要 执行 ， 如 果 
遇 到 数据 量 很 大 的 情况 ， 甚 至 在 一 次 备份 窗口 所 能 够 提供 的 时 间 之 入， 
比如 晚 10 点 到 时 6 点， 备份 可 能 都 并 没有 执行 完 ， 备 份 速度 已 经 成 为 伟 
统 备份 系统 的 一 个 主要 瓶 承 了 。 其 次 ， 在 企业 所 制定 的 备份 策略 中 ， 全 
备份 一 般 都 需要 定期 执行 ， 比 如 一 周 执行 一 次 ， 如 果 是 大 型 企业 ， 可 能 
还 需要 保留 数 周 甚至 数 月 、 数 年 之 内 的 每 次 全 备份 磁带 。 在 这 种 情况 
下 ， 多 次 保留 的 全 备份 中 ， 就 会 有 相当 一 部 分 数据 是 重复 的 ， 如 果 打 算 
节省 空间 ， 那 么 束 得 引入 重复 数据 删除 等 数据 缩减 技术 ， 这 义 是 一 笔 额 
外 开销 。 

















另外 ， 用 磁带 来 备份 大 量 小 文件 ， 此 时 将 会 是 梦 魔 。 备 份 数据 时 ， 
备份 软件 都 会 预先 生成 待 备份 文件 的 索引 以 及 其 他 的 元 数据 ， 如 宋 备 份 
的 目标 是 大 量 小 文件 ， 比 如 十 万 个 小 文件 ， 那 么 光 是 索引 阶段 束 要 耗费 





掉 大 量 的 时 间 ， 有 的 时 候 甚至 可 以 持续 数 小 时 。 





在 需要 做 数据 恢复 的 时 候 ， 传 统 的 基于 磁带 的 备份 系统 又 会 表现 出 
多 个 问题 。 比 如 恢复 速度 慢 ， 恢 复 之 后 不 能 立即 可 用 ， 由 于 磁带 介质 或 
者 磁带 驱动 器 机 械 故 障 导 致 的 恢复 失败 ， 恢 复 大 量 小 文件 速度 极 慢 等 ， 
这 些 问题 都 是 实 实在 在 摆 在 眼前 的 ， 时 钊 会 让 备份 管理 员 痛 心 疾 首 。 

















2) VTL， 加 速 传统 备份 


为 了 绥 解 磁带 备份 的 次 端 ，VTL 被 发 明了 出 来 。VTL 是 为 了 解决 备 
份 和 恢复 速度 慢 的 问题 而 生 的 。 它 利用 磁盘 来 虚拟 成 一 盘 一 盘 的 磁带 ， 
利用 软件 来 虚拟 一 个 或 者 多 个 厂商 的 多 种 磁带 驱动 器 和 机 械 臂 ， 从 而 替 
代 了 传统 的 物理 磁带 库 。 由 于 使 用 了 磁盘 而 不 是 磁带 来 作为 存储 介质 ， 
其 表现 出 的 速度 也 有 了 很 大 提升 。 当 然 单 块 磁盘 的 顺序 读 写 速度 有 时 甚 
至 赶不上 一 盘 LTO4 磁 带 ， 但 是 如 果 将 磁盘 组 成 Raid 之 后 ， 所 表现 出 来 
的 速度 就 远 超过 LTO 磁 带 了 。 

















然而 ，VTL 并 没有 脱离 备份 软件 成 为 一 个 独立 的 系统 ， 它 只 是 蔡 代 
了 传统 的 物理 磁带 库 而 已 。 底 层 使 用 人 硬盘 作为 存储 介质 ， 而 上 层 却 并 没 
有 表现 出 人 硬盘 随机 快速 寻 址 的 优势 ， 对 外 还 是 表现 为 一 种 流 式 的 顺序 访 
问 设备 。 其 表层 并 未 进化 ， 这 也 是 VITL 的 关键 限制 ， 除 了 速度 加 快 、 管 
理 简 单 了 之 外 ，VTL 相 对 于 传统 物理 带 库 并 没有 本 质 上 的 进化 ， 也 并 没 
有 颠覆 传统 的 备份 系统 。 


并 且 ，VTL 虽 然 使 用 磁盘 作为 备份 介质 ， 但 是 它 却 并 没有 加 速 大 量 
小 文件 情况 下 的 备份 ， 备 份 软件 的 索引 过 程 依然 需要 执行 。 


3) CDP， 彻 底 颠 覆 了 传统 备份 架构 


CDP 意 为 Continuous Data Protection， 即 连续 数据 保护 。CDP 会 记录 
主机 对 源 数据 所 作 的 每 一 笔 更 改 ， 并 且 将 更 改 的 内 容 记 录 下 来 。 这 样 ， 
就 可 以 恢复 到 任何 一 个 时 间 点 时 候 的 数据 影像 了 。 目 前 市 场 上 的 CDP 产 
品 ， 几 乎 都 是 相同 的 架构 ， 即 在 主机 问安 装 一 个 底层 IO 过 滤 驱 动 ， 将 所 
有 针对 目标 数据 的 写 IO 镜 像 写 到 CDP 服 务 端 设备 上 保存 ，CDP 服 务 端 会 
为 每 个 Block 保 存 一 条 日 志 链 ， 每 次 针对 这 个 块 的 号 IO 内 容 都 被 退 加 到 
链条 末尾 ， 并 记录 对 应 的 元 数据 映射 。 














CDP 保 存 了 源 数 据 的 每 一 次 改动 ， 但 是 它 与 写 镜像 不 同 : 写 镜像 情 
况 下 ， 针 对 一 个 块 的 后 一 次 的 写 会 覆盖 之 前 的 内 容 ; 而 CDP 却 不 会 ， 针 
对 每 次 写 ，CDP 相 当 于 都 做 了 RoW 操 作 。 这 样 ， 就 可 以 恢复 到 任何 一 个 
指定 的 时 间 的 数据 影像 了 。 也 就 是 说 ，CDP 是 一 个 高 级 的 、 可 回调 的 实 
时 镜像 系统 。 


这 种 把 数据 变化 实时 镜像 保存 的 方法 ， 彻 底 题 履 了 传统 的 磁带 备份 
系统 。 由 于 CDP 的 本 质 进化 ， 被 镜像 之 后 的 数据 中 几乎 没有 重复 元 余数 
据 。 而 且 ， 更 为 神奇 的 是 ， 在 灾难 发 生 之 后 ， 主 机 可 以 直接 从 CDP 服 务 
端 来 挂 载 任意 时 刻 的 卷 影像 ， 或 者 直接 挂 载 系统 盘 对 应 的 卷 ， 直 接 从 
SAN 网 络 局 动 主 机 ， 整 个 恢复 过 程 非常 快 ， 远 非 传 统 备份 可 比 。 

















由 于 CDP 作 用 于 块 级 别 ， 所 以 与 文件 层面 无 天 ， 纵 使 文件 再 小 ， 数 
量 再 大 ， 镜 像 和 恢复 的 过 程 中 也 丝 坚 不 会 影 啊 速 度 。 








4) CDP 将 会 是 VTEL 的 替代 品 么 ? 


CDP 完 全 脱离 了 各 种 备份 软件 ， 它 只 需要 在 主机 剖 安 装 一 个 过 小 驱 
动 或 者 客户 端 管理 界面 程序 。 而 VIL 可 以 说 是 一 个 四 不 像 的 东西 ， 并 没 
有 发 挥 出 磁盘 本 来 的 优势 。 从 这 一 点 来 讲 ，CDP 完 胜 VTL。 但 是 由 于 传 





统 备份 的 根深 蒂 固 ， 以 及 CDP 产 品 被 认 知 和 接受 的 程度 还 有 待 推 进 ， 还 
有 成 本 等 因素 的 制约 ， 所 以 ， 短 时 间 内 CDP 并 不 会 完全 替代 VTL， 或 者 
说 并 不 能 彻底 颠覆 传统 备份 架构 。 但 是 长 期 来 看 ， 随 着 企业 对 数据 安全 
以 及 RPO 和 RTO 的 要 求 越 来 越 高 ，CDP 将 会 逐渐 打开 并 且 占 领 备份 市 场 
的 大 部 江山 。 


CDP 产 品 基本 上 有 两 种 形式 : 一 个 是 纯 软 件 ， 力 一 个 是 捆绑 了 CDP 
软件 的 硬件 。 不 管 是 硬件 还 是 软件 ， 它 们 最 终 其 实 都 是 软件 ， 将 软件 安 
闭 在 茶 x86 服 务 器 上 ， 后 端 使 用 各 种 扩展 卡 连接 在 干 了 了 OD， 便 成 了 CDP 
人 硬件。 











5) CDP 相 比 传统 备份 所 具有 的 优点 


根据 目前 的 CDP 模 型 ， 数 据 从 源 到 目的 是 一 个 实时 同步 镜像 过 程 ， 
所 以 这 种 模式 如 果 称 其 为 备份 的 话 ， 那 么 咒 是 一 种 最 彻 确 最 纯粹 的 备 
份 。 它 相 比 传统 的 备份 有 如 下 优点 。 





0 备份 窗口 : 数据 实时 的 同步 复制 ， 源 端的 任何 变化 都 同步 地 体 
现在 备份 端 。 再 加 上 备份 端的 CDP 和 Snapshot 功 能 ， 一 个 一 致 的 
备份 瞬间 就 可 以 生成 。 

接近 0 的 恢复 窗口 ， 可 以 直接 从 备份 问 将 东 时 刻 的 卷 挂 载 ， 直 接 
使 用 。 这 个 过 程 操 作 非 常 简 单 ， 耗 费时 间 也 相当 于 点 几 下 鼠标 。 
具备 实时 容 灾 功 能 : 传统 备份 系统 只 能 将 数据 备份 下 来 之 后 再 传 
输 到 远程 ，CDP 系 统 则 可 以 直接 充当 实时 容 灾 系统 。 

面 对 大 量 小 文件 的 备份 具有 天 生 优 势 ， 传统 备份 系统 在 备份 大 量 
小 文件 的 时 候 性 能 很 差 ， 耗 费时 间 过 多 ; 而 CDP 则 是 在 块 级 别 运 
作 ， 而 且 是 实时 同步 ， 与 文件 的 种 类 、 大 小 等 都 没有 关系 。 
回溯 粒度 能 够 达到 秒 级 甚至 更 低 ， 当 然 为 了 充分 保证 一 致 性 ，j 
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各 恢复 时 都 是 选择 一 个 一 致 点 来 恢复 。 

部 警方 便 : 主机 端 代理 无 须 复杂 配置 ， 无 须 与 各 种 应 用 相 耦 合 。 
可 以 实现 不 停机 部 署 。 

数据 重复 率 低 : 未 变化 的 块 都 是 共享 的 ， 而 传统 备份 中 ， 相 同 的 
块 会 被 保存 多 份 。 

a 大量 小 文件 的 情况 下 ，CDP 有 着 根本 性 的 优势 。 


6) CDP 到 底 适 合 什么 样 的 场景 呢 ? 





CDP 虽 好 ， 但 也 不 是 完全 适合 任何 环境 的 。 比 如 ， 如 果 源 数据 端的 
写 入 流量 非常 大 ， 比 如 200MB 每 秒 ， 那 么 此 时 使 用 CDP 就 显得 不 合 时 宜 
了 ， 会 对 主机 端的 IO 性 能 产生 一 定 影 响 ， 并 且 CDP 服 务 端 也 会 吃不消 。 


忆 体 来 讲 ， 具 有 下 列 特点 的 环境 ， 可 以 考虑 部 署 CDP: 


a 对 RTO 和 和 RPO 要求 其 是 苛刻 ; 

a 对 源 卷 的 数据 更 新 IO 尺 寸 较 小 但 是 每 一 笔 都 很 重要 ; 

a 强烈 需要 极 细 粒 度 的 时 光 回 洲 或 者 历史 改写 ， 比 如 需要 创建 N 个 
平行 影像 卷 进行 测试 等 情景 ; 

a 关键 业务 宕 机 频繁 ; 

预算 充足 ; 

a 源 数据 端 写 入 流量 不 是 很 大 ， 或 者 大 量 小 文件 的 环境 下 。 


当然 ， 与 传统 备份 相 比 ，CDP 系 统 在 成 本 方面 也 将 是 投入 巨大 的 。 
究竟 选择 哪 一 个 ， 还 要 看 预算 和 需求 的 平衡 结果 。 





8. CDP 产 品 简 介 (EMC RecoverPoint) 





目前 CDP 市 场 上 的 主打 产品 有 两 个 ， 一 个 是 存储 行业 巨头 EMC 经 过 


收购 之 后 推出 的 RecoverPoint， 男 一 个 则 是 项 级 存储 软件 提供 了 两 飞 康 
(Falconstor〉 自 研发 的 IPstor CDP。 两 个 的 CDP 解 决 方案 ， 其 架构 如 出 
一 和 ， 在 使 用 方式 上 也 类 似 。 前 文中 所 提供 的 几 个 CDP 架 构 模 型 均 是 从 
这 两 家 的 CDP 产 品 架 构 中 提炼 抽象 而 来 ， 所 以 读者 看 过 前 文 之 后 ， 就 相 
当 于 已 经 了 解 了 实际 产品 的 架构 。 这 里 只 对 EMC 的 RecoverPoint 产 品 做 


一 个 简要 的 介绍 。 





如 图 16-46 所 示 ， 左 右 分 别 为 RecoverPoint CDP 服 务 器 硬件 的 前 视图 
和 后 视图 。 


图 16-46 ”RP 服务 器 


这 个 硬件 其 实 是 一 台 Dell R610 lu 服务 器 ， 配 有 两 个 千 兆 以 太 网 口 
和 4 个 4Gb/s 的 FC 接 口 〈 一 张 4 口 QLogic FC HBA) 。 操 作 系统 为 Linux 
Based。CDP 功 能 实现 于 其 上 的 核心 应 用 程序 软件 。 


如 图 16-47 所 示 的 是 RecoverPoint 的 回 湖 粒度 与 普通 的 日 备份 和 
Snapshot 的 对 比 。 前 文中 曾经 提 到 过 ， 由 于 CDP 在 数据 一 致 性 方面 不 如 
Snapshot 可 控 性 好 ， 可 以 说 根本 不 可 控 ， 这 确实 是 个 问题 。 但 是 
ReconverPoint 则 提供 了 一 种 机 制 ， 即 让 用 户 自 己 记录 对 应 的 时 间 点 都 干 
了 什么 ， 回 调 的 时 候 就 会 有 个 参考 。 甚 至 通过 安装 App Aware Agent 的 
方式 ， 还 可 以 自动 获取 被 监视 的 应 用 程序 目前 所 处 的 状态 ， 比 如 ， 
Database Agent， 一 旦 监控 到 数据 库 此 时 做 了 CheckPoint， 则 会 通知 CDP 
服务 端 将 当前 的 时 间 点 做 一 个 Bookmark， 以 便 在 回溯 恢复 的 时 候 让 用 
户 知 道 这 个 时 间 点 的 影像 对 数据 库 来 说 是 一 致 的 。RecoverPoint 还 可 以 
监视 其 他 多 种 应 用 ， 比 如 Windows 下 的 VSS 模 块 、MS SQL Server VDI 
SS 








图 16-47 CDP 与 Snapshot 








如 图 16-48 所 示 的 窗口 中 就 最 示 了 这 些 显 式 的 重要 时 间 点 以 及 对 应 
的 事件 。 


图 16-48 ”一致 性 标记 





另外 ，RecoverPoint 不 仅 可 以 实现 本 地 CDP 数 据 保护 ， 还 可 以 实现 
跨越 广域网 实现 异地 CDP 数 据 保护 。 其 本 质 原 理 实际 上 是 在 本 地 和 远程 
各 部 署 一 台 CDP 服 务 器 ， 本 地 的 CDP 此 时 除了 将 IO 镜像 到 自身 的 存储 空 
间 然 后 进行 Snapshot 十 CDP 后 处 理 之 外 《或 者 上 自身 没有 存储 空间 ， 只 作 
为 IJO 转 用 器 ) ， 还 作为 一 个 IO 转发 妖 ， 将 收 到 的 IO 数据 通过 广域网 同步 
到 远程 站 点 的 RecoverPoint 服 务 器 ， 由 远程 CDP 服 务 器 来 处 理 镜像 的 数 
据 。 这 样 ， 一 旦 本 地 站 点 整体 灾难 ， 远 程 站 点 依然 可 以 保存 一 份 可 用 的 
数据 。 远 程 Disaster Recovery 功 能 在 飞 康 IPstor CDP 产 品 中 同样 提供 。 其 
整体 架构 如 图 16-49 所 示 。 














图 16-49 整体 架构 
9. CDP 产 品 配置 实例 


上 文中 介绍 了 EMC 的 Recover Point 产 品 。 本 节 中 我 们 改 用 飞 康 
IPstor CDP 来 为 大 家 做 一 个 CDP 具 体 配置 演示 。 


IPstor CDP 同 样 也 文 持 基于 主机 端的 IO 镜像 和 基于 Fabric API 的 FC 
网 络 层 IO 镜像 ， 这 里 我 们 只 给 出 基于 WIndows 操 作 系 统 的 主机 端 IO 镜像 
的 演示 。IPstor CDP 运 行 于 主机 端的 代理 程序 叫做 *DiskSafe”， 这 个 代理 
程序 模块 不 但 操控 IO 镜像 ， 还 负责 创建 Snapshot 和 挂 载 Snapshot。 


(1) 如 图 16-50 所 示 ， 打 开 DiskSafe 主 界面 ， 左 边 的 项 目 很 简单 ， 
分 别 为 Disk、Group、Snapshot、Event。 其 中 Group 中 定义 的 束 是 任意 多 
个 卷 的 组 合 ， 形 成 一 致 性 组 。 首 先 右 击 Disk， 从 弹出 的 快捷 染 单 中 单 击 


Protect 命 令 。 





图 16-50” 主 界面 














(2) 出 现 如 图 16-51 所 示 的 窗口 ， 窗 口中 列 出 所 有 这 台 主 机 上 的 磁 
盘 以 及 分 区 。 可 以 针对 整 盘 或 者 某 分 区 进行 镜像 保护 。 在 此 我 们 选中 
Disk0; 准 备 对 其 进行 整 盘 保护 ， 单 击 Next 按 钮 继续 。 











图 16-51 选择 要 镜像 的 盘 


(3) 如 图 16-52 所 示 ， 代 理 程序 便 会 与 CDP 服 务 器 端 通信 以 便 查 询 
是 否 服务 器 端 存在 已 经 创建 好 的 镜像 存储 空间 。 本 例 中 ， 新 出 现 的 窗口 
为 空 ， 所 以 我 们 需要 在 CDP 服 务 端 新 建 一 个 镜像 存储 空间 ， 单 击 New 
Disk 按 钮 。 








图 16-52 ”在 服务 器 上 创建 镜像 盘 


(4) 如 图 16-53 所 示 ， 出 现 Allocate Disk 对话 框 。 上 半 部 分 的 窗口 
显示 了 目前 所 连接 的 CDP 服 务 器 端的 名 称 和 地 址 ， 下 半 部 分 则 显示 了 镜 
像 卷 的 大 小 。 本 例 中 大 小 与 源 卷 相同 ， 并 且 这 个 镜像 卷 挂 载 到 主机 的 方 
式 是 使 用 iSCSI， 由 于 本 机 没有 安装 FC 卡 ， 所 以 FC 方 式 不 可 用 。 
ThinProvision 默 认 启 用 ， 即 镜像 卷 占用 的 空间 会 随 着 实际 源 卷 的 IO 不 断 
同步 逐渐 增加 ， 而 不 是 一 开始 就 占用 所 设 定 的 空间 ， 空 间 渐 增 分 配 单位 
设 定 为 1024MB。 





图 16-53 ”创建 新 盘 


(5) 如 图 16-54 所 示 ， 单 击 OK 按 钮 之 后 ，CDP 服 务 器 端 便 开始 创 
建 这 个 镜像 卷 。 创 建 完成 之 后 便 会 出 现 如 图 16-55 所 示 的 窗口 ， 此 时 ， 
新 卷 已 经 出 现在 了 窗口 中 。 选 中 它 后 ， 单 击 Next 按 钮 继续 。 











图 16-54 ”创建 过 程 图 16-55 ”选择 新 建 的 盘 





(6) 出 现 如 图 16-56 所 示 的 窗口 。 在 这 个 窗口 中 ， 提 供 了 一 些 可 以 
调节 的 参数 ， 比 如 实时 IO 镜像 模式 (Continuous mode) ， 即 每 个 对 源 卷 
的 写 IO 都 同步 传输 到 CDP 服 务 端 镜 像 卷 之 后 才 允 许 后 续 的 源 卷 写 IO; 周 
期 性 镜像 同步 模式 (Periodic mode) ， 即 本 地 先 将 一 段 时 间 之 内 《比如 
几 秒 钟 ) 的 源 卷 所 有 写 IO 的 数据 复制 暂 存 在 本 地 ， 然 后 一 批 一 批 地 镜像 
到 CDP 服 务 端 ， 相 当 于 异步 镜像 。 前 者 对 本 地 IO 性 能 有 较 大 影响 ， 而 后 
者 则 影响 较 小 ， 但 是 存在 数据 丢失 的 风险 。 我 们 用 默认 的 参数 即 可 。 另 
外 值得 一 提 的 是 ， 代 理 端 不 但 可 以 进行 全 卷 而 区 对 局 区 的 完整 镜像 ， 而 
且 还 可 以 识别 源 卷 中 的 NTFS 文 件 系 统 ， 而 只 对 文件 实际 占用 的 那 部 分 
空间 数据 进行 镜像 操作 ， 这 将 会 大 大 降低 不 必要 的 传输 ， 降 低 初 次 同步 
时 间 。 单 击 Next 按 钮 继续 。 

















图 16-56 ”参数 选择 





(7) 如 图 16-57 所 示 ， 这 个 窗口 中 可 以 设 定 对 镜像 卷 做 Snapshot 的 
目 动 触发 时 刻 表 ， 每 当 一 个 Snapshot 被 触 友 ， 代 理 模块 便 会 通知 OS 层面 
将 FS 缓存 写 入 源 卷 ， 或 者 调用 VSS 服 务 对 相关 的 应 用 进行 Freeze。 之 后 
代理 通知 CDP 服 务 端 对 对 应 镜像 卷 生 成 一 份 Snapshot， 而 这 个 Snapshot 
总 是 一 致 的 。 





图 16-57 ”选择 Snapshot 时 刻 表 








(8) 还 可 以 对 Snapshot 做 一 些 高 级 设 定 ， 如 图 16-58 所 示 。 





图 16-58 时刻 表 高 级 设 定 


(9) 当 完 成 Snapshot Schedule 设 定 之 后 ， 出 现 Summary 窗 口 ， 单 击 
Finish 按 钮 ， 如 图 16-59 所 示 。 


图 16-59 ”完成 





10) 此 时 ， 在 代理 主 窗口 中 的 Disk 项 目 右 边 就 会 显示 出 这 个 受 保 
护 的 Disk0， 其 状态 显示 为 Protection Initializing， 正 在 执行 同步 镜像 初始 
化 操作 。 稍 等 片刻 ， 状 态 就 会 变 为 Synchronizing 状 态 ， 即 首先 将 源 卷 上 
已 经 存在 的 数据 同步 到 镜像 卷 。 当 初次 同步 完成 之 后 ， 便 进入 了 持续 同 
步 期 ， 即 源 卷 不 断 接 收 的 写 IO 被 不断 同 步 到 镜像 卷 。 这 个 过 程 如 图 16- 
60 所 示 。 





(1) 


(2) 


(3) 


图 16-60 ”同步 过 程 





(11) 镜像 卷 在 主机 端 表现 为 一 个 物理 卷 ， 此 时 干 万 不 要 在 操作 系 
统 自 带 的 卷 管理 工具 中 对 这 个 卷 进 行 任何 操作 ， 因 为 此 时 是 由 代理 模块 
在 管理 这 个 卷 ， 如 图 16-61 所 示 。 





图 16-61 镜像 卷 的 状态 








(12) 在 代理 主 界面 中 ， 按 照 图 16-62 所 示 的 方法 来 手动 创建 一 个 
Snapshot。 


图 16-62 ”创建 Snapshot 


(13) 当 需 要 从 Snapshot 中 恢复 文件 的 时 候 ， 则 在 左边 窗口 定位 到 
Snapshot 项 目下 ， 找 到 对 应 的 Disk0， 在 右边 的 窗口 中 会 出 现 系统 针对 
Disk0 所 做 的 所 有 Snapshot。 选 中 需要 恢复 的 时 间 点 Snapshot， 右 击 ， 从 
弹出 的 快捷 菜单 中 选择 Mount Snapshot 命 令 ， 如 图 16-63 所 示 。 





图 16-63” 挂 载 Snapshot 


(14) Mount ”Snapshot 之 后 ， 打 开 磁 盘 省 理 右 ， 此 时 会 发 现 这 份 
Snapshot 对 应 的 虚拟 影像 已 经 被 挂 载 到 了 主机 上 ， 代 理会 自动 为 其 分 配 
一 个 盘 符 〈 本 例 中 为 F 盘 ) ， 如 图 16-64 所 示 。 











图 16-64 ”快照 影像 卷 





此 时 便 可 以 浏览 这 个 影像 磁盘 中 的 内 容 ， 将 需要 恢复 的 文件 复制 出 
来 了 。 


(15) 如 果 需 要 整 卷 恢复 ， 则 更 加 方便 ， 直 接 在 对 应 的 Snapshot 上 
右 击 ， 从 弹出 的 快捷 菜单 中 单 击 Restore 命 令 ， 如 图 16-65 所 示 。 


图 16-65 “Restore 快 照 


(16) 在 出 现 的 窗口 中 ， 单 击 Next 按 钮 ， 如 图 16-66 所 示 。 





图 16-66” 单 击 ^* 下 一 步 ” 


(17) 在 出 现 的 窗口 中 ， 选 择 Disk or Partition 单 选 按钮 ， 单 击 Next 
按钮 ， 如 图 16-67 所 示 。 


图 16-67 ”选择 分 区 恢复 





(18〉 如 图 16-68 所 示 ， 在 出 现 的 窗口 中 ， 我 们 选择 恢复 一 个 
Snapshot， 选 中 对 应 的 Snapshot， 然 后 单 击 Next 按 钮 。 出 现 如 图 16-69 所 
示 的 窗口 。 这 里 我 们 选择 将 Snapshot 直 接 覆 盖 恢 复 到 源 卷 ， 即 Original 
primary disk， 然 后 单 击 Next 按 钮 。 








图 16-68 选择 Snapshot 图 16-69 选择 覆盖 方式 


(19) 在 网 16-70 所 示 的 Summary 窗 口中 单 击 Finish 按 钮 ， 此 时 会 出 
现 恢复 进度 窗口 ， 如 图 16-71 所 示 。 整 盘 Restore 并 且 Restore 到 源 卷 的 过 
程 ， 与 直接 挂 载 Snapshot 影 像 不 同 ， 前 者 是 实体 数据 的 恢复 ， 即 从 位 于 
CDP 服 务 端的 IO 仓 库 中 ， 参 考 对 应 的 Snapshot 与 时 间 枚 信息 ， 将 这 份 
Snapshot 中 的 所 有 数据 才 盖 到 源 卷 。 











图 16-70 ”完成 图 16-71 恢复 过 程 








疑问 : ，” 源 卷 中 有 部 分 数据 可 能 并 不 需要 被 禾 善 ， 为 何不 能 
接 重 定 癌 指 针 直 接 指向 Snapshot 入 口 呢 ?无 能 为 力 ， 因 为， 我 
们 现在 是 对 源 卷 进行 恢复 ， 而 Snapshot 和 CDP 都 是 针对 源 卷 的 
一 份 锁 像 卷 来 生成 的 ， 这 份 镜像 卷 是 在 CDP 服 务 器 上 的 ，CDP 
服务 端 并 不 维护 任何 源 卷 的 地 址 指针 ， 所 以 此 时 只 能 是 将 目标 
恢复 时 间 点 之 前 所 有 被 CowW 的 数据 块 履 盖 到 源 卷 才 可 以 。 图 
16-72 所 示 的 是 恢复 结束 时 的 状态 。 


图 16-72 ”恢复 完成 











10. CDP 优 化 设计 


1) 日 志 链 空间 压缩 


CDP 作 为 一 种 数据 连续 保护 设计 思想 ， 其 功能 无 疑 是 强大 的 ， 但 是 
其 效率 和 空间 占用 也 是 让 人 头疼 的 问题 。 尤 其 是 空间 占用 ， 保 存 每 个 写 
IO， 可 想 而 知 其 所 耗费 的 空间 总 量 有 多 大 。 如 果 能 够 采用 一 种 用 时 间 来 
换 空间 的 方法 来 达到 节能 降 耗 的 话 ， 也 不 失 为 一 种 好 办 法 。 在 这 方面 ， 
我 国 华中 科技 大 学 的 一 项 发 明 专 利 (公开 号 : CN101430657A) 便 非常 
巧妙 地 实现 了 这 个 目的 ， 而 且 其 算法 并 不 复杂 。 下 面 对 这 个 专利 进行 演 
绎 ， 以 便 让 大 家 在 理解 这 个 专利 的 基础 上 对 CDP 本 身 达 到 更 加 深刻 的 理 
解 。 














专利 : 这 项 专利 的 核心 思想 和 出 发 点 是 “ 读 写 IO 具有 局 部 
性 ?。 怎 么 理解 ? 比如 某 个 应 用 程序 ， 拿 记事 本 来 当 作 例子 ， 

记事 本 打开 某 文本 文件 ， 文 件 中 保存 的 是 a~z 这 26 个 字符 ， 忌 
容量 也 没有 超过 一 个 扇 区 的 大 小 。 当 打开 文件 时 ， 文 件 系 统 会 
从 磁盘 上 将 这 个 文件 实体 内 容 对 应 的 整个 扇 区 读 入 组 在， 并 且 
复制 到 记事 本 程序 的 缓存 中 。 之 后 ， 你 用 记事 本 将 其 中 的 头 几 
个 字符 ， 比 如 a、b、c、d 更 改 为 1、2、3、4 这 四 个 字符 ， 并 且 
保存 。 此 时 ， 文 件 系统 会 将 这 整个 扇 区 的 数据 再 写 回覆 盖 到 磁 
盘 上 对 应 的 扇 区 ， 而 此 时 这 个 鹿 区 所 变化 的 内 容 只 有 4 字 节 ， 

其 他 均 未 变 。 这 就 是 “ 读 写 局 部 性 原理 *”"， 即 应 用 程序 在 读 或 者 
写 某 份 数 据 的 时 候 ， 其 实 只 是 想 要 改变 其 中 的 5%~20% 的 数 

据 。 




















如 果 按 照 CDP 的 做 法 ， 将 会 保存 着 整个 写 IO 而 不 能 判断 只 保存 这 个 
局 区 中 的 前 4 字 市 。 这 只 是 用 一 个 恒 区 来 举例 ， 实 际 中 各 种 文件 系统 几 








乎 都 是 以 复 为 单位 进行 读 写 的 ， 一 个 复 比 如 4KB、8KB 甚 至 16KB 或 者 更 
高 ， 如 果 仅 仅 改变 了 几 个 字 节 就 要 将 整个 复 履 盖 到 原 有 而 区 的 话 ， 那 其 
中 的 无 用 功 就 太 多 了 。 当 然 ， 文 件 系统 这 么 做 也 是 必需 的 ， 我 们 不 可 能 
去 改变 文件 系统 ， 况 且 一 般 文件 系统 每 次 覆盖 都 不 会 去 CoW 出 被 覆盖 的 
秘 进 行 保存 ， 所 以 文件 系统 的 这 种 行为 在 对 空间 的 浪费 的 影像 上 还 是 比 
较 轻 的 ， 并 不 具有 累积 性 质 。 但 是 对 于 CDP 来 说 就 不 同 了 ， 每 次 都 保存 
了 大 量 不 必要 的 内 容 ， 具 有 累积 性 ， 实 在 是 浪费 。 好 在 我 们 可 以 在 镜像 
卷 上 来 实现 任何 想法 。 

















得 想 一 种 办 法 ， 让 CDP 保 存 每 个 写 IO 的 时 候 只 保存 变化 的 数据 ， 或 
者 用 某 种 办 法 来 实现 类 似 的 思想 。 但 是 ， 用 传统 扫描 的 方法 去 比 对 每 个 
IO 相对 于 前 一 个 IO 的 变化 量 而 只 保存 变化 的 部 分 ， 这 样 做 是 不 太 好 了 ， 
因为 效率 太 低 ， 会 影像 性 能 。 有 一 种 既 简单 又 成 熟 的 算法 能 够 快速 地 比 
对 两 份 数据 中 的 异同 ， 这 就 是 XOR 算 法 ，1 XOR 1=0，1 XOR 0==1, 0 
XOR ”0 二 0。 即 相同 的 数据 互相 XOR 之 后 的 结果 为 0， 不 同 的 数据 则 为 
1。 如 果 将 两 份 扇 区 中 的 内 容 进行 XOR 运 算 之 后 ， 按 照 “ 读 写 局 部 性 原 
理 ”， 理 想 情况 下 (结尾 会 举 出 一 个 很 不 理想 的 情况 ) ， 结 果 中 会 有 
80% 一 95%% 的 连续 0， 而 剩余 的 部 分 则 会 是 不 规则 的 0 和 1 排列 。 此 时 ， 
再 使 用 压缩 工具 对 这 些 连续 的 0 进行 压缩 ， 效 率 将 会 大 大 提高 。 

















疑问 : “有 人 会 质疑 ， 既 然 两 份 忆 区 中 的 内 容 大 部 分 相同 ， 那 
么 为 何不 直接 使 用 压缩 算法 对 其 进行 压缩 呢 ? 难道 压缩 连续 的 
0 比 压 缩 乱 序 排列 但 是 局 部 相同 的 1 和 0 更 为 高 效 么 ”XOR 是 否 
是 多 余 的 一 步 ? 非 也 。 压 缩 算 法 的 局 限 性 是 很 大 的 ， 举 例 来 讲 
吧 ， 随 便 找 一 份 视频 文件 ， 复 制 一 份 ， 然 后 用 某 压缩 工具 对 这 
两 份 文 件 打包 压缩 ， 压 缩 完 毕 后 你 会 发 现 ， 其 结果 等 于 单独 压 
缩 每 份 文件 的 结果 之 和 。 


而 最 理想 的 情况 应 该 是 压缩 之 后 的 结果 仅 为 一 份 文 件 的 空间 。 既 然 
两 份 文件 内 容 完全 相同 ， 为 何 得 到 的 压缩 率 却 远 大 于 50% 呢 ? 客 其 原因 
就 是 因为 压缩 算法 的 局 限 性 ， 即 一 般 压 缩 算 法 会 设 定 一 个 滑动 窗口 ， 每 
次 只 该 取 待 压缩 目标 文件 的 一 定 长 度 的 数据 ， 在 这 份 数 据 中 进行 重复 数 
据 的 搜索 和 压缩 ， 将 结果 保存 ， 然 后 将 窗口 往 前 移动 ， 再 该 取 接 下 来 的 
定 长 数据 ， 再 压缩 ， 然 后 结果 追加 到 先前 结 采 之 后 ， 最 终 达 到 文件 末 
尾 ， 压 缩 完 成 。 为 了 保持 一 定 的 效率 ， 窗 口 不 可 能 太 大 ， 比 如 先 扫 撕 整 
个 文件 以 找 出 重复 的 数据 ， 甚 至 扫描 所 有 给 出 的 文件 ， 找 出 全 局 重复 的 
部 分 然后 压缩 ， 如 果 按 照 上 两 者 的 思想 ， 则 其 压缩 比 将 会 显著 提高 ， 但 
是 随 之 而 来 的 是 所 耗费 的 时 间 以 及 系统 资源 也 将 会 显著 提高 ， 这 两 个 巴 
盾 平衡 之 后 的 结果 是 ， 人 们 宁愿 牺牲 一 些 空间 以 换取 效率 的 提高 。 本 书 
其 他 章节 中 会 介绍 一 种 在 全 局 数据 空间 内 消除 重复 数据 的 方法 。 






































在 论述 XOR 之 后 为 何 压缩 的 效率 和 压缩 比 会 更 高 的 原因 之 前 ， 我 们 
先 来 论述 一 下 专利 CDP 对 IO 的 处 理 过 程 。 


2) 专利 中 的 CDP 引 擎 处 理 写 IO 的 过 程 


(1) 假设 T1 时 刻 CDP 镜 像 卷 某 地 址 对 应 的 Block 内 容 
为 “abcabcabcabcabcabcabcabc”， 即 8 个 abc 字 串 串 联 。 这 份 数据 用 Bt1l 表 
示 。T1 时 刻 系 统 示 意图 如 图 16-73 所 示 。 


图 16-73 TI 时刻 


(2) T2 时 刻 某 写 IO 欲 将 数据 履 盖 为 “xyzxyzabcabcabcabcabcabc”， 
即 头 两 个 abc 被 更 改 为 xyz。 设 这 份 新 Block 为 Bt2。CDP 截 获 这 个 写 IO， 
然后 用 新 IO 与 CoW 出 来 的 T1 时 刻 的 数据 内 容 Btl 作 XOR 运 算 ，Bt2^ABt1 王 
Pt2 二 “111111000000000000000000”( 示 意 结果 ， 并 非 二 进 制 结 果 ， 下 


同 ) 。 此 时 ，CDP 引 擎 首先 将 T1 时 刻 的 数据 内 容 Btt 写 入 一 个 叫做 * 校 验 
值 链条 ”结构 的 首部 ， 然 后 再 将 XOR 的 结果 Pt2 追 加 到 “ 校 验 值 链条 ”中 
Btl 之 后 ， 并 将 Bt2 写 到 镜像 卷 中 ， 即 履 盖 BtL。 这 样 ， 在 时 光 回 调 过 程 
中 ， 利 用 公式 Pt2^Bt1 二 Bt2， 便 可 有 反 运 算出 Bt2 的 实际 内 容 。T2 时 刻 系 
统 示意 图 如 图 16-74 所 示 。 


图 16-74”T2 时 刻 


(3) T3 时 刻 ， 另 一 个 写 IO 即 Bt3 到 来 ， 内 容 
为 “xyzxyzabcabcabcabcdefdef”， 此 时 CDP 引 擎 将 镜像 卷 中 对 应 地 址 的 数 
据 Bt2 进 行 CoW 出 来 ， 然 后 进行 XOR 运 算 ，Bt3^Bt2 二 Pt3 
二 “000000000000000000111111”， 将 这 个 结果 追加 到 “ 校 验 值 链条 ”中 最 
后 一 个 结果 也 就 是 Pt2 之 后 ， 同 时 将 Bt3 写 入 镜像 卷 。 这 样 ， 在 回 漳 时 利 
用 公式 Pt3^ 〈Pt2^Bt1) 三 Bt3 就 可 以 反 运 算出 Bt3 的 实际 数据 内 容 。T3 时 
刻 系统 示意 图 如 网 16-75 所 示 。 


图 16-75”T3 时 刻 


随后 的 写 IO 依 此 类 推 。T6 时 刻 的 系统 示意 图 如 图 16-76 所 示 。 
图 16-76 ”T6 时 刻 


然而 ， 虽 然 可 以 用 一 份 基准 Block， 即 Bt1， 随 后 的 写 IO 轮 流 永 远 相 
互 XOR 下 去 ， 但 是 这 样 做 容易 导致 XOR 链 条 过 长 ， 在 数据 恢复 反 运 算 
的 时 候 ， 需 要 XOR 的 次 数 也 就 相应 过 多 了 ， 所 以 XOR 链 条 过 长 就 会 影 
啊 回 调 时 候 的 性 能 。 因 此 在 下 一 步 中 ， 流 程 有 了 变化 。 


(4) 假设， 在 T7 时 刻 ，CDP 截 获 了 写 IO 数 据 Bt7， 此 时 ，CDP 引 擎 
依然 是 先 CoW 出 Bt6， 然 后 进行 运算 Bt7ABt6 王 Pt7， 依 然 将 Pt7 追 加 到 Pt6 


后 面 。 然 后 ， 关 键 的 一 步 ，CDP 引 擎 此 时 把 Bt7 追 加 到 Ptz 之 后 ， 同 时 将 
Bt7 写 入 镜像 卷 履 盖 Bt6。 这 一 步 结 束 之 后 ， 系 统 的 示意 图 如 图 16-77 所 
示 。 





图 16-77 T7 时 刻 


从 第 (1) 步 到 第 (3) 步 ， 是 一 个 周期 轮回 ， 第 “4) 步 则 是 新 一 
个 周期 的 开始 。 镜 像 符 上 的 每 个 山区 地 址 都 会 对 应 着 这 样 一 个 数据 链 
条 ， 链 条 中 的 每 一 个 周期 中 的 第 一 个 Block 总 是 为 对 应 时 间 点 的 写 IO 数 
据 实 体内 容 的 复制 ， 后 来 进入 的 写 IO 将 与 前 一 份 写 IO 进行 XOR 操 作 并 
将 结果 再 仍 加 到 链条 中 ， 循 环 执行 。 每 个 周期 的 时 间 可 调 ， 并 且 可 以 根 
据 系 统 的 负载 等 情况 做 到 动态 可 调 ， 比 如 人 负载 很 小 ， 则 可 以 适当 将 周期 
变 长 ， 负 载 很 大 ， 则 周期 适当 缩短 。 





3) 专利 中 的 CDP 引 擎 在 进行 时 光 回 溯 时 的 处 理 流 程 


(1) 假设 ， 用 户 输入 回溯 时 间 点 T3， 并 且 要 求 将 T3 时 刻 的 源 卷 影 
像 以 虚拟 卷 的 方式 挂 载 到 主机 端 。CDP 引 擎 收 到 这 个 事件 之 后 ， 便 开始 
准备 相关 资源 和 相关 进程 ， 并 且 立 即 向 主机 端 客 户 端 映射 出 一 个 虚拟 
卷 ， 其 大 小 与 源 卷 相 同 。 此 映射 过 程 中 不 涉及 对 源 卷 中 任何 地 址 的 映射 
操作 。 








(2) 主机 问 开 始 对 这 个 虚拟 卷发 起 读 IO 操作 ， 假 设 主机 端 需要 恋 
出 Bt3 这 个 Block，CDP 引 擎 接收 到 这 个 IO 请 求 之 后 ， 立 即 比 对 T1 和 T7 时 
刻 哪个 时 间距 离 T3 时 刻 近 ， 本 例 中 T1 时 刻 被 选中 ， 则 引擎 立即 从 对 应 
Bt3 这 个 Block 地 址 所 对 应 的 校 验 值 数据 链 中 根据 时 间 惟 定位 并 读 出 
Bt1、Pt2、Pt3 这 三 个 相 邻 的 Block， 按 照 正 向 恢复 公式 Bt3 二 
Pt3^ 〈Pt2^ABt1) 来 计算 出 Bt3 的 实际 数据 ， 然 后 立即 发 送 给 主机 客户 





端 。 同 理 ， 引 擎 接收 到 针对 其 他 任何 地 址 (比如 Ct3、Dt3 等 ) 的 Block 
的 读 请 求 后 ， 都 会 根据 相同 的 步骤 读 取 对 应 地 址 的 Block 所 对 应 的 数据 
链 中 的 相关 的 Block 和 Parity ”Block 进行 XOR 反 运算 ， 并 且 将 结果 发 送 给 
主机 。 








(3) 假设 ， 用 户 输 入 回调 时 间 点 为 T5， 并 且 要 求 以 虚拟 影像 方式 
直接 挂 载 此 时 刻 的 虚拟 卷 。CDP 接 收 到 这 个 事件 后 ， 做 与 第 中 步 相 同 的 
工作 。 之 后 ， 主 机 端 发 起 针对 Bt 的 读 请 求 ，CDP 引 擎 接收 到 这 个 IO 之 
后 ， 判 断 出 T5 时 刻 距 离 T7 时 刻 比较 近 ， 所 以 CDP 引 擎 根据 时 间 惟 定位 并 
该 出 Bt7、Pt7、Pt6、Pt5 这 4 个 相 邻 的 Block， 按 照 反 辐 恢 复 公 式 Bt5 王 
Pt6^ (Pt7ABt7) 计算 出 Bt 的 实际 数据 并 发 送 给 主机 。 








(4) (本 步 在 专利 中 并 未 做 说 明 ， 由 作者 个 人 推演 ) 接 上 一 步 ， 
假设 主机 端 要 求 对 Bt5 所 对 应 的 LBA 地 址 进行 写 入 操作 。 这 时 候 ， 机 制 
就 稍微 有 点 复杂 了 。 主 机 可 能 同时 在 对 源 卷 和 虚拟 卷 影 像 进行 读 写 操 
作 ， 所 以 此 时 ，CDP 引 擎 接收 到 针对 虚拟 卷 的 写 IO0 之 后 ， 一 定 要 将 其 重 
定 问 到 针对 这 个 IO 地 址 的 一 条 新 数据 链 中 ， 并 做 好 地 址 索引 以 便 随 时 备 
碍 。 如 采 再 次 接收 到 主机 针对 虚拟 影像 卷 这 个 地 址 的 写 IO， 则 可 以 直接 
将 新 IO 上 柳 再 或 者 追加 到 新 数据 链 中 。 














理解 : 为 何 要 说 “ 窗 盖 或 者 刀 加 ” 呢 ? 在 此 ， 有 一 个 更 灵活 的 技 
术 实 现 ， 束 是 可 以 针对 这 份 虚拟 影像 卷 〈 注 意 ， 是 虚拟 影像 ， 
即 经 过 一 次 CDP 回 调 之 后 的 虚拟 卷 ) 创建 二 级 Snapshot 和 
CDP。 如 何 做 到 的 呢 ? 很 简单 ， 上 文 襄 了 ， 将 写 IO 重 定 问 到 一 
个 新 数据 链 中 ， 那 么 我 们 依然 可 以 在 这 条 新 数据 链 中 实现 与 前 
文 相同 的 功能 ， 只 不 过 此 时 的 基准 卷 变 为 原来 镜像 卷 某 时 刻 的 
影像 而 已 。 针 对 新 基准 卷 的 读 IO 都 要 经 过 时 光 回 调 步 又 ， 写 IO 
则 与 一 级 CDP 有 一 点 不 同 ， 即 无 须 CoW， 而 是 用 了 RowW 方 式 。 














(5) 《本 步 在 专利 中 并 未 做 说 明 ， 由 作者 个 人 推 澳 ) 如 果 主 机 端 
选择 以 实体 内 容 Restore 或 者 叫做 Rollback 的 方式 来 将 源 卷 上 的 实体 数据 
恢复 到 之 前 茶 一 时 间 操 的话 ， 则 这 个 过 程 的 夺 层 机 制 与 前 文 虚拟 影像 挂 
载 模式 下 的 实现 方式 没什么 太 大 区 别 ， 除 了 下 面 三 点 之 外 : 











一 古 ，CDP 引 擎 不 会 映射 给 主机 一 个 虚拟 疮 了 ; 

二 是 ， 然 后 将 计算 出 来 的 回溯 结果 直接 窗 盖 到 源 郑 和 镜像 卷 的 对 
应 地 址 ; 

三 是 ， 删 掉 对 应 Block 地 址 校 验 值 数据 链 中 这 个 时 间 点 之 后 的 所 
有 Block， 仅 保留 此 时 间 点 之 前 的 链条 。 











经 过 这 些 步骤 之 后 ， 源 卷 和 镜像 卷 以 及 数据 链条 的 整体 状态 就 被 
Restore 〈 或 者 叫 Rollback) 到 所 给 出 的 时 间 点 了 ， 主 机 此 时 可 以 继续 对 
源 卷 进行 IO0，CDP 引 擎 从 这 个 时 间 点 上 继续 开始 工作 。 此 时 ， 原 来 所 保 
存 的 上 晚 于 这 个 时 间 点 的 所 有 数据 均 被 抹 除 了 。 这 是 Restore 不 如 虚拟 影像 
挂 载 的 一 点 ， 但 是 实体 Restore 之 后 ， 相 对 于 虚拟 影像 卷 来 讲 ， 却 可 以 保 
证 系统 性 能 ， 因 为 不 需要 复杂 的 回调 流程 了 。 














4) 对 校 验 值 数据 链 的 压缩 问题 探讨 





现在 我 们 要 来 探讨 一 下 这 个 专利 的 初衷 ， 即 ， 使 用 XOR 运 算 来 节省 
大 量 校 验 值 数 据 链 所 占用 的 空间 的 做 法 是 否 真 的 有 效果 。 








参考 CDP 引 擎 IO 处 理 过 程 中 的 第 中 步 所 给 出 的 示例 数据 和 第 包 步 所 
给 出 的 XOR 结 果 ， 假 设 ， 压 缩 算法 的 窗口 很 小 ， 仅 为 一 个 Block 的 长 
度 ， 则 每 个 滑动 窗口 仅 对 一 个 Block 进 行 压缩 ， 数 据 Pt2 的 压缩 结果 可 粗 
上 略 地 认为 是 类 似 “ (6) 1 (18) 0” 这 种 表现 形式 ， 即 6 个 1 和 18 个 0 组 成 的 
字 串 《这 里 我 们 忽略 压缩 算法 的 真实 结果 表示 方式 以 及 纯 二 进 制 结 采 ， 





大 片 连续 的 1 的 情况 很 少 出 现 ) 。 同 理 ， 针 对 数据 块 Pt3 的 压缩 结果 
是 “(18) 0 (6) 1”。 


我 们 来 对 比 一 下 ， 如 果 CDP 引 擎 对 每 个 新 IO 块 不 进行 与 前 一 个 IO 块 
的 XOR 运 算 而 直接 将 其 以 实体 内 容 的 形式 追加 到 数据 链条 末尾 ， 这 种 情 
况 下 ， 调 用 压缩 算法 对 每 个 实体 数据 块 进行 压缩 ， 针 对 数据 Bt2 的 压缩 
结果 为 ” (2) xyz (6) abc”。 可 以 判断 ， 如 果 都 转化 为 二 进 制 的 话 ， 这 
个 结果 的 长 度 将 远大 于 “(18) 0 (6) 1”。 





另外 ， 我 们 以 上 只 是 假设 了 压缩 算法 的 窗口 大 小 仅 有 一 个 Block 的 
长 度 ， 如 果 增 加 窗口 大 小 ， 比 如 两 个 Block 的 长 度 ， 那 么 刚才 的 例子 中 
就 可 以 同时 对 Pt2 和 Pt3 进 行 压缩 ， 结 果 为 * (6) 1 (18) 0 (6) 1”， 而 直 
接 压 缩 实体 数据 块 的 结果 为 “(2) xyz (6) abc (2) xyz (4) abc (2) 
def”， 可 以 看 出 此 时 压缩 的 比率 相对 直接 压缩 实体 数据 块 所 提升 的 更 





所 以 ， 结 论 很 明显 ，XOR 运 算 之 后 的 大 片 连续 分 布 的 0， 显 著 地 提 
高 了 压缩 的 效率 和 比率 。 


总 结 : ”这 个 专利 使 用 了 非常 普遍 的 XOR 和 压缩 运算 从 而 达到 
节省 空间 的 目的 (根据 专利 描述 ， 可 以 节省 20~30 倍 的 空间 占 
用 ， 无 疑 是 一 个 很 有 诱惑 力 的 数值 )， 这 使 得 其 实现 起 来 的 成 
本 大 大 降低 ， 而 且 ， 如 果 使 用 硬 XOR 运 算 和 压缩 解压 缩 世 搬 的 
话 ， 便 可 以 显著 提升 恢复 效率 ， 不 失 为 一 种 很 好 的 解决 方案。 
但 是 也 有 一 个 小 小 的 遗憾 ， 即 如 果 新 写 IO 数 据 块 相对 于 前 一 个 
数据 块 之 间 的 相同 部 分 的 内 容 在 两 个 数据 块 中 是 被 错开 排列 
的 ， 哪 怕 错 开 1B 或 者 1b， 比 如 “abcdefg” 和 “0abcdef”"， 这 种 情 
况 下 ，XOR 后 的 结果 将 会 是 0 和 1 的 不 规则 不 连续 排列 ， 压 缩 比 





率 大 大 降低 ，XOR 运 算 铠 怕 只 能 额外 增加 系统 负担 了 。 


5) 日 志 链 时 间 点 合成 





针对 CDP 数 据 占 用 空间 过 大 并 且 管 理 开销 过 大 的 问题 ， 还 有 男 外 一 
种 妥协 的 方法 ， 即 CDP 时 间 点 合成 法 。CDP 引 擎 为 每 个 Block 都 保存 一 
个 按照 时 间 先 后 排序 的 影像 链 ， 每 个 Block 每 及 生 一 次 写 IO， 这 个 IO 惑 
会 被 退 加 到 这 个 Block 链 的 尾部 。 如 果 用 户 沉 得 CDP 的 粒度 太 细 了 ， 没 
有 必要 ， 决 定 释放 一 部 分 空间 ， 只 保留 几 个 关键 时 间 点 的 影像 ， 那 么 此 
时 就 可 以 将 Block 链 条 进行 合成 操作 。 





这 里 所 谓 的 “合成 ?其 实 并 不 是 合成 ， 而 是 删除 所 有 Block 链 条 中 给 
出 的 所 有 需要 保留 的 时 间 点 之 间 的 数据 块 。 比 如 ， 如 果 用 户 只 要 求 保留 
T5 和 T8 这 两 个 时 间 点 时 LUN 的 影像 ， 那 么 就 可 以 将 所 有 Block 日 志 链 中 
的 T6、T7 时 间 点 对 应 的 Block 留 存 删除 掉 ， 这 样 就 节省 了 大 量 空 间 。 


6) 全 局 日 志 链 


如 果 在 CDP 系 统 设 计 中 做 出 一 部 分 妥协 ， 损 失 一 部 分 灵活 性 ， 就 可 
以 大 大 降低 CDP 的 复杂 度 ， 获 得 更 高 的 处 理 效率 。 前 文中 所 设计 的 CDP 
系统 ， 人 允许 实时 地 Mount 某 个 时 间 点 的 虚拟 影像 ， 这 样 虽然 非常 灵活 方 
便 ， 但 是 这 么 做 就 需要 为 每 个 Block 维 护 一 个 日 志 链 ， 计 算 开 销 和 存储 
开销 都 很 大 。 如 果 对 于 某 个 LUN 维 护 一 个 全 局 Block 日 志 链 ， 即 针对 这 
个 LUN 的 所 有 写 IO 都 保存 在 同一 条 日 志 链 中 ， 不 再 区 分 Block， 那 么 维 
护 开 销 将 大 大 降低 ， 但 是 同时 ， 也 不 再 可 能 实时 地 输出 某 个 时 间 点 的 
LUN 影 像 了 。 正 如 前 文中 的 “思考 ” 框 中 描述 的 一 样 ， 如 果 只 维护 一 个 全 
局 日 志 链 ， 那 么 在 用 户 需要 访问 某 个 时 间 点 的 LUN 影 像 的 时 候 ， 系 统 就 
只 能 将 日 志 链 从 对 应 的 时 间 点 开始 同 回 Replay 到 一 个 空 LUN 中 ， 然 后 结 











合 源 卷 中 未 和 被 写 过 的 块 ， 共 同 组 成 一 个 影像 。 这 样 做 效率 也 是 比较 低下 
的 。 





一 种 取代 的 做 法 是 : 只 需要 对 每 个 LUN 整 体 维护 一 个 单一 的 Block 
日 志 链 即 可 ， 用 户 选择 回调 到 哪个 点 ， 就 将 整个 Block 日 志 链 从 头 开 始 
到 这 个 点 之 间 的 日 志 Replay 到 一 个 空 LUN 中 ， 但 是 被 Replay 出 去 的 Block 
在 空 LUN 中 要 被 按照 与 LBA 地 址 一 一 对 应 的 方式 写 入 。 与 此 同时 ， 将 源 
卷 中 未 被 写 过 的 Block 也 按照 LBA 地 址 一 一 读 出 并 且 写 入 空 LUN。 这 两 
个 过 程 都 完成 之 后 ， 这 个 LUN 中 的 内 容 就 是 对 应 时 间 点 的 一 份 真实 影像 
而 不 是 虚拟 影像 了 。 在 第 一 次 Replay 之 后 ， 如 果 用 户 再 次 选择 回调 或 者 
前 滚 到 另 一 个 时 间 上 点， 那么 可 以 从 Block 日 志 链 中 上 一 次 Replay 结 束 的 
地 方 开始 向 用 户 给 出 的 那个 时 间 点 在 日 志 中 所 处 的 位 置 进行 Replay〈 快 
进 或 者 快 退 ) ， 将 块 覆 症 到 影像 LUN 中 ， 二 次 Replay 所 耗费 的 时 间 瓯 仅 
仅 是 Replay 日 志 链 的 时 间 了 。 














另外 ， 全 局 日 志 链 模式 由 于 将 所 有 的 Block 变 更 都 混合 存放 在 同一 

个 链条 中 ， 所 以 每 条 日 志 记 录 都 需要 记录 对 应 的 Block 航 履 兰 之 前 的 内 

容 以 及 窗 盖 之 后 的 内 容 。 为 何 要 这 样 做 呢 ?” 因 为 在 Replay 日 志 时 ， 在 回 
退 操作 的 时 候 ， 必 须知 道 对 应 的 块 个 覆盖 之 前 的 内 容 (虽然 可 以 通过 覃 
找 的 方式 来 僵 找 日 志 链 中 这 个 块 上 一 次 被 修改 之 后 的 内 容 ， 也 就 是 本 次 
修改 之 前 的 内 容 ， 但 是 这 样 做 是 非常 慢 的 ) 。 所 以 ， 全 局 日 志 链 中 会 有 
将 近 一 半 的 相同 内 容 〈 针 对 同一 个 块 的 两 条 日 志 记 录 中 会 有 一 份 内 容 相 
同 ) ， 占 用 额外 空间 比较 大 。 














将 全 局 日 志 链 与 分 块 元 数据 链 相 结 合 使 用 可 以 获得 最 佳 的 效果 ， 正 
如 上 文中 “内心 铁 月 约 影 亲 ?中 所 表述 的 。 








7) 日 志 写 缓冲 处 理 


由 于 CDP 模 块 需要 针对 每 一 个 写 来 做 RoW/CoW 操 作 ，CoW 操 作 会 
使 得 写 操作 的 延迟 大 大 增加 ， 而 RoW 操 作 由 于 要 写 入 随机 分 布 的 块 日 志 
链 ， 属 于 随机 度 非常 大 的 写 入 操作 ， 所 以 延迟 也 会 非常 大 。 在 前 文 所 述 
的 CDP 普 遍 使 用 的 模型 中 ， 如 果 CDP 服 务 端 阵列 处 理 写 的 速度 由 于 
RoW/CoW 的 影响 而 与 主机 写 入 主 阵列 的 速度 相差 太 大 的 话 ， 那 么 势必 
严重 影响 主机 端 性 能 。 基 于 此 ，CDP 服 务 器 可 以 先 将 所 有 进入 的 写 IO 写 
到 一 个 日 志 中 缓存 ， 从 而 达到 快速 啊 应 写 IO 请 求 的 目的 ， 系 统 在 后 台 系 
统 不 繁忙 的 时 候 重 放 这 份 日 志 然 后 进行 CDP 处 理 。 写 日 志 的 过 程 是 完全 
连续 IO， 所 以 此 时 可 以 大 大 降低 IO 延 迟 。 

















16.2.6 ”VSS 公共 快照 服务 


VSS 的 全 称 是 Volume Shadow copy Service， 中 译名 即 “ 卷 影 复制 服 
务 ”。 乍 一 看 挺 抽象 ， 而 且 也 容易 被 其 中 译名 弄 尝 ， 所 以 我 们 擅自 称 它 
为 “公共 快照 服务 ”。 上 文中 曾经 说 过 ， 为 了 保证 Snapshot 的 一 致 性 ， 几 
乎 所 有 存储 三 商都 提供 了 自己 开发 的 针对 各 种 应 用 程序 和 文件 系统 的 代 
理 模块 。 而 应 用 程序 有 无 限 多 种 ， 存 储 广 商 也 有 多 个 ， 但 是 这 些 应 用 以 
及 存储 代理 都 运行 在 同一 个 操作 系统 中 ， 与 其 每 一 个 厂商 为 每 一 种 应 用 
程序 都 开发 目 己 的 代理 ， 不 如 在 操作 系统 中 建立 一 个 公共 的 Framework 
服务 ， 往 上 适 配 各 种 应 用 程序 ， 往 下 则 适 配 备 厂 商 的 代理 ， 做 到 统一 控 
制 调 配 ， 统 一 开发 接口 。 微 软 在 其 Windows Server 操 作 系 统 中 就 提供 了 
这 样 一 种 公共 服务 模块 ， 这 就 是 VSS 模 块 被 开发 的 初 训 。 











VSS 的 架构 如 图 16-78 所 示 ， 左 边 是 具体 的 VSS 架 构 ， 右 边 是 抽象 后 





图 16-78 ”VSS 架构 图 


整个 VSS 逻 辑 架 构 包 含 4 个 部 分 : VSS 核 心服 务 、Writer、 


Provider、 Requestor。 





mn Writer。 这 里 的 意思 就 是 代表 运行 于 操作 系统 中 的 各 种 应 用 程 
序 ， 当 然 这 些 应 用 程序 必须 文 持 VSS 服 务 ， 运 行 时 便 向 VSS 进 行 
注册 以 表明 上 自己 的 身份 。 每 一 个 应 用 程序 就 是 一 个 Writer。 至 于 
为 何 叫 做 Writer， 是 因为 这 些 应 用 程序 都 需要 癌 对 应 的 卷 或 者 人 磁 
盘 中 写 入 数据 ， 所 以 叫做 Writer， 即 数据 写 入 者 。 在 Windows 系 
统 中 典型 的 Writer 比 如 Exchange Server、SQL Server、Oracle、 
DB2、Share Point 等。VSS 核 心服 务 提供 SDK 开 发 接口 ， 任 何 应 
用 程序 都 可 以 借助 它 来 文 持 VSS。 

Provider。 这 里 的 意思 代表 各 个 底层 存储 系统 中 的 快照 文 持 者 / 提 
供 者 ， 说 白 了 束 是 各 个 存储 广 商 的 存储 系统 以 及 其 在 主机 端的 代 
理 程序 ， 存 储 系 统 必须 支持 Snapshot 功 能 ， 不 支持 Snapshot 则 不 
属于 Provider。 

Requestor。 这 里 的 意思 是 代表 各 个 存储 厂商 的 快照 管理 程序 ， 当 
然 也 可 以 是 快照 代理 程序 。 这 个 程序 负责 何 时 触发 快照 ， 管 理 员 
通过 在 这 个 程序 中 设 定 一 些 Schedule 来 控制 Snapshot 的 生成 时 间 











使 用 VSS 来 作为 公共 快照 服务 之 后 ， 生 成 一 个 快照 的 具体 流程 如 
Fs 


(1) Tl 时 刻 ， 某 应 用 程序 ， 比 如 Exchange Server， 正 在 运行 ， 并 
且 持续 不 断 地 辐 底 层 卷 LUN1 写 入 数据 。 


(2) T2 时 刻 ， 系 统管 理 员 需要 针对 LUN1 触 发 一 次 快照 以 保存 当前 
的 数据 影像 ， 管 理 员 打开 对 应 存储 广 商 的 Requestor 程 序 界面 ， 在 其 中 手 





动 触发 Snapshot。 


(3) T3 时 刻 ，Reqduestor 程 序 接收 到 了 管理 员 的 操作 ， 然 后 立即 辐 
VSS 核 心服 务 请 求 将 目前 所 有 已 经 在 VSS 服 务 中 注册 的 Writer， 也 就 是 
应 用 程序 的 列表 返回 给 自己 。 





(4) Requestor 判 断 Exchange Server 是 否 在 列表 中 ， 如 果 在 列表 
中 ， 则 提取 其 注册 信息 ， 并 且 用 Exchange Server 的 注册 信息 以 及 所 要 进 
行 Snapshot 的 卷 列表 回 VSS 发 起 请 求 ， 通 知 VSS 快 照 请 求 已 经 发 起 ， 请 
协助 处 理 后 续 事 宜 。 


(5) T4 时 刻 ，VSS 收 到 Requestor 的 请 求 之 后 ， 根 据 Requestor 传 送 
的 卷 列表 信息 向 所 有 Provider (Snapshot 代 理 程序 ) 发 起 查询 以 得 知 哪 个 
Provider 可 以 提供 针对 LUN1 的 快照 操作 ， 对 应 的 Provider 收 到 查询 请 求 
后 会 进行 应 答 。 





(6) T5 时 刻 ，VSS 此 时 已 经 得 知 了 所 有 必要 的 信息 ， 即 哪个 应 
用 ， 哪 个 卷 ， 哪 个 Provider。VSS 立 即 同 Writer， 即 Exchange Server 发 起 
请 求 ， 让 Exchange Server 和 暂时 生成 一 致 点 ， 没 完成 的 运算 赶快 完成 ， 来 
不 及 完成 的 束 暂 挂 ， 将 缓存 中 的 数据 该 回 退 的 回 退 ， 并 且 和 暂停 对 数据 卷 
的 写 IO 操 作 。Exchange Server 完 成 这 些 步骤 之 后 ， 会 通知 VSS 它 已 经 准 
备 好 了 。 





(7) VSS 接 收 到 了 Writer 的 通知 之 后 ， 立 即 向 对 应 的 Provider 发 起 
执行 快照 的 请 求 。Provider 〈 代 理 程序 ) 收 到 VSS 的 指令 后 立即 与 存储 
设备 通信 ， 通 知 存储 设备 立即 对 相应 的 卷 生 成 一 份 快 照 。 如 果 在 VSS 请 
求 发 起 之 后 10 秒 钟 之 内 没有 收 到 Provider 快 照 成 功 的 通知 ， 则 此 次 操作 
失败 ， 系 统 恢复 原状 。 


(8) 一 旦 快照 在 存储 设备 上 成 功 地 生成 ，Provider〈 代 理 程序 ) 就 
会 接 到 存储 设备 的 通知 ， 然 后 Provider 立 即 通 知 VSS 快 照 已 生成 。VSS 接 
到 通知 后 立即 癌 Writer 发 送 通知 告诉 Writer 可 以 继续 进行 针对 相应 数据 
卷 的 写 IO 操作 。 然 后 ，VSS 通 知 Requestor 本 次 快照 成 功 生成 。 


(9) 系统 恢复 常态 。 


VSS 为 不 同 的 应 用 和 不 同 的 快照 代理 提供 了 一 个 公共 Framework， 
极 大 简化 了 系统 的 复杂 性 。 如 图 16-79 所 示 为 VSS 介 入 前 后 系统 API 复 杂 
度 的 变化 。 





图 16-79 ”复杂 度 的 变化 





16.2.7” 快照、 克隆、CDP 与 平行 宇宙 


克隆 的 出 现 恰恰 为 平行 宇宙 、 蝴 蝶 效 应 和 弦 、 膜 等 理论 提供 了 计算 
机 建 模 运算 研究 的 数据 基础 。 


如 采 把 我 们 现在 对 计算 机 所 做 的 事情 对 应 到 造物 主 对 现实 世界 所 做 
的 事情 ， 那 么 束 可 以 找到 对 应 ， 如 图 16-80 所 示 。 那 么 是 不 是 也 就 意味 
着 现实 世界 的 历史 也 是 可 以 回 滚 的 ， 也 是 可 以 重演 的 ， 只 是 我 们 现在 的 
人 破解 进程 还 没有 到 那 一 步 。 搞 不 好 会 让 现实 世界 崩 尝 挥 而 回 到 原点 ? 








图 16-80 ”克隆 与 平行 宇宙 





思考 : 同一 个 微粒 为 何 会 同一 时 刻 出 现在 不 同位 置 ? 我 们 通 
过 东 些 实验 隐约 推测 到 这 种 结论 ， 那 么 这 个 微粒 是 不 是 被 多 个 
快照 “平行 宇宙 ) 所 共享 ? 是 不 是 在 同一 个 时 间 维 度 下 附带 有 
多 个 空间 维度 呢 ? 弦 理 论 就 是 这 样 一 种 理论 ， 它 似乎 正 试图 去 








寻找 造物 主 到 底 为 条 个 世界 创建 了 多 少 个 并 行 发展 的 元 隆 。 而 
这 些 所 有 克隆 的 源头 ， 也 就 对 应 了 宇宙 大 爆炸 理论 的 那个 所 谓 
的 中 心 点 。 

强 子 对 播 机 是 个 会 是 破解 上 表 代码 的 最 终 手 段 ? 是 否 可 以 探知 
到 上 帝 构造 世界 的 基石 是 1 和 0 还 是 < 有 ”和 * 无 ”， 或 者 就 是 某 种 
可 以 看 到 的 东西 ， 或 者 根本 什么 都 没有 ? 或 者 当 对 撞 的 一 瞬 
间 ， 上 和 帝 构造 的 世界 被 我们 弄 毅 误 了 ? 霍金 为 何 先后 抛 出 “不 
要 与 外 星人 接触 ?以 及 “时 光 回 调 是 可 以 实现 的 ?两 个 理论 ? 这 
些 现在 谁 也 不 知道 。 


16.2.8 ”高 帧 率 IO 级 数据 录像 








如 果 说 快照 是 数据 照相 机 ， 那 么 CDP 就 是 数据 录像 机 。 目 前 多 数 
CDP 产 品 所 实现 的 都 是 本 书 前 文中 所 描述 的 那 种 低 帧 率 录 像 ， 也 瓯 是 每 
阳 几 秒 钟 对 数据 日 志 进 行 采 样 ， 然 后 对 每 个 采样 点 根据 回溯 线 进 行 制 表 
操作 《生成 一 张 对 采样 点 的 时 刻 数 据 地 址 映射 描述 表 ) ， 然 后 删 挥 位 于 
采样 点 之 间 的 数据 以 腾 出 空间 。 





低 帧 率 的 数据 录像 可 以 从 一 定 程度 上 满足 需求 ， 但 是 毕 况 用 户 的 要 
求 是 越 来 越 多 、 越 来 越 脱 胀 的 ，24 帧 的 电影 其 实 足 够 了 ， 但 是 现在 依然 
出 现 了 48 帧 的 高 流畅 度 电 影 。 标 清 电影 也 能 凑合 看 ， 但 是 就 有 人 希望 看 
到 主角 脸 上 的 毛孔 。 对 于 数据 也 是 这 样 ， 比 如 用 户 就 需要 恢复 茶 个 时 间 
扩 的 数据 ， 结 果 恰 好 就 这 个 时 间 点 没有 采样 。 














数据 库 系 统 的 CDP 方 式 


“ 细 粒 度数 据 回 深 和 前 深 ” 这 个 思想 到 底 是 谁 发 明 或 者 提出 来 的 我 们 
己 经 无 从 考证 了 ， 但 是 最 成 熟 的 蜗 帧 京 数 据 录 像 机 ， 还 得 是 数据 库 系 统 





莫 属 。 数 据 库 系统 对 每 一 笔 操 作 都 记录 得 非常 详细 ， 包 括 这 笔 操 作 所 做 
的 更 改 类 型 〈 揪 入、 删除 、 更 新 等 ) 以 及 该 笔 操 作 所 对 应 的 SCN 序 号 
等 。 记 录 了 所 有 变更 操作 ， 就 可 以 任意 回 深 和 前 深 ， 当 然 ， 需 要 将 一 段 
时 间 内 所 有 发 生 的 变化 都 记录 下 来 ， 才 可 以 在 这 段 时 间 内 的 历史 数据 中 
任意 回 深 / 前 深 。 








数据 库 所 不 能 实现 的 





数据 库 虽 然 可 以 任意 回 深 ， 但 是 它 不 能 并 行 生 成 多 个 历史 时 刻 的 、 
可 访问 的 数据 库 影像 。 如 同一 份 十 分 钟 之 前 的 影像 ， 一 份 一 小 时 之 前 的 
影像 ， 想 同时 访问 这 两 个 影像 ， 此 时 数据 库 系 统 是 无 能 为 力 的 。 


存储 系统 对 CDP 的 特殊 要 求 


作为 一 个 存储 系统 ， 必 须 实现 上 述 功能 才 算 专业 。 但 是 如 何在 保证 
细 粒 度 回调 点 的 情况 下 ， 依 然 还 能 提供 上 述 功能 ， 就 是 个 比较 大 的 挑战 
了 。 低 帧 率 模式 下 ， 每 个 采样 点 会 用 一 份 表 来 记录 映射 关系 ， 当 挂 起 这 
个 采样 点 成 为 一 个 虚拟 的 卷 影 像 之 后 ， 针 对 该 影像 的 IO 访问 ， 可 以 通过 
碍 询 该 表 迅 速 得 到 执行 。 











但 是 高 帧 率 模式 下 ， 采 样 点 模型 已 经 不 适用 了 ， 由 于 回溯 粒度 非常 
， 甚 至 达到 了 每 个 IO 级 别 ， 那 么 此 时 不 可 能 为 每 个 IO 点 都 记录 一 张 
。 所 以 此 时 必须 使 用 数据 库 日 志 形 式 的 回 竣 方式 ， 但 又 要 同时 实现 并 
J 影像 访问 ， 这 似乎 不 可 能 。 


型 


—~、 


IO 级 回放 的 唯一 产品 飞 康 CDP 





我 们 在 前 面 虚 拟 化 章节 中 提 到 了 飞 康 ， 在 CDP 领 域 ， 不 知道 飞 康 束 


别 说 你 懂 CDP。 飞 康 是 业界 第 一 家 、 也 是 唯一 一 家 能 够 提供 真正 可 行 的 
IO 级 回放 粒度 CDP 技 术 的 厂商 。 飞 康 进 入 中 国 时 ， 引 来 国内 多 家 厂商 纷 
纷 研究 和 效仿 ， 不 仅仅 是 在 技术 层面 ， 更 多 是 在 产品 、 用 户 体验 层面 ， 
因为 几乎 没有 其 他 广 商 能 将 CDP 从 技术 到 产品 转化 地 如 此 彻底 。 业 界 也 
曾经 质疑 过 飞 康 是 否 真 的 能 够 做 到 IO 粒度 的 回 滚 ， 本 书 前 文中 也 曾 对 IO 
级 别 的 回放 进行 过 分 析 以 及 对 一 致 性 方面 的 担忧 。 但 是 飞 康 很 好 地 处 
理 、 包 装 和 屏蔽 了 这 些 问题 ， 让 IO 级 CDP 变 得 真正 可 用 ， 这 就 是 其 差异 
化 技术 所 在 了 。 

















说 明 : ”由 于 飞 康 并 没有 公开 这 些 技术 的 底层 细节 ， 所 以 外 界 
对 飞 康 的 研究 都 属于 猜测 分 析 ， 那 么 我 也 不 妨 在 这 里 分 析 一 
把 ， 正 如 本 书 前 文中 的 模型 建立 和 分 析 一 样 。 





试想 一 下 ， 在 这 种 1O0 级 别 细 粒度 回 济 的 场景 下 ， 就 完全 没有 必要 为 
每 个 IO 记 录 一 个 单独 的 表 了 ， 也 就 是 说 ,日 志 本 映 ， 己 经 是 个 内 骸 的 表 
了 。 我 们 先 来 做 个 简易 模型 ， 有 100 个 LBA 组 成 一 个 卷 ， 然 后 针对 这 个 
卷 的 10、20..….100 这 10 个 LBA 做 了 多 次 乱 序 、 重 登 的 写 IO 操作 ， 现 在 
要 求生 成 第 二 个 IO 〈LBA70 也 就 是 T1 时 刻 ) 和 第 9 个 IO 〈LBA10 也 就 是 
TI2 时 刻 ) 历史 时 刻 的 两 份 影像 ， 而 且 要 求 可 并 行 访 问 。 如 图 16-81 所 
外。 














图 16-81 IO 级 CDP 日 志 空 间 





我 们 还 是 按照 之 前 的 模型 方法 ， 假 设 这 两 个 历史 时 刻 虚拟 卷 已 经 生 
成 ， 主 机 端 已 经 挂 载 这 两 个 卷 ， 然 后 主机 针对 Tl 时 刻 的 虚拟 卷 的 LBA50 
进行 了 读 操 作 ， 此 时 CDP 系 统 应 该 去 哪里 找 LBA50? 读者 应 该 很 清楚 
了 ， 那 就 是 要 从 源 卷 的 基准 镜像 中 读 出 LBA50 然 后 发 送 给 主机 。 为 什 
么 ? 因为 Tl 这 个 历史 时 刻 点 之 前 ， 对 LBA50 的 更 新 还 没有 发 生 ( 虽 然 在 





当前 日 志 中 T1 时 刻 后 面 确实 有 一 笔 LBA50 的 写 IO 被 记录 ) ， 也 就 是 在 日 
志 中 Tl 时 刻 之 前 未 出 现 过 LBA50。 同 理 ， 主 机 针对 比如 LBA1024 (不 在 
日 志 中 ) 的 访问 ， 同 样 也 要 去 源 卷 基准 镜像 中 寻找 。 但 是 针对 LBA10 的 
访问 ，CDP 引 擎 就 必须 从 日 志 中 读 出 LBA10 返 回 给 主机 ， 因 为 在 Tl 时 刻 
之 前 ， 日 志 中 恰好 有 一 笔 针 对 LBA10 的 写 IO 被 记录 。 再 来 看 针对 T2 时 刻 
的 虚拟 卷 的 访问 ， 其 道理 是 一 样 的 ， 同 样 是 访问 LBA50， 但 是 此 时 CDP 
引擎 就 必须 明确 地 知道 ， LBA50 是 存储 在 日 志 中 的 并 且 是 在 T2 时 刻 之 前 
发 生 ， 所 以 必须 从 日 志 中 来 找到 T2 时 刻 之 前 最 近 的 一 笔 ( 可 能 会 有 多 

笔 ) LBA50 的 记录 从 而 返回 给 主机 。 

















这 个 模型 非常 简单 ， 任 何 一 个 人 通过 看 图 都 能 很 快 判断 出 任何 一 个 
IO 访问 ， 到 底 应 该 从 哪里 找 数据 返回 给 主机 。 仔 细 体 会 一 下 ， 寻 找 其 中 
规律 ， 这 个 算法 模型 其 实说 白 了 就 是 : 针对 任何 历史 时 刻 点 的 虚拟 卷 影 
像 的 任何 LBA 的 访问 ，CDP 引 警 首 先 要 判断 出 该 IO 地 址 对 应 的 数据 是 否 
存在 于 日 志 中 ， 如 果 有 ， 再 去 日 志 中 该 历史 时 刻 点 之 前 的 记录 中 去 搜 
索 ， 如 果 搜 不 到 ， 束 从 基准 镜像 中 读 出 并 返回 ; 如 果 初 始 判 断 该 访问 地 
址 根本 就 不 在 日 志 中 ， 则 直接 从 源 卷 基准 镜像 中 对 应 的 LBA 中 读 出 该 数 
据 即 可 ， 不 需要 搜索 ， 因 为 该 LBA 与 访问 的 LBA 是 一 一 对 应 的 。 














我 们 看 到 ， 上 述 算 法 模型 ， 对 针对 某 地 址 的 访问 ， 做 了 两 级 搜索 ， 
为 何不 用 一 级 搜索 呢 ， 比 如 任何 一 个 访问 ， 先 整体 搜 一 遍 日 志 ， 搜 不 到 
再 去 基准 镜像 中 读 取 ? 如 果 这 样 的 话 ， 性 能 会 非常 差 。 上 图 中 的 日 志 只 
记录 了 十 几 笔 操作 ， 但 是 现实 中 ， 会 有 几 十 万 、 上 百 万 甚至 千 万 笔 操 
作 ， 搜 一 遍 谈何容易 。 那 么 如 何 快 速 地 判断 某 地 址 是 否 在 日 志 中 或 者 不 
在 日 志 中 ? 这 个 就 很 简单 了 ， 利 用 一 个 Bitmap， 源 卷 每 个 块 或 者 LBA， 
对 应 Bitmap 中 的 一 个 bit， 如 果 该 bit 被 置 1， 证 明 该 块 /LBA 目 前 在 日 志 中 
存在 ， 但 是 并 不 能 判断 存在 于 该 历史 时 刻 点 之 前 还 是 之 后 ; 如 果 该 bit 被 























置 0， 则 证 明 该 块 人 BA 在 日 关中 不 存在 ， 也 惑 是 说 从 录像 开始 之 后 ， 这 
个 块 /LBA 根 本 没有 被 更 新 过 ， 此 时 皆 大 欢 豆 ， 直 接 去 基准 镜像 中 访问 
该 块 ， 性 能 最 高 。 





第 一 级 搜索 可 以 利用 位 图 来 缓解 性 能 问题 。 但 是 如 果 必 须 去 日 志 中 
查找 ， 此 时 性 能 一 定 会 有 损失 的 。 但 是 我 们 还 是 可 以 进行 优化 。 首 先 ， 
为 了 加 速 查 找 ， 必 须 为 整个 日 志 生成 一 份 元 数据 表 ， 记 录 每 个 IO 的 序号 
和 这 个 IO 的 起 始 目 标 地 址 和 长 度 ， 比 如 以 LBA 扇 区 为 粒度 ， 使 用 32bit 地 
址 的 话 可 以 描述 2TB 的 源 卷 容量 ， 所 以 ， 实 际 产 品 可 以 选择 一 个 支持 原 
卷 容量 的 上 限 ， 比 如 2TB。 然 后 再 使 用 32bit 来 表示 IO 的 序号 ， 也 就 是 整 
个 日 志 空 间 可 保存 约 42 亿 次 IO， 每 秒 5K IOPS 的 话 可 以 连续 跑 10 天 ， 一 
般 保存 10 天 的 细 粒 度 回 放 日 志 基 本 够 用 了 。IO 的 长 度 使 用 SCSI 协 议 中 的 
上 限 “〈 也 就 是 16bit) 足够 了 。 





这 样 的 话 一 共 需 要 80bit 来 描述 日 志 空 间 中 的 一 笔 /JO， 加 上 其 他 考虑 
《比如 保留 一 些 将 来 用 的 字段 等 ) ， 按 照 96bit 也 就 是 12 字 节 来 算 ， 每 笔 
IO 记录 将 耗费 12 字 节 描 述 ， 每 笔 IO 平 均 大 小 按照 4KB 来 计算 的 话 ， 元 数 
据 比 例 大 概 在 3%o 左 右 ， 完 全 在 可 接受 的 范围 内 ， a a 
1TB， 那 么 会 耗费 3GB 内 存 空间 来 完全 绥 存 元 数据 ， 这 也 是 可 行 和 可 接 
受 的 。 另 外 ， 这 些 元 数据 在 没有 生成 虚拟 时 ， 是 不 需要 常 驻 内 
存 的 ， 仅 当 在 生成 了 虚拟 影像 之 后 ， 为 了 加 速 主机 IO 访问 所 以 才 有 必要 
常 驻 内 存 。 




















元 数据 表 只 按照 IO 序号 排序 是 不 够 的 ， 因 为 IO 序号 不 能 被 用 作用 户 
回 滚 时 候 的 依据 ， 因 为 没有 任何 人 会 对 IO 序号 有 概念 ， 所 以 还 必须 在 日 
志 元 数据 表 中 加 入 时 间 戳 ， 这 里 可 以 变通 一 下 ， 可 以 对 每 笔 IO 都 加 上 一 
个 时 间 惟 ， 也 就 是 用 时 间 惟 来 取代 IO 序号 ， 如 果 不 需 要 IO 级 别 细 粒 度 恢 
复 的 话 ， 时 间 惟 粒度 可 以 粗 一 些 ， 比 如 日 志 中 每 10 个 IO 就 记录 一 个 时 间 





戳 ， 这 些 都 是 可 以 灵活 设计 的 。 





元 数据 表 是 按照 时 间 戳 /序号 来 排序 的 ， 当 用 户 生成 了 茶 个 时 间 截 
的 虚拟 卷 影像 之 后 ， 根 据 前 文 分 机 ， 每 一 笔 针 对 虚拟 影像 的 IO 会 经 历 两 
级 搜索 ， 如 果 落 入 了 日 志 空 间 中 ， 那 么 CDP 引 擎 就 要 将 该 时 间 戳 之 前 的 
所 有 日 志 搜 索 一 吉 以 查找 日 志 中 所 有 与 该 IO 请 求 的 地 址 范围 有 交集 的 那 
些 IO 记 录 ， 然 后 将 数据 拼接 起 来 ， 返 回 给 主机 。 由 于 日 志 中 的 I0 记 录 是 
按照 时 间 / 序 号 排序 的 ， 所 以 为 了 提升 搜索 速度 ， 必 须 忆 外 生成 一 份 按 
照 所 记录 IO 的 LBA 起 始 地 址 排序 的 索引 ， 也 就 是 说 ， 用 户 每 生成 一 个 某 
时 间 戳 处 的 虚拟 卷 影像 ，CDP 引 擎 就 需要 将 该 时 间 惟 之 前 的 日 筷 部 分 的 
元 数据 做 一 个 索引 ， 这 样 束 可 以 加 速 查 找 。 比 如 接收 到 主机 发 来 的 读 IO 
请 求 ， 系 统 在 碍 完 位 图 之 后 发 现 必 须 从 日 志 中 寻找 该 地 址 数据 ， 那 么 系 
统 会 根据 该 IO 请 求 起 始 地 址 到 对 应 该 时 间 点 生成 的 索引 中 快速 定位 到 所 
有 履 盖 了 该 IO 起 始 地 址 的 记录 项 《该 索引 按照 IO 起 始 地 址 排序 ， 所 以 碍 
起 来 很 快 ) ， 然 后 找 出 时 间 最 新 的 那个 记录 项 ， 按 照 该 记录 项 中 给 出 的 
其 所 处 于 日 志 空 间 中 的 位 置 ， 读 出 对 应 数据 ， 返 回 给 主机 。 




















有 了 上 述 的 模型 和 优化 算法 ， 基 于 IO 粒度 回 滚 的 高 帧 率 数据 回放 ， 
就 变 得 可 行 了 。 如 图 16-82 所 示 ， 还 可 以 继续 优化 设计 ， 比 如 将 元 数据 
空间 单独 拿 出 来 ， 放 到 SSD 中 去 加 速 访问 。 用 户 可 以 任意 生成 多 份 、 多 
个 历史 时 刻 的 虚拟 卷 影 像 ， 每 个 影像 所 占用 的 开销 只 是 速 查 索引 而 已 ， 
上 层 用 户 体验 就 会 非常 给 力 。 还 可 以 将 CDP 日 志 先 缓存 在 RAM 中 ， 然 
后 定期 Flush 到 磁盘 上 ， 相 当 于 分 成 在 线 日 志和 归档 日 志 两 大 部 分 ， 另 
外 ， 归 档 日 志 中 较 早 的 数据 如 果 不 再 需要 回放 则 可 以 被 Merge 到 源 卷 基 
准 镜像 中 去 ， 相 当 于 一 个 合成 备份 ， 这 样 就 不 必 维 护 越 来 越 多 的 日 志 空 
间 和 元 数据 了 。 























图 16-82 IO 级 CDP 的 四 个 存储 空间 





另外 ， 在 设计 上 还 可 以 做 更 深层 次 的 优化 。 长 时 间 录 像 不 是 做 不 
到 ， 而 是 代价 太 高 ， 比 如 需要 大 量 的 元 数据 被 记录 ， 这 样 重 放 时 的 性 能 
会 较 差 。 有 没有 办 法 来 降低 元 数据 记录 量 从 而 进一步 提升 重 放 性 能 呢 ? 
康 在 底层 其 实 是 用 了 快照 十 录像 合体 来 解雇 这 个 问题 的 。 有 技术 感觉 
的 读者 一 定 会 猜测 到 ， 其 实 就 是 以 照片 为 基础 ， 然 后 记录 在 每 份 照片 基 
准 之 上 的 数据 变化 ， 这 样 所 保存 的 元 数据 就 非常 小 。 这 个 原理 ， 与 实际 
的 视频 压缩 编码 非常 类 似 ， 实 际 视频 压缩 编码 技术 中 也 是 将 视频 分 成 P 
帧 和 I 帧 ，P 帧 是 基准 ， 第 一 个 I 帧 只 记录 相对 于 P 帧 的 增 量 ， 第 二 个 I 帧 则 
记录 相对 于 前 一 个 1! 帧 的 增 量 ， 利 用 P 十 11 十 2 十 13 十 .…...In 的 方式 ， 对 
整个 视频 进行 微分 ， 那 些 变化 量 不 大 的 场景 〈 比 如 某 个 镜头 ) ， 几 秒 之 
内 视角 和 内 容 基 本 相同 ， 这 样 ， 这 个 镜头 就 可 以 被 编码 成 P 十 nI 的 形 
式 ， 如 果 镜 头 切换 ， 内 容 几乎 全 变 ， 那 么 就 使 用 新 的 P 十 nlI 来 记录 ， 多 
个 P 十 nI 积 分 就 可 以 还 原 出 整个 视频 。 飞 康 CDP 底 层 恰 恰 就 是 这 种 原 
理 。 





























飞 康 会 在 CDP 日 志 中 打 入 很 多 TimeMark， 每 个 TimeMatrk 其 实 就 是 
一 个 P 基 准 帆 ， 也 就 是 一 份 快照 (一 份 照 片 ，。 系 统 维护 快照 所 耗费 的 
元 数据 相 比 于 CDP 是 要 少 得 多 的 ， 因 为 快照 不 会 记录 IO 的 顺序 和 时 间 ， 
只 会 记录 位 置 映 射 关 系 ， 所 以 代价 比 CDP 小 得 多 。 基 于 每 个 快照 ， 系 统 
会 在 快照 的 基准 上 ， 记 录 增 量 日 志 及 其 元 数据 ， 这 样 ， 对 T1 时 刻 的 查找 
就 是 基于 T1 时 刻 之 前 距离 Tl 时刻 最 近 的 Snapshot TimeMark 进 行 的 ， 基 
于 它 ， 与 后 续 记 录 的 CDP 元 数据 共同 组 合 ， 抽 取出 T1 时 刻 的 卷 虚 拟 影像 

(TimeView) 给 主机 使 用 。 如 果 T2 时 刻 与 T1 时 刻 之 间 没 有 Snapshot 

TimeMark 触 有 发， 那么 T2 时 刻 与 T1 时 刻 的 虚拟 影像 提取 就 得 使 用 同一 个 
Snapshot Marker， 如 果 它 们 之 间 有 Snapshot Marker，T2 时 刻 便 会 以 离 它 
最 近 的 Snapshot Marker 为 基准 ， 与 录像 区 新 增 记 录 的 元 数据 共同 抽取 出 
T2 时 刻 的 TimeView。 








上 述 的 技术 逻辑 看 似 复杂 ， 但 是 被 封装 成 产品 之 后 ， 只 需要 几 步 简 
单 配置 即 可 完成 。 但 是 如 果 你 不 了 解 技 术 原 理 和 架构 ， 这 几 步 配置 中 的 
选项 就 会 感觉 非常 迷 荡 。 我 们 下 面 束 来 看 一 下 飞 康 CDP 的 配置 步 台 ， 掌 
握 了 飞 康 的 步骤 ， 也 就 等 于 掌握 和 理解 了 其 他 CDP 广 商 产 品 的 原理 和 配 
置 步骤 了 。 


(1) 如 图 16-83 所 示 ， 要 对 茶 个 源 郑 进行 录像 ， 束 必须 像 按 下 录像 
键 一 样 ， 在 界面 中 勾 选 Enable CDP， 完 成 这 个 向 导 之 后 ， 系 统 后 台 就 会 
自动 开始 录像 了 。 





图 16-83 ”Enable CDP 日 志 记 录 及 选择 存储 空间 


(2) 然后 设置 日 志 空 间 的 管理 参数 ， 包 括 连续 录像 周期 、 是 盏 
动 扩 容 、 自 动 扩 容 阔 值 、 扩 容 比 例 、 日 志 容 量 上 限 。 在 “高 级 ”按钮 中 还 
可 以 设置 日 志 从 被 Merge 到 源 卷 基准 镜像 空间 时 的 IO 力度 ， 过 高 的 力度 
会 影响 性 能 ， 因 为 会 占用 较 多 的 磁盘 性 能 资源 。 如 图 16-84 所 示 。 数 据 
被 从 日 志 空 间 Merge 到 基准 镜像 中 之 后 ， 日 志 中 已 被 Merge 的 数据 并 不 
会 立即 被 删除 ， 两 种 情况 发 生 时 才 会 被 删除 : CDP 日 志 空 间 不 够 用 了 ， 
被 强行 删除 ，CDP 日 志 超 过 了 保留 时 间 。 





























图 16-84 ”设置 日 志 空 间 管理 参数 




















(3) 再 往 下 是 设置 快照 参数 。 飞 康 对 快照 的 处 理 与 CDP 不 同 ， 快 
照 耗 费 资 源 比 CDP 要 少 。 图 16-85 中 所 示 的 TimeMark 相 当 于 快照 的 时 间 
惟 ， 在 这 个 页 面 中 可 以 选择 何 时 、 开 始 每 隔 多 长 时 间 做 一 次 快照 以 及 最 
大 保留 快照 份 数 、 在 快照 生成 时 是 否 要 保障 该 快照 的 一 致 性 。 





图 16-85 ”设置 快照 策略 





飞 康 在 快照 技术 方面 的 实现 是 非常 全 面 的 ， 在 主机 端 提 供 了 文 持 各 
种 主流 应 用 系统 的 快照 Agent 组 件 ， 并 且 可 以 实现 从 CDP 设 备 侧 主动 癌 
主机 上 的 Agent 肥 出 快照 通知 ， 这 一 点 是 其 他 产品 或 者 方案 中 没有 见 过 
的 ， 类 似 方案 基本 都 是 通过 一 个 单独 的 快照 管理 软件 来 制定 和 执行 策 
略 ， 这 显然 带 来 了 不 便 。 毕 竟 我 们 都 希望 在 一 个 页 面 中 搞定 一 切 最 好 。 








(4) 这 一 步 结束 之 后 系统 便 会 在 后 台 持 续 录 像 ， 并 且 在 所 指定 的 
TimeMark 时 间 点 生成 对 应 的 快照 。 此 外 飞 康 很 人 性 化 地 提供 了 手动 创 
建 快 照 、 对 快照 以 及 CDP 日 志 当 前 时 间 点 增加 说 明 性 文字 ， 以 及 设 定 快 
照 优先 级 的 功能 ， 当 快照 数量 达到 上 限 之 后 ， 系 统 会 优先 删除 低 优先 级 
的 快照 ， 如 图 16-86 所 示 。 男 外 ， 飞 康 CDP 还 提供 了 克隆 功能 ， 从 任何 
一 份 快照 生成 一 份 实体 卷 数据 ， 可 以 算 作 一 个 备份 。 





图 16-86 ”对 快照 点 做 标记 





那么 之 前 系统 记录 的 录像 或 者 照片 该 怎么 回放 呢 ? 回放 功能 在 飞 康 
产品 中 的 名 称 对 应 为 TimeView， 也 就 是 可 以 任意 查看 该 数据 卷 在 任意 
历史 时 间 点 的 历史 数据 。 可 以 从 快照 中 生成 卷 虚 拟 影像 ， 也 可 以 从 CDP 
日 志 中 的 任何 时 间 点 生成 虚拟 影像 ， 当 然 时 间 总 要 有 个 最 小 粒度 可 供用 
户 来 选择 ， 飞 康 提供 了 微 秒 级 别 的 回放 粒度 。 本 书 前 文中 也 说 过 ， 专 业 
性 不 强 的 用 户 是 无 法 理解 “IO 序号 ?的 ， 所 以 给 出 时 间 粒 度 才 是 最 有 意义 
的 。 

















如 图 16-87 所 示 ， 可 以 使 用 滑动 条 来 任意 寻找 时 间 点 ， 可 以 手动 输 
入 精确 到 坚 秒 级 的 历史 时 间 点 ， 也 可 以 直接 选择 之 前 所 标注 的 助 记 标记 
扩 ， 还 可 以 单 击 放大 按钮 来 精确 但 看 每 个 时 间 点 的 详细 信息 。CDP 回 放 
的 最 佳 用 户 体 验 全 部 集中 在 这 个 页 面 入 口中 了 。 图 像 的 纵 坐 标 表 示 该 时 














刻 虚 拟 影像 所 占用 的 额外 空间 的 容量 ， 高 度 较 高 则 表示 该 时 刻 的 写 IO 压 
力 比 较 大 。 单 击 放大 按钮 之 后 ， 会 出 现 如 图 16-88 所 示 的 窗口 。 























图 16-87 ”从 CDP 日 志 创 建 虚 拟 卷 影像 图 16-88 ”可 视 化 的 细 粒 度 回放 点 


这 个 窗口 会 显示 以 5 分 钟 为 单位 的 回放 点 ， 左 下 角 切 换 按钮 可 以 切 
换 到 上 一 个 或 下 一 个 5 分 钟 。 可 以 看 到 ， 纵 坐标 可 以 精确 到 每 个 时 间 操 
系统 接收 了 多 少 个 写 IO。 可 以 单 击 这 个 页 面 ， 会 有 竖 直 方向 的 参考 线 ， 
页 面 下方 会 给 出 当前 参考 线 所 处 的 时 间 点 以 及 该 时 刻 的 写 IO 压 力 ， 也 就 
是 该 时 间 点 占用 了 多 少 额外 的 空间 。 用 户 可 以 选择 任意 时 间 点 进行 回 
放 。 





提示 : ”这 里 要 理解 一 点 ，IO 压 力 为 0 的 那些 时 间 点 并 不 意味 着 
不 能 被 选择 用 来 生成 虚拟 卷 影像 ， 相 反 ， 这 些 点 是 用 来 生成 一 
致 性 虚拟 影像 的 最 合适 时 机 。 

说 实话 ， 飞 康 这 种 对 用 户 体验 的 。 名 1689 蕉 下 IO 级 别 的 回放 
雕琢 真 的 是 达到 了 很 高 的 水 准 ， 

我 之 前 曾经 在 某 厂 商 设计 了 一 套 所 谓 “ 可 视 化 智能 存储 ”的 存储 
软件 解决 方案 ， 飞 康 的 这 种 设计 可 谓 是 英雄 所 见 略 同 ， 有 很 强 
的 共鸣 产生 。 另 外 ， 如 图 16-88 所 示 ， 当 单 击 Search 按 钮 之 后 ， 
不 但 可 以 搜索 该 范围 内 的 那些 通过 与 快照 Agent 配 合 产生 的 一 
致 性 时 间 点 ， 还 可 以 选择 过 滤 搜 索 那 些 低 于 所 给 出 值 写 IO 数 量 
的 时 间 点 ， 因 为 这 些小 压力 时 间 点 往往 具有 更 好 的 一 致 性 ， 可 
恢复 的 几率 更 高 ， 如 图 16-89 所 示 。 


























此 外 ， 除 了 使 用 TimeView 来 回放 历史 时 刻 之 外 ， 还 可 以 直接 像 数 
据 库 系统 一 样 ， 回 深 和 前 深 源 数据 卷 ， 可 以 任意 回 深 或 者 前 深 ， 回 深 之 


后 如 果 不 满意 还 可 以 前 深 ， 直 到 满意 为 止 。 


虽然 次 CDP 相 当 于 数据 录像 机 ， 但 是 真 的 把 它 做 成 和 电影 播放 器 一 
样 的 用 户 体验 ， 飞 康 是 第 一 个 也 是 唯一 一 个 。 





说 明 : 飞 康 技术 团队 对 技术 的 追求 、 表 达 和 展现 已 经 不 能 够 
用 专业 来 描述 了 ， 应 该 用 “ 偶 执 ?来 描述 ， 偶 执 的 产品 往往 是 最 
让 人 灶 敬 的 产品 ， 也 是 质量 最 高 的 产品 ， 仿 执意 味 者 执着 的 退 
求 ， 一 个 团队 能 够 允许 偏执 的 存在 ， 这 个 团队 才 会 有 项 强 的 生 
命 力 。 

















以 上 详细 介绍 了 飞 康 的 CDP 技 术 。 下 面 简单 介绍 一 下 飞 康 的 CDP 产 
品 。 软 件 定义 存储 的 核心 就 是 强大 的 软件 层 ， 人 至 于 硬件， 目前 已 经 完 
倒 问 开放 式 x86 Server 模 式 了 ， 那 些 定制 化 、 差 异化 的 控制 器 ， 似 乎 已 
经 没什么 吸引 力 了 。 如 有 果 将 飞 康 的 软件 平台 IPStor Gen2 Platform 安装 在 
一 台 高 性 能 服务 器 上 上， 再 加 上 磁盘 扩展 柜 ， 那 就 是 一 套 完 整 的 存储 系 
统 ， 飞 康 CDP 管 理 占 束 是 这 样 一 套 偏 曾 于 数据 保护 CDP 以 及 备份 的 存储 
系统 。 























如 图 16-90 所 示 为 飞 康 网 关 型 图 16-90” 飞 康 CDP 网 关 型 管理 器 
CDP 管 理 圳 及 一 体 化 CDP 管 理 器 。 网 
天 型 产品 只 提供 一 个 控制 器 ， 其 后 端 可 以 挂 接 来 自 其 他 存储 系统 的 逻辑 
卷 ; 一 体 化 产品 则 可 以 提供 磁盘 扩展 单元 来 作为 本 地 存储 空间 ， 男 外 也 
可 以 挂 接 其 他 系统 的 逻辑 卷 。 飞 康 CDP 管 理 嚣 是 一 球 软 硬件 打包 的 产 
品 ， 用 户 可 以 直接 购买 软件 License 然 后 自行 安 朔 在 上 自己 的 服务 左上， 但 
是 对 于 一 些 非 专 业 用 户 ， 则 更 加 倾向 于 购买 整套 软 硬 件 系 统 ， 一 来 免 去 
安装 烦恼 ， 二 来 还 可 以 保证 更 好 的 兼容 性 。 











如 图 16-91 和 16-92 所 示 为 飞 康 IPStor Gen2 Platform 以 及 CDP 产 品 的 
特色 技术 和 高 级 功能 。 这 些 技术 和 功能 我 们 已 经 在 本 书 前 面 的 虚拟 化 章 
节 中 进行 了 详细 介绍 ， 在 此 不 再 歼 述 。 


图 16-91 ” 飞 康 CDP 网 关 型 管理 器 的 特色 技术 一 览 











图 16-92” 飞 康 CDP 网 关 型 管理 器 的 高 级 功能 一 览 


16.3 ”数据 备份 系统 的 基本 要 件 


备份 对 象 : 是 指 需要 对 其 进行 备份 的 备份 源 ， 比 如 一 台 服 务 器 上 
某 块 磁盘 上 的 所 有 数据 ， 或 者 某 数据 库 下 所 有 数据 文件 ， 这 些 都 
算 备 份 对 象 。 

备份 目标 : 是 指 将 备份 对 象 的 数据 备份 到 何 处 。 备 份 目标 可 以 是 
备份 对 象 本 身 的 磁盘 、 和 磁带 等 介质 ， 也 可 以 是 任何 其 他 地 点 的 磁 
盘 、 磁 带 机 、 磁 带 库 等 介质 。 如 果 备 份 目标 位 于 备份 对 象 本 身 ， 
比如 ， 从 一 台 Windows 服 务 器 的 D 盘 复制 某 些 文件 到 自身 的 E 盘 ， 
则 不 需要 占用 任何 网 络 资源 ， 因 为 数据 从 备份 对 象 自 身 生 成 ， 到 
自身 结束 。 如 果 备 份 目标 位 于 其 他 地 点 ， 比 如 同一 个 机 房 内 的 其 
他 服务 器 ， 或 者 外 部 独立 磁盘 阵列 ， 则 数据 从 备份 对 象 生 成 ， 传 
输 到 备份 目标 的 过 程 中 ， 就 需要 占用 网 络 资源 ， 因 为 连接 备份 对 
象 和 备份 目标 的 只 有 网 络 。 稍 后 将 会 详细 介绍 用 哪 种 网 络 。 
备份 通路 : 也 就 是 我 们 上 文 提 到 的 ， 如 果 备 份 对 象 和 备份 目标 都 
位 于 同一 个 角色 上 ， 那 么 备份 通路 就 是 这 个 角色 自身 的 计算 机 总 
线 ， 也 就 是 连接 这 个 角色 的 CPU、 内 存 和 磁盘 的 总 线 ， 因 为 数据 
只 在 这 个 总 线 上 流动 。 如 末 备 份 对 象 和 备份 目标 处 于 远离 状态 ， 
则 二 者 必须 通过 某 种 网 络 连接 起 来 ， 而 这 个 网 络 就 是 这 个 备份 环 
境 的 备份 通路 。 关 于 备份 通路 会 在 后 面 的 例子 中 详细 描述 。 
备份 执行 引擎 : 有 了 备份 源 、 备 份 目标 和 连接 二 者 的 备份 通路 之 
后 ， 需 要 一 个 引擎 来 推动 数据 从 备份 源流 到 备份 目标 。 这 个 引擎 
一 般 由 备份 软件 来 担任 。 

备份 策略 : 是 指 备份 引擎 的 工作 规则 。 引 擎 不 能 无 时 无 刻 地 运 
转 ， 它 需要 根据 设 定好 的 规则 来 运转 。 

















下 面 将 着 重 介 绍 一 下 备份 目标 、 备 份 通路 和 备份 引擎 这 三 个 要 件 。 
16.3.1 备份 目标 
1. 用 本 地 磁盘 作为 备份 目标 


用 本 地 磁盘 作为 备份 目标 ， 惑 是 把 本 地 磁盘 上 待 备份 的 数据 ， 备 份 
到 本 地 磁盘 其 他 的 分 区 或 者 目录 。 用 这 种 方式 可 以 不 影响 任何 其 他 服务 
器 以 及 共用 网 络 。 数 据 流 动 的 范围 完全 局 限 在 备份 对 象 上 自身。 


但 是 这 样 做 的 缺点 束 是 对 备份 对 象 自身 的 性 能 影响 太 大 ， 数 据 从 磁 
盘 读 出 ， 需 要 耗费 磁盘 资源 。 读 出 后 写 入 内 存 ， 需 要 耗 绩 内 存 资 源 ， 然 
后 再 从 内 存 写 入 磁盘 的 其 他 分 区 ， 同 样 需要 耗 冀 磁盘 资源 。 备 份 执行 期 
间 ， 还 会 对 其 他 IO 密 集 型 的 程序 造成 极 大 影响 。 通 党 这 种 方式 只 用 于 不 
太 关 键 的 应 用 和 非 IO 密 集 型 应 用 ， 以 及 对 实时 性 要 求 不 高 的 应 用 。E- 
mail 服 务 絮 的 备份 就 是 典型 的 例子 ， 因 为 E-mail 转发 实时 性 要 求 不 高 ， 
转发 速度 慢 一 些 ， 对 用 户 造 成 的 影响 也 不 会 很 大 。 











2. 用 SAN 人 磁盘 作为 备份 目标 


用 SAN 上 的 磁盘 做 备份 ， 就 是 把 备份 对 象 上 需要 备份 的 数据 ， 从 本 
地 磁盘 读 入 内 存 ， 然 后 从 内 存 中 写 入 连接 到 SAN 的 适配器 ， 即 HBA 卡 绥 
冲 区 ，HBA 卡 再 通过 线 缆 ， 将 数据 通过 SAN 网 络 传送 到 磁盘 阵列 上 。 





这 种 方式 的 优点 就 是 从 本 地 磁盘 该 出 数据 ， 写 入 的 时 候 只 耗费 SAN 
共用 网 络 带 宽 资源 ， 而 且 能 获得 SAN 的 高 速度 ， 对 备份 对 象 性 能 影响 相 
对 较 小 ， 缺 点 是 对 公共 网 络 资源 和 盘 阵 出 口 带宽 有 一 定 影响 ， 因 为 耗费 
本 一定 的 带宽 用 来 传输 数据 ， 同 时 数据 在 流 问 盘 阵 接口 的 时 候 ， 也 要 占 





用 接口 带宽 。 


如 果 备 份 对 象 数据 本 号 就 存放 在 SAN 上 的 人 磁盘， 而 备份 目标 同样 是 
SAN 人 磁盘 ， 那 么 数据 流动 的 通路 比较 长 。 在 后 面 介绍 备份 通路 的 时 候 再 
做 详细 阐释 。 


3. 用 NAS 目 录 作 为 备份 目标 


用 NAS 目 录 作 为 备份 目标 ， 就 是 将 本 地 磁盘 上 的 数据 备份 到 一 个 远 
程 计 算 机 的 共享 目录 中 。 比 如 Windows 环 境 下 常用 的 文件 夹 共享 ， 就 是 
这 样 一 个 典型 的 例子 。 一 人 台 计 算 机 共享 一 个 目录 ， 另 一 台 计 算 机 辐 这 个 
目录 中 写 入 数据 。 而 数据 一 般 是 通过 以 太 网 络 来 进行 传递 的 。 这 种 方式 
占用 了 前 端 网 络 的 市 宽 ， 但 是 相对 廉价 ， 因 为 不 需要 部 车 SAN。 





4. 用 SAN 上 的 磁带 库 作为 备份 目标 


用 FC 接口 作为 外 部 传输 接口 的 设备 ， 不 仅仅 有 主机 上 的 HBA 适 配 
侣 、 侯 副 阵列 ， 人 磁带 机 和 磁带 库 ， 也 可 以 用 FC 接口 作为 外 部 传输 接 
口 。 用 线 线 连 接 磁 市 库 和 SAN 交 换 机 之 后 ， 处 于 SAN 上 的 所 有 主机 系统 
便 会 识别 出 这 全 磁带 库 设备 ， 目 然 也 就 可 以 用 磁带 来 当 作 备份 目标 了 。 


磁带 库 ， 由 机 械 手 、 驱 动 嚣 、 破 珊 覃 组 成 。 图 16-93 和 图 16-94 分 别 
为 某 型 号 磁带 库 的 外 视图 和 某 型 号 磁带 库 的 内 视图 。 


图 16-93 ” 茶 型 号 磁带 库 的 外 视图 图 16-94 ” 茶 型 号 磁带 库 的 内 视图 








磁带 驱动 器 是 磁带 库 的 核心 组 件 。 可 以 将 驱动 器 想象 成 一 个 电机 ， 
带动 磁带 旋转 ， 然 后 磁头 贴 住 磁带 、 读 写 数据 ， 把 电机 、 磁 头 以 及 控制 


电路 集合 到 一 起 ， 形 成 一 个 独立 的 模块 ， 就 是 驱动 器 。 


机 械 手 ， 在 机 械 生产 线 上 机 械 手 就 是 一 个 计算 机 夹子 而 已 ， 把 物品 
从 一 个 地 方 移动 到 男 一 个 地 方 ， 当 然 这 还 需要 程序 来 控制 。 而 且 像 图 
16-94 中 所 示 的 一 样 ， 机 械 手 不 一 定 就 是 那 种 铁 臂 抓 手 ， 而 只 要 它 能 寻 
找 磁 带 槽 上 的 磁带 并 将 其 推 入 磁 市 驱动 右 ， 就 可 以 称 其 为 机 械 手 。 


磁带 库 的 工作 流程 如 下 。 

(1) 由 机 械 手 辟 从 磁带 权 中 来 取 一 盘 磁 珊 ， 推 入 磁带 驱动 副 ， 驱 
动 右 完成 倒 带 、 读 写 等 动作 。 

(2) 读 出 完成 后 ， 退 带 ， 机 械 手 芒 夹 取 磁带 ， 放 回 磁带 横 ， 然 后 
夹 取 为 一 盘 人 磁带 放 入 驱动 融 ， 重 复 刚 才 的 动作 。 





整个 流程 都 需要 由 程序 来 控制 机 械 手 恬 和 驱动 器 ， 那 么 程序 运行 在 
哪里 呢 ? 当然 是 连接 磁带 库 的 主机 上 ， 程 序 生成 符合 协议 的 电信 和 号， 经 
过 HBA 卡 传送 到 磁带 库 电 路 板 上 ， 经 过 芯片 处 理 ， 转 换 成 操控 机 械 手 辟 
和 驱动 露 的 另 一 串 电 信号 。 所 以 连接 磁 融 库 的 主机 上 ， 除 了 需要 安 半 
HBA 运 配 需 的 驳 动 程序 之 外 ， 还 需要 安装 磁带 库 机 械 手 和 驱动 露 的 驱动 
程序 ， 这 样 才 能 够 按照 驱动 程序 定义 的 规则 ， 来 生成 符合 规定 的 、 磁 带 
库 可 以 识别 的 电信 和 号 。 








磁 市 机 比 磁带 库 功能 少 ， 但 是 基本 原理 都 是 一 样 的 ， 只 不 过 机 械 手 
臂 没 了 ， 取 磁带 和 放 磁 带 需 要 用 人 手 而 已 。 而 且 一 人 台 和 磁带 机 同一 时 刻 只 
能 操作 一 盘 人 磁带 。 而 在 磁带 库 中 可 能 有 多 个 驱动 器 ， 或 者 多 个 机 械 手 ， 
当然 机 械 手 不 需要 那么 多 ， 因 为 一 个 机 械 手 就 能 完成 ， 除 非 驱 动 喜多 得 
让 一 个 机 械 手 都 忙 不 过 来 ， 这 是 不 太 可 能 发 生 的 。 多 个 驱动 器 可 以 同时 
读 写 多 盘 磁 带 〈 每 个 驱动 器 一 抢 ) ， 使 得 效率 大 大 提升 。 











提示 : “近年 来 ， 出 现 了 一 种 虚拟 磁带 库 产 品 ， 即 用 磁盘 来 模 
拟 磁 融 。 当 然 ， 磁 盘 就 是 磁盘 ， 不 可 能 变 为 磁带 ， 那 磁盘 是 怎 
么 被 虚拟 成 磁带 的 呢 ? 当然 是 通过 存储 控制 右 来 虚拟 化 。 








话说 回来 ， 是 磁带 还 是 磁盘 ， 这 都 取决 于 数据 服务 器 看 到 的 影像 ， 
而 它 看 到 的 也 不 一 定 就 是 实际 上 存在 的 。 虚 拟 磁 带 库 也 正 是 利用 了 这 个 
原理 。 使 用 磁带 库 的 是 主机 服务 器 ， 如 有 果 让 主机 服务 器 看 到 的 影像 就 是 
一 个 磁带 库 ， 而 实际 上 却 是 一 全 磁盘 阵列 ， 那 么 主机 照样 会 像 使 用 磁带 
库 一 样 使 用 这 人 台 虚 拟 的 磁带 库 。 要 做 到 这 一 点 ， 就 必须 在 磁盘 阵列 的 控 
制 医 上 做 虚拟 化 操作 ， 也 就 是 要 实现 协议 转换 器 类 似 的 作用 ， 一 边 以 磁 
市 库 的 馆 辑 工作 ， 妃 一 边 以 磁盘 阵列 的 逻辑 工作 。 








虚拟 磁带 库 的 好 处 如 下 。 


a 速度 大 大 提升 。 因 为 向 磁盘 写 入 数据 要 比 磁带 快 。 

a 避 多 了 了 机械手 这 种 复杂 的 机 械 装 置 ， 取 而 代 之 的 是 控制 器 上 的 电 
路 板 。 

sa 管理 方便 ， 随 意 增删 虚拟 磁 市 。 


提示 : LTO 磁带 的 “ 鞋 擦 ” 效 应 。 目 前 最 新 的 LTO 是 LTO5 代 技 
术 ， 它 能 够 在 不 压缩 的 情况 下 每 秒 写 入 180MB 的 数据 。 但 是 磁 
带 驱 动 器 有 个 缺点 ， 就 是 一 旦 开始 写 入 ， 电 机 会 以 全 速 运转 ， 
以 额定 速度 写 入 数据 ， 一 旦 备份 软件 提供 给 驱动 器 的 数据 速率 
达 不 到 驱动 器 额定 速度 的 时 候 ， 这 种 情况 称 为 “从 载 ?>， 那 么 有 
些 驱 动 器 则 可 以 降低 转速 ， 有 些 则 保持 转速 而 降低 数据 存储 密 
度 来 适应 欠 载 。 但 是 驱动 器 有 一 个 最 低 转 速 和 最 低 密 度 ， 当 备 
份 软件 连 这 个 速度 也 满足 不 了 的 时 候 ， 磁 带 驱 动 器 只 能 够 先 暂 
停 下 来 ， 停 止 转动 ， 然 而 又 不 能 急 刹 车 ， 急 刹车 会 拉 坏 甚至 拉 

















断 带 子 ， 所 以 只 能 慢 慢 停 下 来 ， 这 就 导致 磁 尖 所 处 位 置 比 数据 
截止 位 置 超前 一 段 距离 。 当 数据 进入 的 速度 能 够 满足 最 小 速度 
或 者 密度 之 后 ， 人 磁带 驱动 器 再 次 尝试 写 入 数据 ， 但 是 此 时 磁带 
需要 被 倒 融 至 上 次 的 数据 截止 位 ， 然 后 继续 将 积攒 在 缓存 中 的 
数据 写 入 ， 当 速度 再 次 不 匹配 时 ， 执 行 相同 的 过 程 ， 周 而 复 

始 。 这 束 是 鞋 擦 效应。 鞋 擦 效应 会 严重 影响 人 磁 璐 的 寿命 ， 每 次 
磁带 的 同一 位 置 补 磁头 划 过 ， 这 个 位 置 的 寿命 都 会 有 所 降低 。 
解决 鞋 擦 效应 的 办 法 就 是 引入 D2D2T 备 份 模型 ， 比 如 VTL 等 ， 

用 磁盘 来 作为 磁带 的 大 缓冲 ， 或 者 提高 前 端 数据 生成 的 速率 。 


5. 信息 生命 周期 管理 


假如 ， 某 企业 有 磁盘 阵列 容量 共 1TB， 磁 带 库容 量 10TB。 每 天 均 会 
新 生成 5GB 左 右 的 视频 文件 ， 这 些 视频 文件 都 存放 在 磁盘 阵列 的 一 个 
500GB 的 卷 中 。 这 样 不 到 3 个 月 ， 这 500GB 的 卷 便 会 被 全 部 用 完 。 而 这 
个 企业 频繁 调 出 查看 的 视频 ， 一 般 都 是 最 近 一 个 月 以 内 的 ， 如 果 将 一 个 
月 之 前 的 、 几 乎 很 少 或 者 永远 也 不 会 被 再 次 访问 到 的 视频 也 放 在 磁盘 阵 
列 上 ， 这 无 疑 是 一 个 巨大 的 浪费 ， 因 此 完全 可 以 把 这 些 文件 备份 到 磁带 
库 ， 而 腾 出 磁盘 阵列 上 的 存储 空间 ， 供 其 他 应 用 程序 存储 数据 。 


磁盘 阵列 是 高 速 数 据 存储 设备 ， 而 磁带 库 是 低速 数据 存储 设备 ， 所 
以 为 了 各 得 其 所 、 物 尽 其 用 ， 有 人 便 开 发 了 一 套 信息 生命 周期 管理 软 
件 ， 这 种 软件 根据 用 户 设 定 的 策略 ， 将 使 用 不 频 楷 的 数据 ， 移 动 到 低 
速 、 低 成 本 的 存储 设备 上 。 比 如 只 给 某 个 视频 应 用 分 配 20GB 的 磁盘 阵 
列 的 空间 ， 但 是 回 它 报告 500GB 的 存储 空间 ， 其 中 有 480GB 其 实 是 在 破 
带 库 上 的 。 





这 样 ， 应 用 程序 源源 不 断 地 生成 视频 数据 ， 而 管理 软件 根据 策略 ， 


比如 茶 视 频 文件 超过 了 设 定 的 存留 期 ， 便 将 它 移 动 到 磁带 库 上 ， 腾 出 磁 
盘 阵 列 上 的 空间 。 但 是 对 于 应 用 程序 来 次 ， 总 的 可 用 空间 还 是 在 不 断 地 
减少 。 虽 然 磁盘 阵列 上 可 能 总 是 有 空间 ， 但 这 些 空间 是 给 最 近 生 成 的 文 
件 使 用 的 ， 因 为 这 些 文件 会 被 频繁 访问 。 如 果 一 旦 需要 访问 已 经 个 移 动 
到 磁带 库 上 的 文件 ， 则 管理 软件 会 从 磁带 库 提 取 文 件 ， 并 复制 到 磁盘 阵 
列 上 ， 然 后 供应 用 程序 访问 。 














路 


分 级 存储 














基于 信息 生命 周期 管理 的 这 个 思想 ， 目 前 很 多 厂家 都 在 做 相应 的 解 
和 案 ， 分 级 存储 就 是 这 样 一 种 方案 。 


a 第 一 级 : 一 线 磁盘 阵列 ， 是 指 存储 应 用 频繁 访问 数据 的 磁盘 阵 
列 。 其 性 能 相对 二 线 和 三 线 设备 来 说 应 该 是 最 高 的 。 

第 二 级 : 二 线 虚 拟 磁带 库 。 这 个 级 别 上 的 存储 设备 ， 专 门 存放 那 
些 近 期 不 会 被 频繁 访问 的 数据 。 其 性 能 和 成 本 应 该 比 一 线 设备 
低 ， 但 是 性 能 不 能 太 低 ， 以 至 于 提取 数据 的 时 候 造 成 应 用 长 时 间 
等 待 ， 虚 拟 磁 带 库 ， 正 好 满足 了 这 个 要 求 。 虚 拟 磁 带 库 利 用 成 本 
比较 低廉 的 大 容量 SATA 人 磁盘 ， 性 能 适中 的 存储 控制 器 ， 这 样 保 
证 了 性 能 不 至 于 像 磁带 库 一 样 低 ， 成 本 又 不 会 像 一 线 设 备 一 样 
局 。 

第 三 级 : 磁带 库 或 者 光盘 库 等 。 这 个 级 别 上 的 设备 ， 专 门 存储 那 
些 几 年 甚至 十 几 年 都 不 被 访问 到 的 ， 但 是 必须 保留 的 数据 。 磁 带 
库 正 好 满足 了 这 个 要 求 ， 这 是 坚 无 疑问 的 。 




















16.3.2 ”备份 通路 


1. 本 地 备份 


本 地 备份 的 数据 流 同 是 


本 地 梯 盘 ,总线 磁盘 控制 器 ,总线 内存- 总 线 ,磁盘 控制 器 ， 
总 线 本 地 磁盘 。 


即 数据 从 本 地 磁盘 出 帮 ， 通 过 本 地 的 总 线 和 内 存 ， 经 过 CPU 运算 少 
量 控制 逻辑 代码 之 后 ， 最 终 流 回 本 地 磁盘 。 


2. 通过 前 端 网 络 备份 


前 端 网 络 备份 的 数据 流 同 是 


本 地 磁盘 总线 ~ 磁 盘 控 制 器 -总线 ”> 内存” 总 线 ”* 以 太 网 卡 ~ 网 
线 -~ 以 太 网 络 ~ 网 线 -~ 目标 计算 机 的 网 卡 ~ 总 线 - 闪存 ~- 总线 ~ 目标 计 
算 机 的 磁盘 。 


即 数据 从 本 地 磁盘 发 出 ， 流 经 本 地 总 线 和 内 存 ， 然 后 流 到 本 地 网 
卡 ， 通 过 网 络 传送 到 目标 计算 机 的 磁盘 上 。 


这 里 说 的 前 端 网 络 ， 指 的 是 服务 右 接 受 客户 端 连 接 的 网 络 ， 也 就 是 
所 谓 “ 服 务 网 络 ?*， 因 为 这 个 网 络 是 服务 器 和 客户 端 连 接 的 必 经 之 路 。 


后 端 网 络 ， 是 对 客户 封闭 的 ， 客 户 的 连接 不 用 经 过 这 个 网 络 ， 后 端 
网 络 专用 于 服务 器 及 其 必需 的 后 端 部 件 之 间 的 连接 ， 比 如 ， 和 存储 设 
备 ， 或 者 应 用 服务 器 和 数据 库 服务 器 之 间 的 连接 ， 这 些 都 不 需要 让 客户 
终端 知道 


后 端 网 络 可 以 是 SAN， 也 可 以 是 以 太 网 ， 或 者 其 他 任何 网 络 形式 。 
以 太 网 并 不 一 定 就 特 指 前 端 网 络 ， 也 可 以 用 于 后 端 。 随 着 以 太 网 速度 的 


不 断 提高 ， 现 在 已 经 达到 了 10Gb/s 的 速率 ， 所 以 以 太 网 LAN 作 为 后 端 网 
络 ， 同 样 也 是 有 竞争 力 的 。 但 是 次 到 SAN， 一 般 就 是 特 指 后 端 网 络 。 


3. 通过 后 端 网 络 备份 





通过 后 端 网 络 备 份 的 数据 流向 是 : 本 地 磁盘 -总线 ~ 磁盘 控制 器 ~ 
总 线 ~ 内 存 ~ 总 线 ~ 后 端 网 络 适 配器 ~ 线 线 ~ 后 端 网 络 交 换 设施 ~ 线 线 
~ 备份 目标 的 后 端 网 络 适 配器 ~ 总线 ~ 内存” 备份 目标 的 磁盘 或 者 磁 


二 此 


市 。 


提示 : 这 里 说 的 “后 端 网 络 适 配器 >”， 泛 指 任何 形式 的 后 端 网 络 
适配器 ， 比 如 FC 适配器 、 以 太 网 卡 等 。 


4. LAN Free 备 份 


LAN Free 这 个 词 已 经 在 存储 领域 流行 使 用 多 年 。 它 的 意思 是 备份 的 
时 候 ， 数 据 不 流 经 LAN， 也 就 是 不 流 经 前 端 网 络 。 由 于 历史 原因 ， 导 致 
了 人 们 的 思维 定 势 ， 认 为 LAN 只 用 于 前 端 网 络 ， 所 以 说 到 了 LAN 就 想到 
了 前 端 网 络 ， 然 而 ， 我 们 上 文 已 经 做 了 解释 ， 后 端 网 络 同样 可 以 使 用 以 
太 网 LAN。LAN 这 个 词 本 意 为 Local area network， 即 局 域 网 络 ， 它 没有 
对 网 络 的 类 型 加 以 限制 ， 可 以 说 存储 区 域 网 络 也 是 一 个 LAN。 














思考 : 笔者 认为 这 个 词 不 再 适合 当今 存储 领域 ， 取 而 代 之 的 
应 该 是 Frontend Free 这 个 新 的 名 词 ， 即 备份 的 时 候 ， 数 据 不 需 
要 流 经 前 端 网 络 ， 而 只 流 经 后 端 网 络 。 


Frontend Free 备 份 的 好 处 是 : 不 耗费 前 端 网 络 的 带宽 ， 对 客户 终端 
接收 服务 喜 数 据 不 会 造成 影响 。 相 对 于 后 端 网 络 来 次 ， 前 端 网 络 一 般 为 





慢 速 网 络 ， 资 源 非常 珍 贯 ， 加 上 前 端 网 络 是 客户 端 和 服务 器 问 通 信 的 必 
经 之 路 ， 所 以 要 尽量 避免 占用 前 端 网 络 的 资源 ， 备 份 数 据 长 时 间 频 繁 地 
流 过 前 端 网 络 ， 无 疑 会 对 生产 造成 影响 。 解 决 的 办 法 束 是 通过 后 端 网 络 
进行 备份 ， 或 者 本 地 备份 。 


无 论 是 本 地 备份 ， 还 是 通过 网 络 备份 “前 器 网 络 或 者 后 端 网 络 ) ， 
都 需要 待 备份 的 服务 器 付出 代价 来 执行 备份 ， 即 服务 器 需要 读 取 备 份 源 
数据 到 目 身 的 内 存 ， 然 后 再 从 内 存 将 数据 写 入 备份 目标 ， 对 主机 CPU、 
内 存 都 有 资源 耗费 。 是 否 能 让 服务 器 付出 极 小 的 代价 ， 甚 至 无 代价 而 完 
成 备份 任务 呢 ? 当然 可 以 。 


5. Server free 备 份 


这 个 名 词 是 指 ， 备 份 的 时 候 ， 数 据 甚至 不 用 流 经 服务 器 的 总 线 和 入 
存 ， 消 耗 极 少 ， 甚 至 不 消耗 主机 资源 。 下 面 来 分 析 一 下 。 


要 想 使 备份 数据 不 流 经 服务 器 本 身 ， 那 么 首先 备份 对 象 ， 即 待 备份 
数据 所 在 的 地 方 肯定 不 能 是 服务 器 的 本 地 磁盘 ， 因 为 数据 从 磁盘 读 出 ， 
第 一 个 要 流 经 的 地 方 束 是 忌 线 ， 人 然后 到 服务 器 内 存 ， 这 样 就 不 叫 Server 
free 了 。 


所 以 ， 备 份 源 不 能 在 服务 器 上 ， 同 理 ， 备 份 目标 也 不 能 在 服务 器 
上 ， 不 然 写 入 的 时 候 照 样 流 经 服务 器 的 总 线 和 内 存 。 那 么 到 底 怎样 才能 
实现 Server free 呢 ? 


很 简单 ， 备 份 对 象 和 备份 目标 都 不 在 服务 器 上 ， 不 在 本 地 就 只 能 在 
SAN 上 了 。 做 到 这 一 点 还 不 够 ,因为 主机 要 从 SAN 上 的 一 个 磁盘 取出 数 
据 ， 写 入 SAN 上 的 另 一 个 磁盘 ， 同 样 需 要 先 将 数据 读 入 到 主机 的 内 存 ， 





然后 再 写 入 SAN。 那 么 到 底 怎 样 才能 做 到 Server free 呢 ? 


答案 是 ， 用 SCSI 的 扩展 复制 命令 ， 将 这 些 命令 发 送 给 文 持 Server 
free 的 存储 设备 ， 然 后 这 些 设备 就 会 提取 自身 的 数据 直接 写 入 备份 目标 
设备 而 不 是 发 送 给 主机 。 或 者 用 另 一 台 计 算 机 作为 专门 移动 数据 之 用 ， 
即 竺 备份 的 主机 向 这 台数 据 移动 器 发 信号 ， 告 诉 它 移动 某 磁盘 上 的 数据 
到 另 一 个 磁盘 ， 然 后 这 台数 据 移动 器 从 SAN 上 的 源 磁盘 读 取 数 据 到 它 自 
己 的 内 存 而 不 是 待 备份 主机 的 内 存 ， 然 后 写 入 到 SAN 上 的 目标 磁盘 。 

















提示 : ”所 谓 的 Server free， 并 不 是 真正 的 不 需要 服务 器 来 移动 
数据 ， 而 是 让 服务 器 发 出 扩展 复制 命令 ， 或 者 使 用 另 一 台 专 门 
用 作 数 据 移动 的 新 服务 器 ， 来 代 蔡 原来 服务 器 移动 备份 数据 ， 
释放 运算 压力 很 大 的 生产 服务 器 。 当 然 ， SAN 上 的 源 磁盘 和 目 
标 磁盘 或 者 磁带 ， 数 据 移 动 服务 器 都 需要 有 访问 权 。 











为 了 统一 数据 备份 系统 中 所 有 节点 之 间 的 消 妃 流 格式 ，Netapp 公 司 
和 Legato 公 司 合作 开发 了 一 种 叫做 NDMP 的 协议 《网 络 数据 管理 协 
议 ) 。 这 个 协议 用 于 规范 备份 服务 器 、 备 份 对 象 、 备 份 目标 等 备份 系统 
各 种 市 点 的 数据 交互 控制 。 服 务 器 只 要 问 文 持 NDMP 协 议 的 存储 设备 发 
送 NDMP 指 令 ， 即 可 证 存储 设备 将 其 自己 的 数据 直接 备份 到 其 他 设备 
上 ， 而 根本 不 需要 流 经 服务 器 主机 。 





16.3.3 备份 引擎 


备份 引擎 ， 束 是 一 套 集 略 、 一 套 规则 ， 它 决定 整个 数据 备份 系统 应 
该 怎么 运作 ， 按 照 什 么 策略 来 备份 ， 备 份 哪些 内 容 ， 什 么 时 候 开 始 备 
份 ， 备 份 时间 有 没有 限制 ， 磁 带 库 中 的 磁带 什么 时 候 过 期 并 可 以 重新 抹 
掉 使 用 等 。 残 像 引擎 一 样 ， 开 动 之 后 ， 整 个 备份 束 按 照 程 序 有 条 不 率 地 


进行 。 


1. 备份 服务 器 





那么 备份 引擎 以 一 种 什么 形式 来 体现 呢 ? 坚 无 疑问 ， 当 然 是 运行 在 
主机 上 的 程序 来 执行 ， 所 以 需要 有 这 么 一 全 计算机 来 做 这 个 引擎 的 执行 
者 ， 这 台 计 算 机 就 叫做 “备份 服务 器 ”， 意 思 惑 是 这 合计 算 机 专门 管理 整 
个 数据 备份 系统 的 正常 运作 ， 制 定 各 种 备份 策略 。 


思考 : ”备份 服务 器 的 备份 策略 和 规则 ， 怎 样 传送 给 整个 数据 
备份 系统 中 的 各 个 待 备份 的 服务 器 呢 ? 和 汽车 一 样 ， 车 轮 和 引 
擎 之 间 有 传动 轴 连 接 ， 备 份 服务 器 和 符 备 份 的 服务 器 之 间 也 有 
网 络 来 连接 ， 那 么 通过 以 太 网 还 是 通过 SAN 网 络 来 连接 呢 ? 


答案 是 以 太 网 络 ， 因 为 以 太 网 络 使 用 广泛 ， 以 太 网 之 上 的 TCP/P 编 
程 已 经 非常 成 熟 ， 非 常 适合 节点 间 通 信 。 相 对 于 以 太 网 ，SAN 更 加 适合 
传送 大 量 数据 。 而 利用 前 端 网 络 连 接 还 是 利用 后 端 网 络 连接 呢 ? 


一 般 我 们 第 用 前 端 网 络 来 连接 竺 备份 服务 右 和 备份 服务 器 。 因 为 备 
份 朱 略 束 好 比 两 个 人 之 间 说 了 几 句 话 ， 所 以 把 这 儿 句 话 传送 给 得 备份 服 
务 器 ， 不 会 耗费 很 大 的 网 络 资 源 ， 充 其 量 每 秒 儿 十 个 包 而 已 ， 这 对 前 端 
网 络 影响 非常 小 。 有 了 网 络 连接 ， 我 们 就 有 了 物理 层 的 保障 。 





但 备份 服务 器 是 如 何 与 每 个 待 备份 的 服务 器 建立 通话 的 呢 ? 它们 之 
间 怎 么 通话 ? 通话 的 规则 怎么 定 呢 ? 这 就 需要 待 备份 服务 器 上 运行 一 个 
程序 ， 专 门 解释 备份 服务 器 发 来 的 命令 ， 然 后 根据 命令 ， 做 出 动作 。 


这 个 运行 在 各 个 竺 备份 服务 器 上 的 程序 ， 束 叫做 备份 代理 (Backup 
Agent) ， 它 们 监听 某 个 Socket 端 口 ， 接 收 备份 服务 器 发 来 的 命令 。 比 


如 ， 某 时 刻 备 份 服务 器 通过 以 太 网 前 端 网 络 ， 给 某 个 待 备份 服务 器 发 送 
一 条 命令 ， 这 条 命令 被 运行 在 该 待 备份 服务 器 上 的 备份 代理 程序 接收 ， 
内 容 是 : 立即 将 位 于 该 服务 器 上 C 盘 下 的 XX 目 录 复 制 到 E 盘 下 XXX 目 

录 。 备 份 代理 接 收 到 这 个 命令 之 后 ， 束 会 将 该 待 备 份 服务 器 上 C 盘 下 XX 
目录 复制 到 E 盘 下 的 XXX 目录 。 如 果 D 盘 是 本 地 盘 ，E 盘 是 一 个 SAN 上 的 
虚拟 人 磁盘， 那么 实际 数据 流动 的 路 径 就 是 : 


本 地 磁盘 总线 内 存 二 总 线 SAN 网 络 适配器 线 绕 -SAN 交换 
设施 (如 果 有 ) -磁盘 阵列 。 


数据 源源 不 断 地 从 本 地 磁盘 流向 SAN 网 络 上 的 磁盘 阵列 ， 成 功 备份 
之 后 ， 备 份 代理 收 到 来 自 竺 备份 服务 器 操作 系统 的 成 功 提示 ， 然 后 备份 
代理 通过 以 太 网 同 备 份 服务 器 返回 一 条 成 功 完成 的 提示 。 这 样 备份 服务 
需 便 会 知道 这 个 备份 已 经 成 功 完成 ， 并 记录 下 开始 时 间 、 结 束 时 间 、 是 


售 成 功 等 信息 。 


同样 的 道理 ， 如 果 例 子 中 的 E 盘 也 是 本 地 盘 ， 那 么 路 径 就 短 多 了 。 
如 果 备 份 服务 器 告诉 备份 代理 ， 将 数据 复制 到 位 于 SAN 上 的 磁带 库 设 备 
而 不 是 磁盘 阵列 ， 那 么 同样 ， 备 份 代理 将 数据 从 本 地 磁盘 读 出 ， 然 后 通 
过 SAN 网 络 适 配器 发 往 磁带 库 。 当 然 这 需要 在 待 备份 的 服务 器 上 安装 可 
以 操控 磁带 库 设 备 的 驱动 程序 。 同 理 ，E 盘 如 果 是 个 NAS 目 录 ， 则 数据 
便 会 被 发 往 远 端的 NAS 服 务 器 了 。 





2. 介质 服务 器 


设想 : ”假如 在 一 个 数据 备份 系统 中 ， 有 一 全 普通 的 SCSI 磁 带 机 连 
接 在 东台 主机 上 ， 且 有 多 人 台 主机 的 数据 需要 备份 到 这 人 台 SCSI 了 磁带 机 的 磁 
帝 中 ， 而 SCSI 磁 带 机 只 能 同时 接 到 一 台 主 机 上 ， 总 不 能 搬 着 磁带 机 ， 给 





每 个 机 器 轮流 插 上 用 吧 ? 





当然 可 以 ， 但 是 这 样 很 麻烦 。 有 没有 一 种 办 法 来 解决 这 个 问题 呢 ? 
当然 有 了 。 可 以 将 这 合 磁带 机 连接 到 固定 的 一 台 计 算 机 ， 只 能 由 这 合计 
算 机 来 操作 磁带 机 。 其 他 有 数据 需要 备份 的 计算 机 ， 和 这 合营 管 SCSI 磁 
带 机 使 用 权 的 计算 机 ， 通 过 以 太 网 连接 起 来 “当然 也 可 以 通过 其 他 网 络 
方式 连接 ， 但 前 面 说 过 ， 以 太 网 是 最 廉价 、 最 广泛 使 用 的 网 络 ) ， 谁 有 
数据 ， 谁 就 将 数据 通过 以 太 网 发 给 这 人 台 掌 管 磁 带 机 的 计算 机 ， 收 到 数据 
后 ， 这 合计 算 机 将 数据 写 入 只 有 它 才 有 权 控 制 的 磁带 机 。 写 完 后 ， 下 一 
台 有 数据 需要 备份 的 计算 机 ， 重 复 刚 才 的 动作 。 


< 


全 已 
月 已 
党 








这 样 ， 我 们 用 了 一 台 计 算 机 来 掌管 SCSI 磁 带 机 ， 然 后 在 这 人 台 计 算 机 
前 端 ， 我 们 用 以 太 网 扩展 了 连接 。 虽 然 微 观 上 磁带 机 只 有 一 个 接口 ， 
只 能 连接 一 台 计 算 机 ， 但 是 经 过 以 太 网 的 扩展 之 后 ， 这 人 台 人 磁带 机 成 为 了 
公用 设备 ， 擎 管 磁带 机 的 计算 机 成 为 了 代替 这 些 服务 器 行使 备份 动作 的 
角色 ， 因 为 整个 数据 备份 系统 中 ， 只 有 这 台 计 算 机 掌管 了 备份 目标 ， 也 
就 是 磁带 机 、 磁 带 ， 所 以 我 们 称 这 人 台 服 务 器 为 “介质 服务 器 >”。 也 就 是 
说 ， 这 人 台 服 务 器 是 数据 备份 系统 中 备份 介质 的 掌管 者 ， 其 他 人 都 不 能 

接 访 问 备份 介质 。 


的 


思考 : ”这 人 台 计 算 机 只 是 掌握 了 备份 介质 ， 谁 都 可 以 向 它 友 起 
请 求 ， 然 后 传输 需要 备份 的 数据 给 它 。 但 是 如 果 同 时 有 多 人 台 服 
务 器 向 它 发 出 请 求 ， 怎 么 办 ? 


显然 还 需要 一 个 调度 员 ， 来 管理 调度 好 多 个 待 备份 服务 器 之 间 的 顺 
序 ， 做 到 有 条 不 率 ， 按 照 预订 的 策略 来 备份 ， 避 免 冲 突 。 那 么 谁 来 担当 
调度 员 呢 ? 前 面 讲 到 的 “备份 服务 器 ?本 吴 就 是 这 样 一 个 调度 ， 所 以 非 他 
英 属 了 。 








将 这 个 调度 员 也 接 入 以 太 网 ， 调 度 员 使 出 它 的 必 胜 大 法 一 一 在 每 个 
符 备 份 的 服务 器 上 ， 都 安 疼 它 的 * 耳 永和 “路 巴 ”， 即 备份 代理 程序 ， 通 
过 这 个 耳 东 和 路 巴 ， 调 度 员 证 每 侣 服务 器 都 责 弄 地 听话 ， 按 照 顺 序 有 条 
理 地 使 用 介质 服务 器 提供 的 备份 介质 进行 备份 。 在 一 个 数据 备份 系统 
中 ， 介 质 服 务 器 可 以 有 多 人 台 同 时 分 担 工作 。 








图 16-95 是 一 个 Veritas Netbackup 备 份 软件 的 备份 流程 。 


图 16-95 ”备份 流程 





(1) 汞 时 刻 ， 备 份 服务 器 及 起 备份 ， 它 通知 “介质 服务 器 A” 备 
份 “ 竺 备份 服务 嚣 C” 上 的 相应 内 容 。 

42)“ 介 质 服 务 器 A" 辐 服务 器 发 出 指令 ， 告 诉 它 可 以 进行 备份 了 ， 
请 发 送 需要 备份 的 数据 。 








(3) 待 备份 服务 器 C 把 需要 备份 的 数据 通过 以 太 网 发 送 给 “介质 服 
务 器 A”。 


44)“ 介 质 服 务 器 A" 将 收 到 的 数据 源源 不 断 地 写 入 磁带 机 。 


(5) 重复 第 〈1) 步 ， 只 不 过 介质 服务 需 为 B， 竺 备份 服务 器 为 


上 面 这 个 拓扑 图 ， 是 一 个 Frontend _ unfree 备 份 方式 。 因 为 备份 数据 
流 占 用 了 前 端 网 络 带 宽 。 


至 此 ， 我 们 的 数据 备份 系统 中 ， 已 经 有 了 三 个 角色 了 : 备份 服务 器 
“调度 员 ) 、 介 质 服务 器 《〈 仓 库房 间 管 理 员 ) 、 竺 备份 服务 器 《存储 货 
物 的 人 ) 。 





再 转 回 去 看 看 还 没有 出 现 *“ 介 质 服务 器 ?前 的 那个 例子 。 会 发 现 那 时 
候 ， 仓 库房 间 尚 充足 ， 仓 库 每 个 门 都 开 着 ， 每 个 人 都 可 以 从 各 目的 门 进 
去 存放 物品 ， 每 个 需要 存放 货物 的 人 部 有 权 和 直接 访问 它们 的 仓库 房间 ， 
它们 只 靠 一 个 调度 员 来 协调 。 这 时 候 可 以 认为 ， 每 个 消费 者 都 在 管理 着 
仓库 房间 ， 它 们 每 个 人 都 是 仓库 房间 管理 员 ， 只 不 过 它们 各 上 自 管理 自己 
的 房间 而 已 。 所 以 ， 这 种 情况 下 ， 每 台 每 备份 的 服务 器 ， 部 是 介质 服务 
需 ， 而 且 每 侣 介质 服务 需 因 为 都 需要 操控 备份 设备 ， 所 以 还 需要 安装 诸 
如 磁带 库 等 设备 的 驱动 程序 。 而 备份 服务 器 只 有 一 个 。 











相对 于 由 存放 货物 的 人 自行 管理 仓库 房间 的 情况 ， 由 专人 来 管理 仓 
库房 间 ， 上 所 耗费 的 前 端 网 络 资源 更 大 。 因 为 存储 货物 的 人 ， 首 先 需 要 通 
过 网 络 将 货物 发送 给 仓库 管理 员 ， 然 后 管理 员 再 将 货物 放 入 仓库 。 而 如 
果 让 存储 货物 的 人 目 己 存放 ， 则 会 省 去 第 一 步 。 


图 16-96 所 示 的 就 是 用 上 述 思 想 进行 数据 备份 的 一 个 拓扑 图 。 


图 16-96 Frontend Free 





(1) 备份 服务 器 通过 以 太 网 ， 同 时 向 三 台 介 质 服务 器 (也 是 待 备 
份 服务 器 ) 发 出 备份 开始 指令 。 


(2) 待 备份 服务 器 直接 将 数据 通过 后 端 SAN 网 络 设施 写 入 备份 目 
标 。A 和 B 的 备份 目标 是 磁盘 阵列 ， 它 们 可 以 同时 写 入 备份 目标 。C 的 备 
份 目 标 是 磁带 库 ， 如 果 磁 融 库 只 有 一 个 驱动 器 ， 则 同一 时 刻 只 能 用 于 一 
个 备份 操作 ， 这 个 例子 中 ， 磁 带 库 被 C 独 占 。 当 然 C 完 成 备份 之 后 ， 破 
带 库 可 以 被 其 他 服务 器 使 用 。A、B、C 都 安装 有 磁带 库 机 械 手 和 驱动 器 
的 驱动 程序 。 





上 面 的 拓扑 图 〈 图 16-96) ， 束 是 一 个 典型 的 Frontend ”Free 备 份 方 


式 ， 因 为 备份 数据 流 不 占用 前 器 网 络 带宽 ， 而 只 有 备份 时 所 发 送 的 指令 
数据 经 过 了 前 站 网 络 。 


随 着 各 种 应 用 系统 的 不 断 出 现 ， 比 如 ， 各 种 数据 库 管 理 系统 、E- 
mail 转 发 处 理 系统 、ERP 系 统 、 办 公 上 自动 化 系统 等 ， 备 份 技术 也 随 之 飞 
快 友 展 ， 传 统 的 备份 操作 ， 仅 仅 是 备份 操作 系统 文件 ， 即 不 管 这 个 文件 
是 何 种 类 型 ， 被 什么 应 用 程序 生成 和 使 用 ， 备 份 的 时 候 统统 当 作 一 个 抽 
象 的 备份 源 来 看 待 ， 只 需要 把 这 个 文件 整体 传送 到 备份 目标 就 可 以 了 。 








如 今 ， 用 户 的 需求 越 来 越 品 ， 越 来 越 细 化 。 比 如 ， 茶 用 户 要 求 只 备 
份 某 数 据 库 中 的 茶 个 表 空 间 ， 或 者 只 备份 条 个 E-mail。 由 于 一 个 表 空间 
包含 一 个 或 者 多 个 数据 文件 ， 这 样 命令 及 给 备份 代理 的 时 候 ， 只 能 是 这 
样 :“ 备 份 茶 数 据 库 下 的 某 表 空间 ”， 而 不 是 :“ 备 份 X 盘 X 目 录 下 XXX 文 
件 ”*"。 因 为 调度 员 不 可 能 知道 菜 个 表 空 间 到 底 包 含 哪些 具体 的 文件 。 要 
完成 这 个 备份 动作 ， 必 须 由 运行 在 竺 备份 服务 器 上 的 某 种 代理 程序 来 参 
与 。 那 么 这 个 代理 是 否 可 以 是 上 文 提 到 的 备份 代理 呢 ? 




















完全 可 以 ， 但 是 有 个 需要 增加 的 功能 ， 即 这 个 代理 程序 必须 可 以 与 
符 备 份 的 应 用 程序 进行 通信 ， 从 而 获得 相关 信息 。 可 以 有 两 种 方式 来 完 
成 备份 : 直接 获取 到 这 个 表 空间 对 应 的 数据 文件 有 哪些 ， 然 后 自行 备份 
这 些 文件 ; 或 者 直接 调用 数据 库 管 理 系 统 的 命令 ， 向 数据 库 管理 系统 发 


出 命令 ， 备 份 这 个 表 空 间 。 




















如 果 是 第 一 种 方式 ， 将 调度 员 发 出 的 命令 对 应 成 实际 文件 的 工作 。 
比如 ， 需 要 备份 的 是 一 个 DB2 数 据 库 上 的 茶 个 表 空 间 ， 那 么 这 个 代理 程 
序 需 要 与 DB2 实 例 程 序 进行 通信 ，DB2 实 例 服 务 程序 告诉 备份 代理 ， 
XXX 表 空 间 对 应 的 容器 《数据 文件 ) 为 菜 茶 路 径 下 某 某 文件 。 备 份 代理 
获得 这 些 信息 后 ， 直 接 将 对 应 的 文件 备份 到 备份 目标 。 

















如 有 果 是 第 二 种 方式 ， 备 份 代理 收 到 调度 员 指 令 之 后 ， 便 会 同 DB2 实 
例 服 务 程序 发 出 指令 : “db2 backup db testdb tablespace userspacel online 
to ”Ntape0”， 这 样 ， 就 利用 DB2 目 号 的 备份 工具 备份 了 数据 。 目 前 广泛 
使 用 的 做 法 都 是 第 二 种 方式 ， 因 为 解 铃 还 需 系 铃 人 ， 用 应 用 程序 本 里 的 
备份 工具 进行 备份 是 最 保险 的 方法 。 








综 上 所 述 ， 对 于 每 一 种 待 备份 的 应 用 程序 ， 都 需要 一 个 可 以 和 该 应 
用 程序 进行 通信 的 代理 程序 ， 这 就 需要 开发 针对 各 种 应 用 程序 的 代理 。 
目前 ， 像 Symantec Backup Exec 备 份 软件 ， 提 供 了 诸如 Oracle 数 据 库 代 
理 、DB2 数 据 库 代 理 、Exchange 代 理 、Lotus Notes 代 理 、SQL Server 代 
理 、SAP 代 理 等 诸多 应 用 程序 的 备份 代理 。 


图 16-97 中 的 ServerFree Option 就 是 用 来 实现 ServerFree 功 能 的 一 个 模 
块 。Agent for 开 头 的 选 件 ， 就 是 针对 各 种 应 用 程序 所 开发 的 备份 代理 程 
序 。NDMP 选 件 ， 用 来 实现 ServerFree 所 需要 的 协议 栈 。 

















图 16-97 各 种 备份 代理 及 插件 








SAN Shared Storage Option， 是 用 来 管理 那 种 “每 台 待 备份 服务 器 都 
是 介质 服务 器 ”情况 下 ， 各 个 服务 器 对 备份 目标 设备 的 共享 使 用 权 的 一 
个 模块 。 因 为 每 台 服 务 器 都 装 有 目标 设备 〈 破 融 库 等 ) 的 驱动 程序 ， 都 
可 以 控制 磁带 库 ， 为 了 避免 意外 冲突 ，SAN Shared Storage Option 作 为 
一 个 附加 的 选 件 来 协调 各 个 服务 器 之 间 有 顺序 地 使 用 目标 设备 而 不 发 生 
冲突 。 





16.3.4 三 种 备份 方式 


1. 完全 备份 





假如 茶 时 刻 茶 文件 中 只 包含 了 一 个 字符 A。 此 时 我 们 对 这 个 文件 做 
了 备份 操作 ， 将 其 复制 到 其 他 介质 上 ， 这 份 备份 的 文件 中 只 包含 字符 
A。 





稍 后 ， 这 个 文件 被 修改 ， 在 字符 A 之 后 增加 了 一 个 字符 B。 此 时 我 
们 又 对 这 个 文件 做 了 备份 ， 将 其 复制 到 其 他 介质 上 ， 这 份 备份 的 文件 中 
包含 字符 A、B。 





以 后 ， 不 管 这 个 文件 怎么 变化 ， 变 成 多 大 ， 包 含 多 少 个 字符 ， 只 要 
备份 ， 束 将 这 个 文件 整个 备份 下 来 ， 这 就 是 完全 备份 。 





2. 差 量 备份 


假如 某 时 刻 某 文件 中 包含 100 个 数字 1、2、3、.…… 、100， 在 对 其 
做 完全 备份 后 ， 文 件 中 增加 了 一 个 数字 101， 又 过 了 一 段 时 间 ， 文 件 中 
又 增加 了 一 个 数字 102， 而 我 们 已 经 有 了 一 个 完全 备份 ， 这 个 备份 已 经 
包含 了 文件 中 1 一 100 这 100 个 数字 ， 如 宋 我 们 此 时 再 次 对 这 个 文件 做 完 
全 备份 ， 是 不 是 太 浪 费时 间 和 存储 空间 了 呢 ? 得 想 出 一 种 办 法 ， 即 只 备 
份 自从 上 次 完全 备份 以 来 发 生变 化 的 数据 。 














完全 可 以 ， 我 们 以 一 种 自己 可 以 识别 的 格式 ， 将 101 和 102 这 两 个 数 
字 保 存 到 一 个 单独 的 文件 中 。 这 就 叫做 差 量 备份 ， 意 思 就 是 只 备份 与 上 
次 完全 备份 内 容 之 间 相 差 的 内 容 。 如 果 要 恢复 这 份 最 新 的 文件 ， 只 要 将 
上 次 完全 备份 和 最 后 一 次 的 差 量 备份 合并 起 来 ， 便 可 组 成 最 终 的 最 新 完 
全 备份 ， 从 而 恢复 数据 。 








过量 备份 要 求 必 须 对 数据 做 一 次 完全 备份 ， 从 而 作为 兰 量 的 基准 
点 。 人 否则 随意 找 一 个 基准 点 ， 所 生成 的 数据 是 不 完整 的 。 


3， 增 量 备份 


经 过 了 完全 备份 和 差 量 备份 ， 我 们 已 经 有 了 两 个 备份 文件 ， 包含 数 
字 1 一 100 的 完全 备份 和 包含 数字 101 和 102 的 差 量 备 份 。 如 果 这 份 文件 每 
天 都 会 增加 一 个 数字 ， 而 我 们 每 天 都 要 做 差 量 备份 甚至 完全 备份 么 ?这 
里 还 有 一 种 选择 ， 就 是 增 量 备 份 。 





增 量 备份 是 指 : 只 备份 自从 上 次 备份 以 来 的 这 份 文件 中 变化 过 的 数 
据 。 这 里 的 “< 上 次 备份 ”， 不 管 上 一 次 备份 是 全 备 、 差 备 ， 还 是 增 备 自 
喘 ， 本 次 增 量 备份 只 备份 和 上 一 次 备份 结束 的 时 刻 ， 这 份 文件 变化 过 的 
数据 。 比 如 ， 我 们 现在 拥有 包含 数字 1 一 100 的 完全 备份 和 包含 数字 101 
和 102 的 差 量 备份 。 此 时 ， 我 们 打算 以 后 每 天 执行 增 量 备份 ， 那 么 ， 第 
二 天 ， 这 份 文件 增加 了 一 个 数字 103， 所 以 我 们 只 备份 103 这 个 数字 ， 依 
此 类 推 ， 第 三 天 我 们 只 备份 104 这 个 数字 ， 这 样 备份 速度 极 大 地 加 快 
了 ， 备 份 所 消耗 的 空间 也 小 了 。 





提示 : ”在 实际 使 用 中 可 以 灵活 地 制定 各 种 策略 ， 比 如 每 周一 
对 数据 进行 完全 备份 ， 周 二 到 周 五 每 天 对 数据 进行 增 量 备份 


Pay 
等 。 








如 采 对 数据 进行 增 量 或 者 兰 量 备份 ， 普 通 的 文件 ， 备 份 软件 一 般 是 
可 以 检测 到 文件 相对 上 次 备份 时 候 押 发 生 的 变化 的 。 但 数据 库 的 备份 ， 
备份 软件 想 检 测 茶 个 数据 文件 的 变化 ， 一 般 来 次 是 不 可 能 的 ， 因 为 这 些 
文件 内 部 格式 是 非常 复杂 的 ， 只 有 数据 库 管理 软件 自身 才能 分 析 并 检测 
出 来 ， 所 以 每 个 数据 库 管 理 软件 (如 Oracle、DB2 等 ) 都 有 目 己 的 备份 
工具 ， 可 以 全 备 、 差 备 和 增 备 ， 而 第 三 方 备份 软件 在 对 数据 库 做 备份 的 
时 候 ， 只 能 调用 数据 库 软 件 自 身 提 供 的 各 种 命令 ， 或 者 程序 接口 。 








16.3.5 ”数据 备份 系统 案例 一 





前 面 介绍 了 数据 保护 的 基本 原理 和 大 体 思 路 ， 下 面 来 看 下 现实 中 的 
数据 备份 领域 ， 了 解 一 下 现今 三 泛 实 行 的 数据 备份 都 是 怎么 做 的 。 


下 面 用 一 个 企业 的 IT 系统 作为 一 个 初始 化 的 例子 ， 如 图 16-98 所 
示 ， 某 企业 IT 系 统 现 有 FTP 服 务 器 一 台 ，E-mail 服 务 器 一 台 ， 基 于 SAP 
的 ERP 服 务 器 一 台 ，DB2 数 据 库 服 务 器 一 台 〈 用 于 SAP 服 务 器 的 后 台数 
据 库 ) ， 备 份 服务 器 一 台 ， 大 型 FC 磁盘 阵列 一 台 ， 小 型 磁带 库 一 台 
(一 个 机 械 手 ， 两 个 驱动 器 〉。 




















图 16-98 ” 某 公 司 开 系统 示意 图 





以 上 五 台 服 务 器 各 用 以 太 网 卡 连接 到 同一 个 以 太 网 交换 机 上 ， 同 时 
各 个 办 公 室 的 客户 端 PC 也 通过 局 域 网 连接 到 这 台 交 换 机 上 。 男 外 ， 除 
备份 服务 器 之 外 的 四 台 服 务 器 上 分 别 装 有 一 块 FC HBA 适 配 卡 ， 且 通过 
光纤 连接 到 一 台 SAN 交 换 机 上 。 磁 盘 阵 列 也 用 一 条 光纤 连接 到 SAN 交 换 
机 上 。 该 企业 使 用 Symantec Backup Exec 11D 备 份 软件 进行 备份 操作 。 


在 备份 服务 器 上 需要 安装 Symantec Backup Exec 的 软件 Master Server 
模块 。 


在 每 台 待 备份 的 服务 器 上 需要 安装 Symantec Backup Exec 的 Media 
Server 模 块 、 磁 带 库 驱 动 程序 、 对 应 的 应 用 程序 备份 代理 模块 。 





在 备份 服务 器 上 ， 用 Symantec Backup Exec 提 供 的 配置 界面 ， 来 制 
定 针对 每 台 服 务 器 的 备份 策略 ， 策 略 生 效 之 后 ， 各 个 服务 器 便 会 按照 策 
略 中 规定 的 时 间 、 备 份 源 、 备 份 目 标 来 将 各 上 自 的 数据 备份 到 相应 的 备份 
目标 。 这 是 一 个 典型 的 企业 数据 备份 系统 和 案例， 数据 流 经 的 路 径 不 包括 


前 端 网 络 ， 所 以 属于 Frontend Free 备 份 。 
16.3.6 ”数据 备份 系统 案例 二 


Symantec Netbackup 是 Symantec 公司 的 另 一 个 备份 产品 ， 与 Backup 
同 的 是 ，Netbackup 适 合 于 大 型 备份 系统 ， 文 持 各 种 操作 系统 平 

， 各 个 模块 可 以 分 别 安装 在 不 同 操作 系统 上 ， 由 于 之 间 通 过 TCP/IP 协 
a 所 以 可 以 屏蔽 各 种 操作 系统 的 不 同 。 而 Backup Exec 只 支持 
Windows 和 Netware 操 作 系统 〈 最 新 的 11D 版 本 文 持 Linux) 。NetBackup 
更 加 适合 异 构 操作 系统 平台 的 备份 ， 因 此 适合 拥有 众多 不 同 三 家 服务 
器 、 不 同 操作 系统 的 大 型 企业 的 备份 系统 。 


提示 : 关于 NetBackup 可 参考 第 16.3.7 节 的 NetBackup 配 置 指南 


图 16-99 所 示 的 是 某 企 业 备份 系统 的 拓扑 图 。 




















图 16-99 ” 某 公司 开 系 统 示意 图 





该 企业 有 四 台 DB2 数 据 库 服务 器 ， 主 机 名 分 别 为 : bbpsrv、 
bbpsr 2、srmdb、microcct， 皆 使 用 Windows 2000 Advanced Server 操 作 系 
人 


其 上 分 别 安装 NetBackup 软 件 的 介质 服务 器 模块 和 磁带 库 驱 动 程 
厅 


其 中 bbpsrv 服 务 器 连接 有 一 人 台 SCSI 磁 带 机 ，microcct 服 务 器 连接 有 
台 SCSI 磁 带 机 。 这 四 台数 据 库 服 务 器 也 是 待 备份 的 服务 占 。 


一 台 备 份 服务 器 ， 主 机 名 为 houseprd， 使 用 Windows 2000 Advanced 
Server 操 作 系 统 ， 其 上 安装 有 NetBackup 软 件 的 Master Server 模 块 ( 默 认 


包含 了 Media Server 模 块 )， 同 时 也 安装 了 伺 带 库 驱 动 程序 ， 并 且 通 过 
SCSI 线 统 连 接 有 一 台 人 磁带 机 。 


一 台 HP Ultrium 人 磁带 库 ， 包 含 一 个 机 械 手 和 两 个 驱动 器 。 
一 台 IBM 3580 人 磁带 库 ， 包 含 一 个 机 械 手 和 两 个 驱动 器 。 


在 这 个 备份 系统 中 ， 由 Master Server 进 行 调度 ， 每 台 DB2 数 据 库 服 
务 器 都 将 待 备份 的 数据 通过 SAN 区 换 机 传输 给 磁带 库 。 由 于 共有 五 台 服 
务 器 使 用 两 台 人 磁带 库 ， 所 以 需要 由 这 五 台 服 务 器 共享 这 两 台 磁带 库 ， 为 
了 避免 冲突 ， 调 度 工作 统统 由 Master Server 来 进行 。 


16.3.7 ” NetBackup 配置 指南 


图 16-100 是 在 houseped 这 台 Master Server 上 运行 的 NetBackup 配 置 工 
上 其 的 主 界面 。 右 侧 窗口 是 各 种 自动 配置 铝 导 。 和 初次 安装 完 NetBackup 软 
件 之 后 ， 首 先 要 让 NetBackup 这 个 调度 员 识 别 到 网 络 上 的 每 台 介 质 服务 
器 ， 及 与 其 挂 接 的 各 种 用 于 备份 的 存储 设备 。 





图 16-100 NetBackup 主 界面 





1. 配置 存储 设备 





初次 运行 NetBackup 配 置 工 具 的 时 候 ， 可 以 通过 右 侧 窗口 的 加 
导 “Getting Started” 来 让 Master Server 扫 描 网 络 上 的 介质 服务 器 和 其 上 的 
磁带 库 设 备 ， 并 对 扫描 到 的 设备 以 及 磁带 做 一 些 配置 和 记录 ， 形 成 一 个 
初始 化 环境 。 


(1) 单 击 Getting Started 命 令 ， 出 现 如 图 16-101 所 示 的 对 话 框 。 





图 16-101 Getting Started 


(2) 单 击 “ 下 一 步 * 按 钮 ， 出 现 如 图 16-102 所 示 的 对 话 框 。 


图 16-102 Device Configuration 


(3) 对话 框 中 提示 ， 初 始 化 过 程 需要 4 个 步 又， 首先 扫描 所 有 网 络 
介质 服务 器 可 供 备 份 用 的 设备 。 单 击 “ 下 一 步 ” 按 钮 ， 出 现 图 16-103 所 示 
的 对 话 框 。 


图 16-103 ”扫描 介质 设备 


(4) 单 击 “ 下 一 步 * 按 钮 ， 如 图 16-104 所 示 ， 扫 描 到 一 个 介质 服务 
Bos 


图 16-104 ”扫描 到 一 个 介质 服务 器 








(5) 在 图 16-104 的 对 话 框 中 ， 可 以 选择 网 络 上 的 所 有 介质 服务 
器 ， 这 样 ， 就 可 以 扫描 这 些 服务 器 上 用 于 备份 的 存储 设备 了 ， 如 图 16- 
105 所 示 。 


图 16-105 ”扫描 到 介质 服务 器 上 的 设备 





(6) 扫 摘 结束 后 ， 单 击 “ 下 一 步 ? 按 钮 ， 出 现 如 图 16-106 所 示 的 对 
话 框 。 


图 16-106 ”设备 列表 





(7) 在 对 话 杠 中 会 列 出 所 有 检测 到 的 设备 的 状态 ， 但 是 图 16-106 
中 没有 找到 任何 设备 ， 这 可 能 是 由 于 主机 未 联 入 网 络 或 者 介质 服务 右 没 
有 安装 Media Server 模 块 。 单 击 “ 下 一 步 ” 按 钮 ， 出 现 如 图 16-107 所 示 对 话 


框 。 该 对 话 框 可 用 来 建立 一 个 人 硬盘 目录 ， 这 个 目录 可 供 备 份 文件 存放 ， 
但 不 是 必须 的 。 一 般 将 备份 后 的 数据 存 入 磁带 中 ， 用 磁盘 目录 存放 备份 
数据 的 一 个 好 处 就 是 可 以 作为 一 个 缓冲 ， 可 以 设置 NetBackup 在 一 定时 
间 后 ， 将 这 个 硬盘 上 的 数据 转移 到 其 他 备份 目标 中 。 








图 16-107 建立 本 地 磁盘 备份 目录 





(8) 单 击 “ 下 一 步 ” 按 钮 ， 出 现 如 图 16-108 所 示 的 对 话 框 。 


图 16-108 ”设置 完成 





(9) 单 击 “完成 ”按钮 ， 将 进入 Volume 配 置 界面 ， 如 图 16-109 所 


dl 





图 16-109 配置 Volume 

(10) 所 谓 Volume， 指 的 就 是 磁带 (在 后 面 会 详细 介绍 ) 。 这 一 
步 中 ，NetBackup 会 识别 所 有 人 磁带 库 中 的 磁带 ， 并 将 它们 编 入 默认 的 
Volume Group 中 供 使 用 。 单 击 * 下 一 步 ? 按 钮 继续 ， 出 现 如 图 16-110 所 示 
的 对 话 框 。 


图 16-110 ”设置 Catalog 备 份 





(11) 设置 Catalog 的 备份 。 所 谓 Catalog， 就 是 NetBackup 自 身 运 行 
所 需要 的 数据 ， 其 实 NetBackup 上 自身 管理 维护 着 一 个 小 型 数据 库 ， 数 据 
库 中 保存 了 NetBackup 的 所 有 配置 ， 以 及 所 有 磁 珊 、 设 备 、 备 份 策略 、 
过 期 时 间 每 信息 ， 如 果 Catalog 损 坏 ， 则 整个 NetBackup 将 会 瘫痪， 所 以 
备份 Catalog 目 身 也 是 非常 重要 的 。 这 就 像 医生 给 询 人 治 病 的 同时 ， 上 自己 
也 要 预防 疾病 一 样 。NetBackup 虽 然 是 一 个 备份 其 他 数据 的 软件 ， 但 是 
它 也 要 备份 好 自身 的 数据 ， 这 一 点 很 好 理解 。 单 击 “ 下 一 步 ” 按 钮 ， 如 图 





16-111 所 示 。 
图 16-111 Catalog 备 份 向 导 


(12) 单 击 “ 下 一 步 ” 按 钮 ， 如 图 16-112 所 示 。 





图 16-112 ”选择 Catalog 备 份 方式 


(13) 选择 “Online，hot catalog backup” 单 选 按钮 ， 单 击 “ 下 一 步 ? 按 
钮 ， 如 图 16-113 所 示 。 


图 16-113 ”创建 备份 策略 


(14) 创建 一 个 用 于 备份 Catalog 信 息 的 新 策略 ， 单 击 “ 下 一 步 ” 按 
钮 ， 如 图 16-114 上 所 示 。 


图 16-114 ”输入 策略 名 称 





(15) 输入 “btest*”， 单 击 “ 下 一 步 * 按 钮 ， 进 入 备份 方式 选择 窗口 ， 
如 图 16-115 所 示 。 


图 16-115 ”全 备 和 增 备 方式 选择 








(16) 选择 完全 备份 或 者 增 量 、 差 量 备份 。 单 击 “ 下 一 步 * 按 钮 继 
续 ， 如 图 16-116 所 示 。 











图 16-116 设置 Catalog 备 份 日 程 表 











(17) 设置 每 周 进 行 一 次 完全 备份 ， 每 个 备份 保留 期 限 为 两 周 ， 两 
周 过 后 ， 之 前 的 备份 就 认为 失效 ， 存 放 备 份 的 磁带 可 供 其 他 备份 使 用 ， 
如 图 16-117 所 示 。 





图 16-117 选择 具体 Catalog 备 份 日 程 表 








(18) 选择 具体 备份 时 间 ， 图 16-117 跨 越 了 所 有 时 间 ， 所 以 备份 可 
以 在 任何 时 间 内 发 生 。 继 续 。 


(19) 设置 备份 后 的 Catalog 信 息 存 放 位置 。 以 及 登录 操作 系统 所 需 
的 用 户 认证 信息 。 单 击 “ 下 一 步 ” 按 钮 继续 ， 如 图 16-118 所 示 。 


图 16-118 ”选择 Catalog 备 份 路 径 及 认证 信息 








(20) 设置 是 否 进 行 邮件 通知 ， 如 图 16-119 所 示 。 选 择 No 单 选 按 
钮 ， 单 击 “ 下 一 步 ” 按 钮 继续 ， 如 图 16-120 所 示 。 








图 16-119 ”是 否 邮 件 通 知 图 16-120 ”完成 设置 














(21) 完成 Catalog 备 份 策略 向 导 。 单 击 “ 下 一 步 ” 按 钮 ， 如 图 16-121 
所 示 。 





图 16-121 策略 列表 


选择 新 创建 的 策略 ， 单 击 “ 下 一 步 ? 按 钮 ， 即 可 完成 环境 的 初始 化 操 
作 。 


初始 化 后 ，Master Server 会 在 Media Server 列 表 中 自动 加 入 这 些 扫描 
到 的 介质 服务 器 ， 并 且 在 Storage ”Unit 中 列 出 扫描 到 的 机 械 手 设备 。 图 
16-122 所 示 的 是 介质 服务 器 列表 ， 图 16-123 所 示 的 是 备份 客户 端 列 表 。 


图 16-122 ”介质 服务 器 列表 





图 16-123 ”备份 客户 端 列表 





图 16-124 所 示 的 是 存储 单元 列表 。 





图 16-124 ”存储 单元 列表 


2. Storage Unit 


Storage Unit 《存储 单元 ) ， 是 一 个 逻辑 上 的 概念 。 它 表示 存储 设备 
中 管理 一 组 介质 的 单元 ， 对 于 磁带 库 设备 来 说 ， 一 个 机 械 手 就 可 以 掌管 
属于 它 的 所 有 磁带 ， 那 么 一 个 机 械 手 就 是 一 个 存储 单元 。 所 以 图 16-124 
中 ， 每 个 磁带 库 的 机 械 手 ， 都 被 认为 是 一 个 存储 单元 。 可 以 看 到 右 侧 窗 
口中 显示 了 10 个 机 械 手 设备 ， 但 是 物理 上 只 存在 两 个 ， 这 是 为 何 呢 ? 





因为 五 台 服 务 喜 共享 两 个 机 械 手 ， 每 全 服务 器 都 会 识别 到 两 合 磁 带 
库 的 机 械 手 ， 所 以 一 共 是 10 个 机 械 手 设备 。 实 际 使 用 的 时 候 ， 只 人 允许 其 
中 两 全 服务 器 同时 操纵 两 侣 磁带 库 设备 。 但 是 一 段 时 间 内 ， 五 合 服务 器 
均 有 机 会 操纵 磁 珊 库 ， 这 也 就 是 共 孚 磁 融 库 的 意义 了 。 














每 台 磁 带 库 中 的 可 用 介质 (磁带 ) 也 会 被 自动 添加 到 Media 项 ， 如 
图 16-125 所 示 。 


图 16-125 ”介质 (人 磁带) 列表 


图 16-125 中 的 Robots， 表 示 物 理 上 存在 的 磁带 库 的 机 械 手 ， 所 以 只 
有 两 个 。 石 侧 窗 口 所 示 的 是 识别 到 的 所 有 磁 市 ， 每 盘 磁 带 都 被 编 了 号 ， 
以 便 加 以 区 分 。 实 际 上 ， 每 盘 人 磁带 都 会 贴 有 一 个 条 人 码 ， 机 械 手 扫 描 这 个 
条 人 码 以 区 分 每 盘 磁 带 。 





3. 卷 池 (Media Pool) 


由 于 每 盘 磁 融 的 存储 容量 有 限 ， 如 果 有 备份 需要 用 到 多 于 一 盘 磁 
带 ， 则 如 何 分 配 并 在 分 配 后 记录 这 些 磁带 的 使 用 状况 ， 是 个 比较 麻烦 的 
问题 。 为 了 使 管理 更 加 方便 ，NetBackup 引 入 了 卷 池 (Media Pool) 的 概 
仿 。 这 就 像 磁 盘 阵 列 设备 将 每 个 物理 磁盘 合并 ， 并 再 分 割 成 更 大 的 
Volume 或 者 虚拟 磁盘 一 样 ， 人 磁带 同样 可 以 这 样 被 虚拟 化 ， 如 图 16-126 和 
图 16-127 所 示 。 


图 16-126 ” 卷 池 (1) 





图 16-127 卷 池 (2) 


我 们 看 到 ，Volume Pools 项 之 下 的 11 个 卷 池 ， 其 中 名 为 NetBackup 的 
卷 池 包含 了 11 盘 磁带 。 而 名 为 bbpserv_filesytem 的 卷 池 ， 只 包含 了 一 盘 
磁带 。 有 了 卷 池 之 后 ， 就 可 以 把 卷 池 中 的 所 有 磁带 ， 当 成 一 个 大 的 虚拟 
磁带 来 看 符 。 我 们 可 以 为 每 个 竺 备份 的 数据 项 目 分 配 一 个 卷 池 ， 每 次 备 
份 的 数据 只 存放 在 这 个 卷 池 中 ， 其 他 卷 池 中 的 磁带 不 会 给 这 个 备份 所 使 
用 ， 这 样 就 做 到 了 充分 的 资源 隅 离 。 卷 池 可 以 手动 创建 并 且 在 不 冲突 的 
前 提 下 任意 添加 磁带 ， 如 图 16-128 和 图 16-129 所 示 。 








图 16-128 ”新 建 卷 池 图 16-129 ”输入 名 称 和 描述 





4. 卷 组 (Media Group) 





这 也 是 一 个 逻辑 上 的 概念 ， 下 图 中 显示 了 两 个 郑 组 ， 每 个 磁 市 库 中 
的 磁带 ， 都 放 到 了 一 个 单独 的 组 中 。 卷 组 在 实际 使 用 上 没有 很 大 的 意 
义 。 卷 组 不 能 手动 创建 ， 默 认 每 个 机 械 手 就 会 生成 一 个 卷 组 ， 如 图 16- 
130 所 示 。 


图 16-130” 卷 组 





5. Robots (机 械 手 ) 


如 图 16-131 所 示 ， 左 侧 显 示 的 是 机 械 手 。 





图 16-131 左 侧 显示 的 机 械 手 


这 个 项 下 面 显示 了 整个 备份 系统 中 所 存在 的 物理 机 械 手 的 数量 ， 碳 
侧 窗 口中 显示 了 对 应 机 械 手 所 掌管 的 磁带 。 


6. Standalone( 非 共享 的 机 械 手 ) 





如 图 16-132 所 示 是 Standalone 机 ” 国 16132 Standalone 机 城 手 
械 手 。 


如 果菜 人 台 介 质 服务 器 独立 掌管 一 台 磁 带 库 的 机 械 手 ， 而 没有 共 至 给 
其 他 主机 使 用 ， 则 NetBackup 识 别 到 这 种 设备 之 后 ， 就 会 显示 在 右 侧 窗 
口中 。 本 例 中 没有 这 种 设备 。 





7. Devices (设备 ) 


这 一 项 列 出 了 整个 系统 中 所 有 可 用 于 备份 的 物理 存储 设备 ， 如 图 
16-133 所 示 。 




















图 16-133 ”所 有 可 用 于 备份 的 介质 设备 





右 侧 窗 口中 的 拓扑 图 显示 了 两 台 磁 带 库 和 四 全 独立 磁带 机 ， 并 有 连 
线 。 市 有 此 轮 标 志 的 为 介质 服务 器 ， 右 上 方 的 图 标 为 磁 融 库 ， 其 中 还 显 


示 了 机 械 手 、 磁 带 槽 和 两 个 驱动 器 ， 驱 动 右 下 面 的 手 托 表明 这 个 驱动 器 
为 共 孚 驱动 器 ， 也 就 是 说 其 他 主机 也 可 以 操作 这 个 驱动 器 。 





右 侧 窗口 的 下 半 部 分 显示 了 所 有 逻辑 而 不 是 物理 设备 。 由 于 共享 驱 
动 器 的 原因 ， 本 例 中 的 逻辑 驱动 器 变 为 了 12 个 (三 台 服 务 器 ， 每 台 识 别 
到 四 个 驱动 器 〉， 再 加 上 独立 的 磁带 机 ， 共 有 16 个 驱动 器 ， 如 图 16-134 
所 示 。 





图 16-134 ”设备 列表 
同 理 ， 逻 辑 机 械 手 也 有 6 个 而 不 是 3 个 ， 如 图 16-135 所 示 。 
图 16-135 ”逻辑 机 械 手 


如 果 选 中 Devices 项 下 面 的 某 台 主机 设备 ， 便 可 在 右 侧 窗口 的 下 半 
部 分 显示 这 台 主 机 掌管 的 驱动 器 或 者 机 械 手 ， 如 图 16-136 所 示 。 





图 16-136 每 台 主机 包含 的 设备 





并 且 在 右 侧 窗口 的 上 半 部 分 ， 就 会 突出 这 台 设 备 所 连接 的 连 线 ， 如 
图 16-137 所 示 。 


图 16-137 拓扑 连 线 


图 中 黑色 连 线 表示 microcct 主 机 目前 所 连接 的 设备 有 : 两 台独 立 磁 
带 机 驱动 器 、 两 台 人 磁带 库 中 的 共享 驱动 器 。 


8.， Standalone Drivers (独立 驱动 器 ) 


如 果 某 人 台 介 质 服 务 器 上 有 自己 的 独立 磁带 机 一 个 驱动 右 ， 没 有 机 





械 手 ) ， 则 NetBackup 识 别 到 之 后 ， 就 会 在 这 个 项 目下 显示 出 来 。 本 例 
中 共有 4 台独 立 磁 带 机 ， 如 图 16-138 所 示 。 





图 16-138 ”独立 磁带 机 列表 及 拓扑 





提示 : 拓扑 图 中 所 有 独立 磁带 机 的 连接 线 都 用 黑色 加 重 了 。 


以 上 介绍 了 NetBackup 配 置 工具 的 一 些 基 本 组 成 。 下 面 通过 一 个 实 
例 来 说 明 如 何 备份 bbpsrv 这 台 服 务 器 上 的 DB2 数 据 库 。 


16.3.8 ”配置 DB2 数 据 库 备份 
1. 建立 备份 策略 


(1) 首先 建立 一 个 备份 策略 ， 命 名 为 "bbpsrv_db2_bak”， 如 网 16- 
139 所 示 。 


图 16-139 ”创建 备份 策略 


(2) 单 击 New Policy 命 令 ， 输 入 名 称 之 后 ， 显 示 如 图 16-140 所 示 的 
对 话 框 。 





图 16-140 ”新 策略 窗口 








(3) 在 Policy Type 中 我 们 选择 “DB2”， 使 NetBackup 调 用 与 DB2 备 
份 相关 的 模块 。 在 Policy Volume Pool 下 ， 选 中 专门 为 这 个 备份 所 创建 的 
卷 池 “bbpsrv”。 


2. 在 策略 中 添加 时 间 表 


切换 到 Schedules 选 项 卡 ， 设 置 什 么 时 间 进 行 数据 备份 ， 以 及 每 次 备 
份 最 多 允许 花费 多 长 的 时 间 等 。 





进入 Schedules 选 项 卡 ， 窗 口中 已 经 包含 了 一 个 名 为 Default- 
Application-Backup 的 Schedule， 这 个 Schedule 是 备份 DB2 数 据 库 所 必需 
的 ， 因 为 备份 时 需要 调用 的 脚本 中 的 Schedule 名 称 就 是 Default- 
Application-Backup。 双 击 这 个 Schedule， 弹 出 如 图 16-141 所 示 的 对 话 
框 。 


图 16-141 编辑 策略 属性 























其 中 Type of backup 为 Application Backup， 表 明 这 个 Schedule 是 用 于 
由 应 用 程序 自主 发 起 的 备份 。 如 条 没有 这 个 Schedule， 则 应 用 程序 就 不 
能 调用 Netbackup 提 供 的 接口 而 把 数据 发 送 给 NetBackup， 因 为 策略 中 没 
有 人 允许 应 用 程序 这 么 做 。 


我 们 所 要 实现 的 ， 不 仅仅 是 手动 从 应 用 程序 发 起 备份 ， 而 是 让 
NetBackup 目 动 根 据 设 定 的 时 间 来 备份 ， 所 以 需要 增加 一 个 Schedule。 单 
击 下 方 的 New 按 钮 。 





将 这 个 Schedule 命名 为 “Auto_Fullj”，Type of backup 选 择 Automatic 
Full Backup， 如 图 16-142 所 示 。 


图 16-142 ”给 日 程 起 名 





Frequency 选 择 每 天 备份 一 次 。Retention (保留 ) 选择 将 备份 保留 两 
周 ， 两 周 后 ， 对 应 的 磁带 就 可 以 被 抹 掉 或 者 用 于 其 他 备份 。 然 后 切换 到 
Start Windows 选 项 卡 ， 如 图 16-143 上 所 示 。 





图 16-143 ”选择 具体 备份 窗口 时 间 








这 里 设置 ， 每 天 0 点 开始 备份 ， 凌 晨 5 点 络 束 备份 。 如 果 由 于 茶 种 原 
因 ， 备 份 持续 了 超过 5 小 时 ， 则 NetBackup 会 执行 完 当 前 备份 。 如 果 还 有 
其 他 备份 需要 在 这 5 个 小 时 中 执行 ， 则 茶 止 其 执行 ， 直 到 第 二 天 的 0 点 ， 
再 接着 执行 上 次 未 执行 的 备份 ， 依 此 类 推 。 


3. 选 定 需要 备份 的 客户 机 


接着 切换 到 Clients 选 项 卡 ， 如 图 16-144 所 示 。 





图 16-144 ”设置 要 备份 的 客户 端 








单 击 New 按 钮 ， 浏 览 或 者 输入 要 备份 的 服务 器 ， 即 bbpsrv 这 人 台 计 算 
机 。 期 间 会 提示 选择 这 台 计 算 机 的 操作 系统 类 型 ， 这 里 选择 Windows 
2000。 然 后 切换 到 Backup Selections 选 项 卡 。 在 前 三 个 选项 卡 中 ， 已 经 
定义 了 备份 类 型 、 备 份 发 生 的 时 间 和 持续 时 间 、 所 需 备 份 的 服务 器 ， 而 
唯 独 缺 少 了 最 重要 的 内 容 ， 即 备份 这 台 服 务 器 上 的 哪些 东西 。 在 Backup 
Selections 选 项 卡 来 完成 这 个 策略 的 最 后 一 步 : 定义 备份 哪些 内 容 。 











4. 选择 需要 备份 的 内 容 或 者 需要 执行 的 脚本 


在 Clients 选 项 卡 中 单 击 New 按 钮 ， 出 现 如 图 16-145 所 示 的 界面 。 











图 16-145 ”选择 备份 内 容 或 者 需要 执行 的 备份 脚本 


然后 单 击 按钮 ， 来 浏览 客户 机 上 的 文件 ， 如 图 16-146 所 示 。 











图 16-146 ”选择 要 备份 的 文件 或 者 要 执行 的 脚本 





选中 需要 备份 的 目录 或 者 文件 之 后 ， 早 击 OK 按 钮 。 





本 例 需 要 备份 的 是 数据 库 数 据 ， 备 份 数据 库 如 有 果 只 备份 数据 文件 ， 
恢复 的 时 候 是 不 够 的 ， 况 且 ， 如 采 是 online 备 份 ， 则 必须 用 数据 库 自 己 
提供 的 工具 来 备份 ， 才 会 得 到 可 用 的 镜像 ， 仅 仅 把 数据 文件 复制 一 份 ， 
这 种 备份 是 不 能 用 作 恢 复 的 。 所 以 这 个 例子 中 ， 需 要 在 竺 备份 的 计算 机 
上 运行 DB2 数 据 库 相 关 的 备份 命令 来 备份 数据 库 。 这 些 命令 都 存在 于 一 
个 预先 由 NetBackup 编 辑 好 的 批 处 理 脚本 文件 中 。 





找到 这 个 文件 ， 其 路 径 位 于 符 备 份 计算 机 NetBackup 安 装 目 录 下 : 


C: \Program 
Files\VERITAS\NetBackup\DbExt\DB2\db2_backup_db_online.cmd 


选中 这 个 文件 ， 单 击 OK 按钮 ， 结 果 如 图 16-147 所 示 。 
图 16-147 ”选择 要 执行 的 脚本 


可 以 看 到 ，NetBackup 已 经 识别 出 这 个 脚本 ， 无 侧 的 图 标 已 经 变 


脚本 的 内 容 如 下 : 


@REM $Revision: 1.2 $ 
@REM bcpyrght 


@REM 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 


@REM * $VRTScprght: Copyright 1993 - 2003 VERITAS Software Co 
REM * 光 六 炎炎 关 光 风光 光 奖 关 光 风光 光 次 交 光 次 交 风灾 次 光 次 交 光 奖 次 光 次 交 风光 风灾 次 光 次 奖 风 交火 次 交 类 风 交火 次 交 类 内 
@REM ecpyrght 

@REMESS 
@REM 


@REM 


This script is provided as an example. See the instructi 


Q@REM for making customizations to work within your environmen 
@REM 

@REM Please copy this script to a safe location before custom 
@REM Modifications to the original files will be lost during 
@REM 

Q@REM This script performs an online backup of the database. Air 
@REM requires that the database is configured for forward rec 
Q@REM DB2 USEREXIT and LOGRETAIN settings). DB2 Users can rema: 
@REM while performing an online backup. 

@REM 

Q@REM To back up a database or a database partition, the user 
Q@REM SYSCTRL, or SYSMAINT authority. 

@REVEEE EE 
Q@echo off 

@setlocal 

Q@REM !!!!! START CUSTOMIZATIONS !!!1!! 

@REM 

Q@REM The following changes need to be made to make this scrip 
Q@REM environment: 

@REM 

@REVEES EE 
@REM (1) NetBackup for DB2 shared library: 

@REVESE EE 
@REM This is the NetBackup library that backs up and resto 
@REM Set db2 nblib below to the correct NetBackup library 


@REM 


Q@REM Example: @set db2 nblib=C:\progra~1i\veritas\netbackup\bi 
@set db2_nblib= 
Q@echo db2_nblib = %db2 nblib% 


@REM This is the DB2 home directory where DB2 is installed 
@REM Set db2 home to DB2 home directory 

@REM 

Q@REM Example: @set db2 home=D:\sqllib 

@set db2_home= 


Q@echo db2 home = %db2 home% 


Q@REM Example: @set db2 name=SAMPLE 
Q@set db2_ name= 


Q@echo db2 name = %db2 name% 


@REVEEE EE 
@REM Concurrency can improve backup performance of large d 
@REM Multiple sessions are used to perform the backup, wit 
@REM backing up a subset of the database. The sessions opel 


@REM concurrently, reducing the overall time to backup the 


@REM This approach assumes there are adequate resources av 


@REM multiple tape devices and/or multiplexing enabled. 
@REM 
@REM For more information on configuring NetBackup multipl 


@REM refer to the "Veritas NetBackup System Administrator' 
@REM 

@REM If using multiple sessions change db2_ sessions to use 
@REM 

Q@REM Example: @set db2 sessions="OPEN 2 SESSIONS WITH 4 BUFFE 
@set db2_ sessions= 


Q@REM !!1!!! END CUSTOMIZATIONS !1!1!!! 


Q@echo DB2_ POLICY = %DB2_ POLICY% 

Q@echo DB2_SCHED = %DB2 SCHED% 

Q@echo DB2_CLIENT = %DB2_ CLIENT% 

Q@echo DB2_SERVER = %DB2_SERVER% 

Q@echo DB2_USER_INITIATED = %DB2_USER_INITIATED% 
Q@echo DB2_FULL = %DB2_FULL% 

Q@echo DB2_CINC = %DB2_CINC% 

Q@echo DB2_INCR = %DB2_INCR% 

Q@echo DB2_SCHEDULED = %DB2_SCHEDULED% 


Q@echo STATUS_FILE = %STATUS_FILE% 


@REM NetBackup policies for DB2 recognize different 
@REM backup types, i.e. full, cumulative, and differential 
@REM For more information on NetBackup backup types, pleas 


@REM NetBackup for DB2 System Administrator's Guide. 


Q@REM Use NetBackup variables to set DB2 full or incrementa 


Q@set db2 action= 


if "%DB2_FULL%" == "1" @set db2 action=ONLINE 
If "%DB2_CINC%" == "1" @set db2 action=ONLINE INCREMENTAL 
if "%DB2_INCR%" == "1" @set db2 action=ONLINE INCREMENTAL DEL 


echo db2 action = %db2 action% 
@ 


Q@REM Actual command that will be used to execute a backup 
Q@REM Note: the parameters /c /w /i and db2 should be used wit 


Q@REM Without them, NetBackup job monitor may not function pro 


@set CMD_FILE=%temp%\cmd_file 

Qecho CMD_FILE = %CMD FILE% 

@set CMD_LINE=%db2_ home%\bin\db2cmd.exe /c /w /i db2 -f %CMD 
Qecho CMD_ LINE = %CMD LINE% 

@echo BACKUP DATABASE %db2 name% %db2 action% LOAD %db2_ nblib 
@echo BACKUP DATABASE %db2_ name% %db2 action% LOAD %db2_ nblib 


@echo Executing CMD=%CMD_LINE% 

%CMD_LINE% 

Q@REM Successful Backup 

if errorlevel 1 goto errormsg 

echo BACKUP SUCCESSFUL 

if "%STATUS_ FILE%" == "" goto end 

if exist "%STATUS FILE%" echo 0 > "%STATUS FILE%" 
goto end 

:CUStom err_msg 

echo This script must be customized for proper operation in y 
@REM Backup command unsuccessful 

:errormsg 

echo Execution of BACKUP command FAILED - exiting 
if "%STATUS_ FILE%" == "" goto end 

if exist "%STATUS FILE%" echo 1 > "%STATUS FILE%" 
:end 


Q@endlocal 


经 过 这 样 的 配置 之 后 ， 在 每 天 的 0 点 ，Master Server 便 会 发 送 指令 给 
bbpsrv 上 的 NetBackup 客 户 端 ， 让 和 它 执 行 这 个 脚本 。 此 脚本 中 的 命 
告诉 DB2 数 据 库 备 份 数据 库 并 且 调 用 一 个 DLL 链接 库 文 件 ， 将 数据 通 
SAN 网 络 发 送 到 相应 卷 池 上 所 在 的 磁带 库 上 ， 从 而 被 写 入 磁带 。 


5. 监控 备份 执行 状况 


可 以 通过 下 面 的 方法 监控 备份 执行 的 状况 ， 如 图 16-148 所 示 。 


图 16-148 ”监控 备份 状态 








右 侧 窗 口 的 下 半 部 分 显示 了 备份 运行 的 状况 ， 如 果 成 功 备 份 ， 则 显 
示 一 个 监 色 小 人 成 功 举 起 的 图 标 ， 如 果 备 份 正 在 运行 ， 则 显示 一 个 绿色 
小 人 正在 奔跑 的 图 标 ; 如果 备 份 任务 正在 等 待 ， 则 显示 三 个 绿色 小 人 排 
队 的 图 标 ; 如 果 任 务 失 败 ， 则 显示 圆 形 红 色差 号 。 





对 于 其 他 服务 器 ， 可 以 用 同样 的 步骤 来 备份 ， 这 里 就 不 再 详 述 了 。 


16.4 “与 业务 应 用 相 结合 的 快照 备份 和 容 灾 


16.3 一 节 末 尾 所 介绍 的 备份 DB2 数 据 库 的 方法 ， 其 实 只 是 调用 了 
DB2 自 号 所 提供 的 API 而 已 ，DB2 将 数据 通过 API 传 输 给 备份 软件 代理 ， 
然后 备份 软件 将 收 到 的 数据 号 入 对 应 的 存储 介质 中 。 包 括 各 大 备份 软件 
对 Oracle 的 备份 ， 其 实 也 都 是 这 样 ， 将 Oracle 置 于 热 备 模式 下 ， 然 后 将 
其 对 应 的 数据 文件 以 及 配套 日 志 复 制 出 来 保存 ， 或 者 利用 RMAN 提 供 的 
API 来 实现 数据 备份 。 这 些 备份 方式 都 需要 影响 到 业务 主机 ， 都 需要 由 
业务 主机 将 对 应 的 数据 提取 出 来 传送 给 备份 代理 ， 然 后 备份 代理 程序 将 
其 写 入 存储 介质 。 这 种 备份 所 耗费 的 时 间 会 很 长 ， 因 为 涉及 到 实际 的 数 
据 移动 ， 所 以 备份 过 程 中 对 主机 资源 会 有 持续 的 耗费 。 





而 如 果 能 够 下 接 在 这 些 应 用 程序 存储 数据 的 磁盘 阵列 设备 中 对 相应 
的 数据 做 备份 的 话 ， 那 么 就 完全 可 以 实现 Server-Free 了 。 在 磁盘 阵列 设 
备 中 如 何 对 数据 做 备份 呢 ? 磁盘 阵列 所 能 做 的 束 是 直接 将 整个 LUN 中 的 
数据 传输 到 另外 的 位 置 。 由 于 LUN 中 的 数据 是 不 断 变化 的 ， 所 以 阵列 必 
须 移 对 这 个 LUN 做 一 份 快 照 ， 然 后 将 这 份 快 照 数据 通过 茶 种 方式 传输 到 
备份 目标 存储 空间 中 。 在 做 快照 时 ， 必 须 保 证 应 用 程序 层面 的 一 致 性 ， 
这 也 就 意味 着 应 用 程序 需要 将 其 缓存 中 的 脏 数据 或 者 日 志 刷 盘 之 后 ， 阵 
列 再 对 相应 的 LUN 做 快照 ， 此 时 做 出 来 的 快照 才 是 应 用 层 一 致 的 。 所 
以 ， 主 机 端 需 要 有 一 个 主机 代理 程序 来 负责 通知 对 应 的 应 用 程序 ， 调 用 
应 用 程序 提供 的 API 让 其 处 于 归档 模式 或 者 静默 模式 ， 之 后 代理 通知 阵 
列 做 快照 ， 或 者 可 以 利用 VSS 框 架 来 实现 对 多 种 应 用 的 一 致 性 支持 。 快 
照 做 完 之 后 ， 这 份 快 照 就 相当 于 一 份 一 致 的 备份 数据 集 了 ， 此 时 可 以 将 
其 通过 dump 的 格式 直接 写 入 磁 市 中 ， 或 者 通过 网 络 将 其 传输 到 男 一 台 
阵列 的 LUN 中 保存 。 对 于 后 续 的 备份 ， 可 以 实现 增 量 备份 ， 比 如 再 次 做 











快照 ， 将 这 份 最 新 快照 与 上 一 次 备份 时 产生 的 快照 做 比 对 ， 比 对 快照 中 
的 bitmap， 将 两 份 bitmap 做 OR 运 算 ， 得 出 的 结果 bitmap 中 为 1 的 则 标示 
变化 的 块 ， 后 续 只 要 将 这 些 变化 的 块 同步 到 远程 阵列 或 者 利用 dump 格 
式 再 次 写 入 磁带 即 可 。 


上 述 过 程 只 体现 了 “与 业务 应 用 相 结合 ”这 个 思想 的 一 部 分 ， 也 就 是 
保证 数据 一 致 性 。 这 个 思想 的 另 一 部 分 则 是 体现 在 对 业务 底层 所 使 用 的 
存储 空间 的 全 面 管 理 ， 以 及 对 业务 的 细 粒 度 备 份 和 恢复 方面 。 


如 图 16-149 所 示 为 一 个 上 文中 提 到 的 主机 端 代理 (Driver Agent， 作 
者 自 创 的 名 词 ， 并 非特 指 某 球 产 品名 称 〉 的 架构 图 ， 这 个 代理 其 实 就 是 
快照 代理 的 一 个 升级 版 。 可 以 从 图 中 看 到 它 所 支持 的 功能 ， 作 为 一 个 高 
级 卷 管理 角色 ， 不 但 可 以 直接 从 阵列 端 要 存储 空间 ， 而 不 是 在 阵列 端 配 
置 然 后 映射 给 主机 ， 还 可 以 创建 快照 、 挂 载 这 些 快照 等 。 如 图 16-150 所 
示 为 App ”Agent( 作 者 自 创 的 名 词 ， 并 非特 指 某 球 产品 名 称 〉 的 架构 
图 ， 其 可 以 与 各 种 应 用 程序 以 及 VSS 框 架 交 互 ， 可 以 感知 应 用 程序 的 内 
部 信息 ， 比 如 实例 名 、 数 据 文 件 和 所 在 的 存储 空间 等 ， 并 且 可 以 将 对 应 
的 应 用 数据 迁移 到 其 他 存储 位 置 。 这 个 代理 通过 调用 Driver Agent 的 功 
能 来 实现 对 应 用 系统 数据 的 恢复 ， 可 以 做 到 细 粒 上 度 的 备份 和 恢复 ， 比 如 
只 备份 某 个 数据 库 实 例 ， 只 备份 菜 个 Exchange ”Mailbox， 只 恢复 某 个 


5 所 
Mailbox 等 。 














图 16-149 Driver Agent 软 件 架 构图 








图 16-150 Driver Agent 与 APP Agent 交 互 架 构图 





目前 这 种 备份 架构 对 应 的 产品 有 比如 EMC 的 Replication Manager 以 
及 NetApp 的 SnapManager， 以 及 华为 赛 门 铁 克 的 HostAgent 产 品 。 


另外 ， 在 对 虚拟 机 的 备份 过 程 中 ， 一 些 备份 软件 可 以 利用 Vmware 
所 提供 的 一 些 存储 API 实 现 一 些 高 级 功能 ， 比 如 茶 备 份 软件 厂商 所 实现 
的 Active Block Mapping 功 能 。 我 们 知道 ， 有 些 备份 软件 是 直接 将 
Vmware 宿 主机 上 VMEFS 下 面 的 VMDK 虚 拟 机 虚拟 磁盘 文件 备份 下 来 
的 ， 而 这 些 磁盘 如 果 是 被 NTFS 文 件 系统 所 格式 化 并 且 管 理 使 用 的 ， 那 
么 NTFS 中 实际 占用 虚拟 磁盘 空间 的 文件 可 能 并 没有 占用 全 部 虚拟 磁盘 
的 空间 ， 那 么 此 时 备份 软件 是 无 法 感知 到 这 一 点 的 ， 它 只 能 将 整个 
VMDK 文 件 备份 下 来 ， 浪 费 了 大 量 存 储 空间 和 网 络 带 宽 。 


而 这 个 Active Block Mapping 功 能 通过 调用 Vmware 所 提供 的 APT， 
检测 VMDK 中 实际 被 NTFS 文 件 系统 占用 的 块 ， 然 后 将 NTFS 中 的 剩余 空 
间 填 0， 此 处 * 填 0? 并 不 是 真 的 去 回 其 中 写 入 0x00， 而 是 使 用 元 数据 记录 
这 些 0x00 的 位 置 以 及 长 度 。 我 们 知道 ， 所 有 文件 系统 都 会 使 用 bitmap 来 
记录 当前 文件 系统 所 在 的 底层 磁盘 / 卷 空 间 块 的 占用 和 空闲 状态 ， 备 份 
软件 只 要 将 这 份 位 图 从 对 应 的 虚拟 机 文件 中 提取 出 来 便 可 知道 到 底 这 个 
文件 中 哪些 区 段 是 空闲 的 ， 然 后 备份 软件 在 备份 这 个 VMDK 文 件 时 内需 
要 将 文件 中 被 NTFS 所 占用 的 部 分 从 底层 磁盘 中 读 取 出 来 连续 存放 即 
可 。 当 恢复 的 时 候 ， 系 统 会 根据 这 份 位 图 来 实时 地 向 对 应 的 VMDK 恢 复 
流 中 填 入 0《〈 在 内 存 中 填 入 ) ， 之 后 将 数据 发 送 给 恢复 目标 介质 。 这 样 
就 大 大 降低 了 磁盘 IO 压力 以 及 网 络 传输 的 带宽 压力 。 











第 17 章 ” 滞 公 移 山 一 一 大 话 数 据 容 
灾 
a 木 地 站 点 
远程 站 点 


四 数据 通路 
自问 步 复制 


四 基于 主机 的 数据 复制 
四 基于 存储 的 数据 复制 


数据 备份 系统 只 能 保证 数据 被 安全 地 复制 了 一 份 ， 但 是 一 旦 生产 系 
统 及 生 故 障 ， 比 如 服务 器 磁盘 损坏 致使 数据 无 法 该 写 、 主 板 损坏 造成 下 
接 无 法 开机 或 者 机 房 火灾 等 意外 事件 ， 我 们 必须 将 备份 的 数据 尽快 地 恢 
复 到 生产 系统 中 继续 生产 ， 这 个 动作 就 叫做 容 灾 。 容 灾 可 以 分 为 四 个 级 
别 : 数据 级 容 灾 ， 也 就 是 只 考虑 将 生产 站 点 的 数据 如 何 同 步 到 远程 站 点 
即 可 ， 与 应 用 结合 的 数据 级 容 灾 ， 也 就 是 可 以 保证 对 应 应 用 程序 数据 一 
致 性 的 数据 同步 ， 以 及 可 感知 应 用 层 数据 络 构 的 、 有 选择 的 同步 部 分 天 
键 重要 数据 的 数据 容 灾 ; 应 用 级 容 灾 ， 也 就 是 灾难 发 生 时 ， 不 仅 可 以 保 
证 原本 生产 站 点 的 数据 在 灾 备 份 站 点 可 用 ， 而 且 还 要 保证 原生 产 系 统 中 
的 应 用 系统 比如 数据 库 、 邮 件 服务 在 灾 备 份 站 点 也 可 用 ; 业务 级 容 灾 ， 

















除了 保证 数据 、 应 用 系统 在 灾 备 份 站 点 可 用 之 外 ， 还 要 保障 整个 企业 的 
业务 系统 仍 对 外 可 用 ， 这 里 面 束 包含 了 IT 系统 可 用 、IT 管 理 部 门 可 用 、 
业务 逻辑 部 门 可 用 、 对 外 服务 部 门 可 用 等 ， 是 最 终 层次 的 容 灾 。 





17.1 容 灾 概 述 


有 些 事件 中 ， 很 多 公司 就 是 因为 没有 远程 容 灾 系统 ， 导 致 数据 全 部 
毁 于 一 旦 ， 客 户 数据 丢失 、 公 司 倒 财 ， 受 损失 的 不 仅 是 公司 ， 还 有 客 
户 。 如 果 要 充分 保障 系统 和 数据 的 安全 ， 只 是 在 本 地 将 数据 进行 备份 还 
远 远 不 够 ， 还 必须 在 远程 地 点 建立 男 外 一 个 系统 ， 并 包含 当前 生产 系统 
的 全 部 数据 备份 。 这 样 在 本 地 系统 及 生 故 障 的 时 候 ， 远 程 备 份 系统 可 以 
局 动 ， 继 续 生 产 。 











要 实现 这 样 一 个 系统 ， 首 先 ， 应 保证 主 生产 系统 的 所 有 数据 实时 地 
传输 到 远程 备份 系统 。 其 次 ， 主 系统 发 生 故 障 之 后 ， 必 须 将 应 用 程序 也 
切换 到 远程 备份 系统 上 继续 运行 。 应 用 程序 是 一 个 企业 生产 流程 的 代码 
化 表示 ， 只 有 应 用 程序 正在 运行 ， 这 个 企业 才 处 于 生产 过 程 中 ， 而 应 用 
程序 的 成 功 运行 ， 又 必须 依赖 于 底层 数据 。 





俗话 说 ， 巧 妇 难 为 无 米 之 人 次 。 我 们 的 应 用 程序 ， 比 如 Exchange 邮 和 件 
转发 系统 、SAP 企 业 ERP 系 统 、Lotus Notes 办 公 自 动 化 系统 等 ， 这 些 就 
好 比 巧 妇 ， 而 保存 在 磁盘 上 的 数据 ， 比 如 用 户 的 邮件 、ERP 系 统 的 数据 
库 文 件 、 办 公 上 自动化 系统 上 自 映 的 数据 文件 等 ， 束 好 比 大米 ， 巧 妇 用 她 高 
超 的 厨 芷 ， 将 大 米 做 成 熟 饭 ， 供 消费 者 购买 。 





这 就 是 一 个 企业 生产 的 基本 和 雏形， 企业 《〈 巧 妇 ) 用 应 用 程序 〈( 蜗 超 
的 厨 艺 ) 来 处 理 各 种 数据 《大 米 ) ， 最 终生 成 新 的 数据 (米饭) ， 供 消 
费 者 购买 。 而 巧 妇 所 利用 的 锅 碗 味 盆 、 水 、 电 、 煤 气 等 也 必 不 可 少 ， 比 
如 服务 上 器 、 便 盘 、 网 络 通 信 设 施 、 电 源 等 这 些 芽 系统 必要 组 件 。 下 面 来 
对 比 一 下 厨房 和 I 开 系 统 机 房 ， 如 表 17-1 所 示 。 





表 17-1 厨房 与 机 房 





生产 者 厨师 ， 用 生产 工具 来 加 工 生产 资料 ， 获 得 产品 。 同 样 ， 各 种 
应 用 程序 ， 运 行 在 服务 硕 上 ， 将 各 种 原始 数据 加 工 修改 ， 产 生 客 户 需要 
的 信息 。 二 者 在 本 质 上 是 相同 的 。 





基于 这 个 生产 模型 ， 我 们 把 一 个 企业 IT 生产 系统 划分 为 4 个 组 件 : 
生产 资料 、 生 产 工 具 、 生 产 者 、 产 品 。 要 实现 整个 IT 系统 的 容 灾 ， 那 么 
必然 要 实现 上 述 所 有 4 个 组 件 的 容 灾 。 然 而 ，IT 系 统 的 产品 和 原始 数据 
往往 都 存放 在 同一 位 置 ， 比 如 同一 个 卷 、 同 一 台 盘 阵 等 。 本 章 不 描述 产 
品 的 容 灾 ， 因 为 其 与 生产 资料 的 容 灾 本 质 是 相同 的 。 





思考 : 厨房 的 容 灾 。 大 家 不 要 天 ， 厨 房 容 灾 ， 这 个 名 词 是 不 
是 太 萄 唐 了 。 现 在 貌似 是 的 ， 但 是 战争 年 代 ， 厨 房 容 灾 将 是 必 
备 的 。 人 是 铁 饭 是 钢 ， 关 键 时 刻 看 厨房 。 我 想 厨 房 容 灾 这 个 话 
题 ， 广 大 读者 应 该 比 IT 工 作者 的 办 法 更 多 了 。 比 如 ， 在 为 外 一 
个 隐 贡 地 点 建立 一 个 厨房 ， 柴 米 油 盐 桨 酪 茶 、 锅 克 味 盆 炉 灶 勺 
都 储存 到 这 个 厨房 中 作为 储备 粮 和 储备 工具 ， 一 旦 当前 厨房 被 
栈 人 摧毁 ， 立 即 局 用 备用 厨房 ， 厨 师 全 部 转移 到 备用 厨房 继续 
做 饭 。 这 没 哈 难度。 的 确 ， 谁 都 可 以 想 出 这 样 的 办 法 。 那 么 我 
们 看 看 能 否 用 这 个 思想 来 建立 IT 系统 的 容 灾 。 








生产 工具 的 容 灾 


像 厨 房 容 灾 一 样 ， 在 另 一 个 地 点 建立 一 个 IT 机 房 ， 服 务 器 、 网 络 设 
施 、 人 磁盘 阵列 设施 等 一 应 俱全 。 当 然 ， 出 于 成 本 因素 ， 备 用 地 点 的 设备 
不 一 定 非 要 与 主 系 统 中 的 生产 工具 规格 和 性 能 完全 相同 ， 在 性 能 和 容量 
上 的 要 求 可 以 适当 降低 ， 但 至 少 要 满足 生产 需求 。 





下 面 将 主要 讲解 生产 资料 的 容 灾 和 生产 者 的 容 灾 。 


17.2 ”生产 资料 容 灾 一 一 原始 数据 的 容 灾 


IT 系统 的 生产 资料 ， 即 各 种 原始 录入 数据 。 它 和 实物 化 的 生产 资料 
比如 大 米 ， 有 很 大 不 同 。 








第 一 ，IT 数 据 是 可 以 任意 复制 ， 并 可 以 复制 多 份 的 数据 。 


第 二 ，IT 系 统 数 据 是 不 断 变化 的 ， 在 生产 的 同时 ， 原 始 数据 将 会 不 
晰 地 变化 ， 甚 全 产品 数据 会 覆盖 原始 数据 。 





基于 IT 数据 的 这 两 个 特点 ， 在 IT 系统 的 生产 资料 容 灾 方 面 ， 需 要 注 
意 以 下 两 点 。 


第 一 ， 不 可 能 像 储存 大 米 一 样 ， 把 茶 时 刻 的 原始 数据 复制 到 备用 系 
统 中 束 不 管 了 ， 因 为 这 份 数据 是 不 断 在 变化 中 的 ， 我 们 需要 把 变化 实时 
地 同步 到 备用 系统 中 ， 只 要 主 系 统 数 据 变 化 了 ， 备 用 系统 的 数据 也 要 跟 
者 变化 。 








第 二 ， 数 据 必 须 至 少 保留 额外 的 一 份 。 因 为 大 米 没 有 了 ， 可 以 再 购 
买 ， 每 次 购买 的 大 米 也 可 以 一 样 的 。 但 是 如 果 数 据 没 有 了 ， 就 不 可 再 
生 ， 这 个 企业 就 要 面临 倒闭 。 所 以 在 实现 容 灾 的 同时 ， 还 必须 做 好 数据 
备份 工作 ， 将 数据 备份 到 磁带 或 者 其 他 备份 目标 中 保存 。 基 于 IT 系统 数 
据 是 不 断 变化 的 ， 所 以 需要 尽量 保存 这 份 数据 的 最 后 状态 ， 比 如 ， 一 天 
备份 一 次 。 如 果 数 据 量 很 小 ， 甚 至 可 以 一 天 备份 多 次 ， 这 样 可 以 充分 保 
证 备份 的 数据 与 当前 的 数据 相差 最 少 。 








有 了 以 上 两 点 的 保证 ， 束 可 以 像 厨 房 容 灾 一 样 ， 来 设计 IT 系统 的 生 
产 资料 容 灾 了 。 以 下 是 一 个 设计 好 的 例子 。 


(1) 用 网 络 来 连接 本 地 系统 和 备用 系统 ， 先 将 本 地 系统 某 时 刻 的 
数据 ， 实 时 传送 到 备用 系统 。 


(2) 传输 结束 后 ， 再 将 从 这 个 时 刻 之 后 的 所 有 变化 的 数据 ， 同 步 
到 备用 系统 。 


(3) 此 后 ， 只 要 本 地 系统 有 效 据 变 化 ， 则 立即 将 变化 的 数据 传送 
到 备用 系统 ， 使 备用 系统 数据 发 生 相 同 的 变化 。 


在 这 个 基础 上 ， 还 需要 在 本 地 系统 中 对 数据 做 额外 备份 ， 即 备份 到 
离线 〈 如 磁带 等 ) 介质 上 ， 做 到 时 刻 保留 一 份额 外 的 数据 。 有 条 件 的 
话 ， 还 可 以 将 备份 好 的 磁带 运送 到 备份 站 点 去 ， 这 样 束 充 分 保证 了 主 站 
点 一 旦 发 生火 灾 等 全 损 型 故障 后 的 数据 元 余 度 。 








生产 资料 的 容 灾 ， 是 容 灾 系 统 中 最 重要 的 一 个 组 件 ， 因 为 没有 了 生 
产 资 料 ， 即 使 有 生产 工具 、 生 产 者 ， 也 无 法 进行 生产 ;而 如 果 没 有 了 生 
产 工具 和 生产 者 ， 比 如 服务 器 、 应 用 软件 等 ， 则 可 以 很 容易 购买 到 。 





将 生产 数据 通过 网 络 实时 传送 到 备用 系统 ， 要 实现 这 个 目的 ， 要 怎 
么 来 设计 呢 ? 我 们 来 看 个 拓扑 图 ， 如 图 17-1 所 示 。 


图 17-1 两 种 数据 通路 的 位 置 


左边 的 主 站 点 和 右边 的 备份 站 点 存在 相同 的 生产 工具 。 既 然 要 使 主 
站 点 和 备用 站 点 之 间 必 须 通 过 网 络 来 连接 ， 所 以 只 要 知道 究竟 在 哪个 网 
络 设施 上 进行 连接 。 系 统 中 有 两 个 网 络 通信 设施 ， 一 个 是 前 端 以 太 网 
络 ， 妃 一 个 是 后 端 SAN 网 络 《〈 也 有 可 能 是 以 太 网 络 ， 即 服务 器 通过 
iSCSI 协议 连接 到 后 端 磁盘 阵列 ) ， 我 们 完 竟 是 连接 二 者 的 前 端 网 络 还 
是 连接 后 并 网 络 呢 (图 中 标注 的 两 条 路 径 ) ? 答案 是 ， 两 者 都 可 以 。 








17.2.1 通过 主机 软件 实现 前 端 专用 网 络 或 者 前 端 公用 网 络 同 
水 

这 种 方式 利用 的 就 是 图 17-1 中 的 标注 1 所 示 的 路 径 。 

(1) 主 站 点 和 备份 站 点 的 前 端 以 太 网 络 ， 均 通过 路 由 器 连接 至 电 
言 部 门 的 专线 或 者 Internet 网 络 上 。 


(2) 主 站 点 上 变化 的 数据 ， 经 过 前 病 以 太 网 交换 机 ， 然 后 通过 路 
由 右 ， 传 送 给 电信 部 门 的 网 络 交 换 路 由 机 组 中 ， 经 过 层 层 交换 或 路 由 ， 
传输 到 备份 站 点 的 路 由 器 。 





(3) 然后 经 过 交换 机 传送 到 备份 站 点 的 相应 服务 器 上 。 
(4) 服务 器 收 到 数据 后 ， 写 入 后 端的 磁盘 阵列 上 。 


提示 : ”如 果 为 了 连接 而 接 入 Internet 网 络 ， 则 最 好 做 成 VPN 模 
式 ， 在 隧道 的 基础 上 ， 如 宁 退 求 数据 安全 性 ， 则 需要 配置 加 窗 
模式 的 VPN。 如 宋 对 数据 同步 的 实时 性 要 求 不 高 ， 而 数据 量 又 
很 大 的 情况 下 ， 主 站 点 和 备份 站 点 都 接 入 100Mb/s 的 Internet 网 
络 ， 反 而 会 得 到 很 大 的 实惠 ， 特 别 是 备份 站 点 和 主 站 点 在 相同 
城市 的 情况 下 ， 这 样 主 站 点 数据 路 由 到 电信 部 门 的 设备 之 后 ， 
经 过 很 少 的 设备 就 会 到 达 备 份 站 点 ， 而 且 能 保证 很 大 的 实际 带 
览 。 如 宁 是 利用 鹤 市 专线 接 入 专 网 ， 虽 然 可 以 保证 这 条 链 路 市 
宽 独 享 ， 但 是 毕竟 带宽 低 。 所 以 专线 可 以 保证 数据 同步 的 实时 
性 ， 但 是 不 适合 大 数据 量 的 传输 。 

















因为 这 种 方式 同步 数据 ， 需 要 经 过 前 端 网 络 ， 所 以 实现 这 个 功能 
还 需要 在 距离 前 端 网 络 最 近 的 主机 设备 上 实现 ， 也 就 是 服务 器 群 上 来 实 





现 。 





思考 : ”为 何不 能 直接 在 网 络 交 换 设备 上 或 者 路 由 器 上 来 实现 





第 一 ， 网 络 设备 一 般 是 没有 有 灵活 的 程序 载 入 运行 能 力 的 ， 网 络 设备 
上 运行 的 程序 都 是 预先 固化 到 必 片 中 的 程序 ， 一 般 不 可 修改 ， 更 不 用 次 
再 加 入 另外 的 程序 来 执行 了 。 





第 二 ， 数 据 存在 于 服务 器 ， 或 者 连接 服务 需 的 磁盘 阵列 上 ， 网 络 设 
备 厂 想 从 服务 器 上 提取 数据 ， 则 必须 通过 调用 操作 系统 提供 的 相关 程序 
接口 。 而 跨 网 络 传输 数据 的 现成 接口 ， 只 有 网 络 文件 系统 ， 所 以 还 需要 
将 所 有 数据 多 部 共 至 成 为 NAS 模 式 ， 但 这 样 过 于 繁 元 ， 所 以 我 们 必须 要 
在 每 台 有 数据 备份 的 服务 此 上 安装 一 种 软件 来 实现 数据 的 同步 ， 将 这 种 
软件 安装 在 生产 者 ， 也 就 是 应 用 服务 器 上 ， 然 后 在 服务 器 上 提取 生产 资 
料 和 产品 。 


不 管 生产 资料 和 产品 存在 于 服务 器 本 地 磁盘 ， 还 是 存在 于 后 端的 磁 
盘 阵列 上 ， 对 于 服务 器 操作 系统 来 说 ， 都 是 一 个 个 的 目录 。 在 第 15 章 的 
最 后 曾经 描述 过 操作 系统 的 目录 虚拟 化 ， 不 管 确 层 用 的 是 什么 设备 来 存 
储 数据 ， 也 不 管 数据 存放 在 网 络 上 还 是 本 地 磁盘 上 ， 最 终 操作 系统 都 将 
这 些 位置 虚 拟 成 目录 ， 比 如 Windows 的 C 盘 、D 盘 ， 或 者 UNIX 下 


的 /mnt、/mountpoint 等 。 





通过 这 种 软件 可 以 直接 监视 这 些 目录 中 数据 的 变化 ， 只 要 有 变化 的 
数据 ， 就 提取 出 来 通过 网 络 传送 到 远 端 服务 器 上 ， 远 端 服 务 器 同样 需要 
安 浪 这 种 软件 的 接收 端 模块 来 接收 数据 ， 并 写 入 远 端 备 份 站 扣 上 相应 服 
务 右 的 相同 目录 。 





这 种 方式 利用 了 前 端 网 络 进行 数据 同步 。 一 般 前 端 网 络 相 对 后 端 网 
络 速度 来 说 是 比较 低 的 网 络 ， 而 且 是 客户 用 来 访问 服务 器 的 必 经 之 路 ， 
所 以 它 的 资源 是 比较 宝 贯 的 。 另 外 ， 前 端 网 络 一 般 都 是 以 太 网 ， 相 对 碌 
价 ， 而 且 容 易 整 合 到 企业 大 网 络 中 ， 从 而 接 入 电信 部 门 的 网 络 ， 所 以 适 
合 基 于 TCP/IP 协 议 的 远 距离 传输 ， 比 如 大 于 100 公 里 的 范围 ， 甚 至 跨国 
界 的 Internet 范 围 内 传输 。 














下 面 来 看 一 下 这 种 方式 下 的 数据 流 经 路 径 : 


本 地 磁盘 阵列 《或 者 本 机 磁盘 ) ~ 本 地 后 端 网 络 交 换 设 施 -本 地 服 
务 露 内存 ~ 本 地 前 痛 网 络 - 电信 交换 机 组 ~- 远 问 前 端 网 络 > 远 问 服务 器 
内 存 - 远 端 后 端 网 络 交 换 设施 远 问 磁盘 阵列 《或 者 远 端 本 机 磁盘 ) 。 


如 果 数 据 源 在 本 机 磁盘 ， 则 会 跳 过 本 地 后 端 网 络 交换 设施 ， 直 接 到 
服务 器 内 存 。 如 果 数 据 是 直接 在 内 存 中 生成 的 ， 则 需要 写 入 本 地 一 份 ， 
同时 发 送 给 远 端 一 份 保存 。 其 中 ， 在 “本 地 磁盘 阵列 - 本 地 后 端 网 络 交 
换 设施 -本 地 服务 器 内 存 ” 这 上 段 路 径 上 ， 数 据 是 通过 FCP 协 议 (SCSI 
over FC 协议 ) 进行 打包 传送 的 ; 在 “本 地 前 端 网 络 ~ 电信 交换 机 组 远 
端 前 端 网 络 ? 这 段 路 径 上 上， 数据 是 通过 TCP/PP 协 议 传送 的 。FCP 协 议 运 
行 在 后 端 高 速 网 络 的 保障 之 上 ， 而 TCP/IP 协 议 运 行 在 使 用 前 端 低速 网 络 
的 设备 上 ， 保 障 数据 传输 ， 二 者 各 得 其 所 ， 充 分 发 挥 着 各 自 的 作用 。 





图 17-2 所 示 的 路 径 即 是 数据 流动 的 路 径 。 服 务 占 上 的 涡轮 泵 表示 数 
气 同 步 软件 ， 它 从 本 地 提取 数据 ， 并 将 数据 源源 不 断 地 发 送 给 远 咒 ， 远 
端 服务 器 上 的 涡轮 泵 将 收 到 的 数据 源源 不 断 地 写 入 存储 设备 。 





图 17-2 ”经 前 端 网 络 备份 数据 





这 种 方式 的 数据 同步 ， 一 般 都 是 文件 级 同步 ， 即 同步 软件 只 检测 文 


件 这 一 层 的 数据 变化 ， 或 者 每 当主 服务 器 针对 茶 个 文件 做 写 入 时 ， 写 入 
数据 会 同时 发 送 给 备用 服务 器 。 而 对 底层 卷 的 数据 块 的 变化 ， 不 做 同 
步 ， 除 非 数 据 块 的 变化 造成 了 对 应 的 文件 的 逻辑 数据 变化 。 


Veritas Volume Replicator 软 件 介 绍 


Veritas Volume Replicator (VVR) ， 是 Veritas 公 司 容 灾 套件 Storage 
Foundation 系 列 软件 中 的 一 个 模块 ， 它 的 作用 非常 专 一 ， 就 是 将 本 地 某 
个 卷 上 的 数据 变化 ， 通 过 前 端 卫 网 络 复制 到 远 端 对 应 的 卷 上 上， 而 且 保 证 
数据 变化 发 生 的 顺序 不 被 打 乱 ， 完 全 按照 本 地 的 IO 发 生 顺 序 在 民 地 按照 
相同 的 顺序 重 现 这 个 IO。 











VVR 文 持 耗 绍 币 宽 调 整 功 能 ， 控 制 对 网 络 禹 时 的 使 用 ， 在 业务 繁忙 
时 可 以 降低 发 送 速 度 来 减少 对 网 络 融 宽 的 耗费 ， 并 且 可 以 针对 不 同 的 同 
步 流 设 定 各 目的 带宽 。 文 持 异 步 和 同步 复制 《在 后 面 会 介绍 ) 。 在 网 络 
发 生 故 障 的 时 候 ， 可 以 目 动 将 复制 模式 从 同步 切换 到 开 步 ， 以 减少 对 主 
机 业务 的 影响 。 一 旦 复制 断 开 ，VVR 可 以 记录 主 站 点 自从 断 开 之 后 的 数 
据 变化 ， 待 连接 重新 建立 之 后 ， 立 即 复制 这 些 变化 的 数据 ， 而 不 需要 对 
两 边 数据 进行 重新 比 对 或 者 全 部 重新 复制 。 




















提示 : ”类似 的 软件 还 有 和 上 很多， 比如 Double Take、Legato， 
产 同步 软件 InfoCore Replicator 等 ， 它 们 的 构思 都 是 一 样 的 ， 只 
不 过 实现 方式 和 效果 上 有 所 不 同 。 





后 文 将 介绍 两 个 使 用 这 种 方式 来 同步 数据 的 案例 。 
17.2.2 ”案例 DB2 数 据 的 HADR 组 件 容 灾 


这 个 案例 是 笔者 实施 的 一 个 DB2 数 据 库 容 灾 案例 ， 它 利用 了 运行 在 


主机 和 备份 机 上 的 一 个 数据 库 软 件 模 块 〈 即 HADR) ， 来 实现 两 端的 数 
据 同 步 ， 主 机 和 备份 机 之 间 使 用 基于 以 太 网 的 TCP/IP 协 议 连 接 。 这 个 案 
例 同步 的 数据 不 是 卷 上 的 原始 数据 ， 而 是 一 种 对 数据 操作 的 描述 ， 即 数 
据 库 日 志 ， 比 如 :“ 在 D 盘 创建 一 个 表 空 间 数据 文件 ， 名 称 testspace， 大 
小 500MB”。 





这 就 是 一 条 日 志 ， 主 机 只 需要 把 这 句 话 告诉 备份 机 即 可 ， 而 不 需要 
传输 500MB 的 数据 。 备 份 机 收 到 日 志 后 ， 便 会 在 备份 机 的 磁盘 上 重 做 
(replay〉 这 些 操作 ， 达 到 与 直接 同步 卷 上 数据 殊途同归 的 效果 。 


1. HADR 


其 全 称 为 High Availability Disaster Recovery， 它 是 DB2 数 据 库 级 别 
的 高 可 用 性 数据 复制 机 制 ， 最 初 被 应 用 于 Informix 数 据 库 系统 中 ， 称 为 
High Availability Data Replication CHDR) ， 是 Share-Nothing 方 式 容 灾 的 
典型 代表 。 


提示 : 在 IBM 收 购 Informix 之 后 ， 这 项 技术 就 应 用 到 了 新 的 
DB2 发 行 版 中 。 


一 个 HADR 环 境 需 要 两 台数 据 库 服 务 器 : 主 数 据 库 服务 器 
(primary〉 和 备用 数据 库 服 务 器 (standby) 。 





a 当主 数据 库 中 发 生 事 务 操作 时 ， 会 同时 将 日 志文 件 通 过 TCP/IP 协 
议 传 送 到 备用 数据 库 服 务 器 ， 然 后 备用 数据 库 对 接收 到 的 日 志文 
件 进 行 重 放 〈Replay) ， 从 而 保持 与 主 数据 库 的 一 致 性 。 

a 当主 数据 库 发 生 故 障 时 ， 备 用 数据 库 服 务 器 可 以 接管 主 数据 库 服 
务 器 的 事务 处 理 。 此 时 ， 备 用 数据 库 服 务 器 作为 新 的 主 数据 库 服 


务 器 进行 数据 库 的 读 写 操作 ， 而 客户 端 应 用 程序 的 数据 库 连 接 可 
以 通过 自动 客户 端 重 新 路 由 Automatic Client Reroute) 机 制 转 
移 到 新 的 主 服务 器 。 

a 当 原 来 的 主 数据 库 服 务 器 被 修复 后 ， 又 可 以 作为 新 的 备用 数据 库 
服务 器 加 入 HADR。 通 过 这 种 机 制 ，DB2 UDB 实 现 了 数据 库 的 故 
障 恢复 和 高 可 用 性 ， 最 大 限度 地 避免 了 数据 丢失 。 图 17-3 为 DB2 
HADR 的 工作 原理 图 。 























图 17-3 DB2 HADR 工 作 原 理 图 





注意 : 处 于 备用 角色 的 数据 库 不 能 被 访问 。 
HADR 有 三 种 同步 方式 。 


1) SYNC (同步 ) 





此 方式 可 以 尽 可 能 地 避免 事务 丢失 ， 但 在 三 种 方式 中 ， 使 用 此 方式 
会 导致 事务 啊 应 时 间 最 长 。 在 此 方式 中 ， 仪 当日 志 已 写 入 主 数据 库 上 的 
日 志文 件 ， 而 且 主 数据 库 已 接收 到 来 自 备 用 数据 库 的 应 答 ， 确 定 日 志 也 
己 写 入 备用 数据 库 上 的 日 志文 件 时 ， 方 才 认 为 日 志 写 入 是 成 功 的 。 保 证 
日 志 数 据 同时 存储 在 这 两 处 。 

















如 果 备 用 数据 库 在 重 放 日 志 记 录 之 前 月 演 ， 则 它 下 次 局 动 时 ， 可 从 
其 本 地 日 志文 件 中 检索 和 重 放 这 些 记录 。 如 果 主 数据 库 发 生 故 障 ， 故 障 
转移 至 备用 数据 库 ， 可 以 保证 任何 已 在 主 数据 库 上 落实 的 事务 ， 也 在 备 
用 数据 库 上 落实 。 故 障 转移 操作 之 后 ， 当 客户 机 重新 与 新 的 主 数据 库 连 
接 时 ， 可 能 会 有 在 新 主 数 据 库 上 已 落实 的 事务 ， 对 于 原始 主 数据 库 却 从 
未 报告 为 已 落实 。 当 主 数据 库 在 处 理 来 自 备 用 数据 库 的 应 答 消息 之 前 出 
现 故 障 时 ， 即 会 出 现 此 种 情况 。 客 户 机 应 用 程序 应 考虑 查询 数据 库 以 确 

















定 是 否 存 在 此 类 事务 。 


如 果 主 数据 库 失 去 与 备用 数据 库 的 连接 ， 则 不 再 认为 这 些 数据 库 处 
于 对 等 状态 ， 而 且 将 不 阻止 事务 等 待 来自 备 用 数据 库 的 应 答 。 如 果 在 数 
据 库 断 开 连 接 时 执行 故障 转移 操作 ， 则 不 保证 所 有 已 在 主 数据 库 上 落实 
的 事务 将 出 现在 备用 数据 库 上 。 


当 数 据 库 处 于 对 等 状态 时 ， 如 果 主 数据 库 发 生 故 障 ， 则 可 以 在 故障 
转移 操作 之 后 ， 作 为 备用 数据 库 重 新 加 入 HADR 对 。 因 为 在 主 数据 库 接 
收 到 来 自 备 用 数据 库 的 应 答 ， 确 认 日 志 已 写 入 备用 数据 库 上 的 日 志文 件 
之 前 ， 不 认为 事务 已 落实 ， 所 以 主 数据 库 上 的 日 志 顺 序 将 与 备用 数据 库 
上 的 日 志 顺 序 相同 。 原 始 主 数据 库 〈 现 在 是 备用 数据 库 ) 只 需要 通过 重 
放 目 从 故障 转移 操作 以 来 ， 在 新 的 主 数据 库 上 生成 的 新 日 志 记 录 来 进行 
同步 更 新 。 











如 采 主 数据 库 发 生 故 障 时 并 未 处 于 对 等 状态 ， 则 其 日 志 顺 序 可 能 与 
备用 数据 库 上 的 日 志 顺 序 不 同 。 如 果 必 须 执行 故障 转移 操作 ， 主 数据 库 
和 备用 数据 库 上 的 日 志 顺 序 可 能 不 同 ， 因 为 在 故障 转移 之 后 ， 备 用 数据 
库 局 动 自己 的 日 志 顺 序 。 因 为 无 法 撤销 菜 些 操作 比如， 删除 表 )〉 ， 所 
以 不 可 能 将 主 数据 库 回 复 到 创建 新 的 日 志 顺 序 的 时 间 扣 。 











如 果 日 志 顺 序 不 同 ， 当 在 原始 主 数据 库 上 发 出 指定 了 AS 
STANDBY 选 项 的 START HADR 命 令 时 ， 将 返回 错误 消息 。 如 果 原 始 主 
数据 库 成 功 地 重新 加 入 HADR 对 ， 则 可 以 通过 发 出 未 指定 BY FORCE 选 
项 的 TAKEOVER HADR 命 令 来 完成 数据 库 的 故障 恢复 。 如 果 原 始 主 数 
据 库 无 法 重新 加 入 HADR 对 ， 则 可 以 通过 复原 新 的 主 数据 库 的 备份 映像 
来 将 此 数据 库 重 新 初始 化 为 备用 数据 库 。 


2) NEARSYNC (接近 同步 ) 





此 方式 具有 比 同步 方式 更 短 的 事务 啊 应 时 间 ， 但 针对 事务 丢失 提供 
的 保护 也 很 少 。 在 此 方式 中 ， 仅 当日 志 记 录 已 号 入 主 数据 库 上 的 日 志文 
件 ， 而 且 主 数据 库 已 接收 到 来 自 备 用 系统 的 应 答 ， 确 定 日 志 也 已 写 入 备 
用 系统 上 的 主 存储 器 时 ， 才 认为 日 志 写 入 是 成 功 的 。 仅 当 两 处 同时 发 生 
故障 ， 并 且 目 标 位 置 未 将 接收 到 的 所 有 日 志 数 据 转移 至 非 易 失 性 存储 需 
时 ， 才 会 出 现 数据 的 丢失 。 











如 宁 备 用 数据 库 在 将 日 志 记 录 从 存储 器 复制 到 磁盘 之 前 骨 湿 ， 则 备 
用 数据 库 上 将 丢失 日 志 记 录 。 通 常 ， 当 备用 数据 库 重 新 局 动 时 ， 它 可 以 
从 主 数据 库 中 获取 丢失 的 日 志 记录 。 然 而 ， 如 果 主 数据 库 或 网 络 上 的 故 
障 使 检索 无 法 进行 ， 并 且 需 要 故障 转移 时 ， 日 志 记 录 将 不 会 出 现在 备用 
数据 库 上 ， 而 且 与 这 些 日 志 记 录 相 关联 的 事务 将 不 会 出 现在 备用 数据 库 
es 

















如 末 事 务 于 失 ， 则 在 故障 转移 操作 之 后 ， 新 的 主 数据 库 与 原始 主 数 
据 库 不 相同 。 客 户 机 应 用 程序 应 该 考虑 重新 提交 这 些 事 务 ， 以 便 使 应 用 
程序 状态 保持 最 新 。 





当主 数据 库 和 备用 数据 库 处 于 对 等 状态 时 ， 如 果 主 数据 库 发 生 故 
障 ， 则 在 没有 使 用 完全 复原 操作 重新 初始 化 的 情况 下 ， 原 始 主 数据 库 可 
能 无 法 作为 备用 数据 库 重 新 加 入 HADR 对 。 





如 果 故 障 转移 涉及 丢失 的 日 志 记 录 《〈 因 为 主 数据 库 和 备用 数据 库 已 
发 生 故 障 ) ， 主 数据 库 和 备用 数据 库 上 的 日 志 顺 序 将 会 不 同 ， 并 且 在 未 
执行 复原 操作 的 情况 下 ， 重 新 局 动 原始 主 数据 库 以 作为 备用 数据 库 的 等 
试 将 会 失败 。 如 果 原 始 主 数据 库 成 功 地 重新 加 入 HADR 对 ， 则 可 以 通过 





发 出 未 指定 BY _ FORCE 选项 的 TAKEOVER HADR 命 令 来 完成 数据 库 的 
故障 恢复 。 


如 果 原 始 主 数据 库 无 法 重新 加 入 HADR 对 ， 则 可 以 通过 复原 新 的 主 
数据 库 的 备份 映像 来 将 其 重新 初始 化 为 备用 数据 库 。 





提示 : 局域网 环境 一 般 采 用 NEARSYNC 方 式 进行 同步 。 


3) ASYNC (异步 ) 





提示 : ”如 果 主 系统 发 生 故障 ， 此 方式 发 生 事务 丢失 的 几率 最 
高 。 在 三 种 方式 之 中 ， 此 方式 的 事务 啊 应 时 间 也 是 最 短 的 。 

















在 此 方式 中 ， 只 有 当日 志 记 录 已 写 入 主 数据 库 上 的 日 志文 件 ， 而 且 
已 将 此 记录 传递 给 主 系统 主机 的 TCP 层 时 ， 才 认为 日 志 写 入 是 成 功 的 。 
因为 主 系统 不 会 等 竺 来 目 备 用 系统 的 应 答 ， 所 以 当 事 务 仍 处 于 正在 传 入 
备用 系统 的 过 程 中 时 ， 可 能 会 认为 事务 已 落实 。 





主 数据 库 主机 上 、 网 络 上 或 备用 数据 库 上 的 故障 可 能 导致 传送 中 的 
日 志文 件 丢 失 。 如 果 主 数据 库 可 用 ， 则 会 在 此 对 重新 建立 连接 时 ， 将 丢 
失 的 日 志文 件 重新 发 送 至 备用 数据 库 。 然 而 ， 如 果 在 丢失 日 志文 件 时 要 
求 执行 故障 转移 操作 ， 则 日 志文 件 和 相关 联 的 事务 都 将 不 会 到 达 备 用 数 
据 库 。 丢 失 的 日 志 记 录 和 主 数据 库 上 的 故障 会 导致 事务 的 永久 丢失 。 

















如 末 事 务 丢 失 ， 则 在 故障 转移 操作 之 后 ， 新 的 主 数据 库 与 原始 主 数 
据 库 不 是 完全 相同 的 。 客 户 机 应 用 程序 应 该 考虑 重新 提交 这 些 事务 ， 以 
便 使 应 用 程序 状态 保持 最 新 。 





当主 数据 库 和 备用 数据 库 处 于 对 等 状态 时 ， 如 果 主 数据 库 发 生 故 
障 ， 则 在 没有 使 用 完全 复原 操作 重新 初始 化 的 情况 下 ， 原 始 主 数据 库 可 


能 无 法 作为 备用 数据 库 重 新 加 入 HADR 对 。 





如 果 故 障 转移 涉及 丢失 的 日 志 记录 ， 主 数据 库 和 备用 数据 库 上 的 日 
志 顺 序 将 会 不 同 ， 并 且 重 新 启动 原始 主 数 据 库 以 作为 备用 数据 库 的 尝试 
将 失败 。 因 为 ， 如 果 在 异步 方式 中 发 生 故 障 转移 ， 日 志 记 录 更 有 可 能 
失 ， 所 以 主 数据 库 不 能 重新 加 入 HADR 对 的 可 能 性 也 更 大 。 如 果 原 始 主 
数据 库 成 功 地 重新 加 入 HADR 对 ， 则 可 以 通过 发 出 未 指定 BY FORCE 选 
项 的 TAKEOVERHADR 命 令 来 完成 数据 库 的 故障 恢复 ;如 果 原 始 主 数 
据 库 无 法 重新 加 入 HADR 对 ， 则 可 以 通过 复原 新 的 主 数据 库 的 备份 映像 
将 此 数据 库 重 新 初始 化 为 备用 数据 库 。 














2. BBP 系 统 结构 


某 企业 目前 有 一 套 物 流 BBP 系 统 ， 基 于 SAP 构 建 ，SAP 后 台数 据 库 
使 用 的 是 DB2 v8.2。 现 有 一 从 闲置 服务 器 (IP: 192.168.100.23) ， 使 用 
这 人 台 服 务 器 作为 HADR 系 统 的 备份 节点 ， 已 经 上 线 运 行 的 BBP 服 务 器 
(IP: 192.168.100.231) 作为 系统 的 主 节 点 。B2B 系 统 目前 的 拓扑 与 实 
现 HADR 之 后 的 拓扑 图 如 图 17-4 所 示 。 


图 17-4 ” B2B 系 统 目 前 的 拓扑 与 实现 HADR 之 后 的 拓扑 图 











HADR 系 统 将 目前 闲置 的 备份 机 充分 利用 了 起 来 ， 一旦 主 节点 发 生 
故障 ， 可 以 立即 手动 切换 到 备份 节点 ， 与 此 同时 ， 客 户 端 会 自动 重新 连 
接 到 备份 机 ， 使 得 生产 继续 进行 。 故 障 的 主机 可 以 离线 进行 故障 恢复 。 
恢复 之 后 可 以 加 入 HADR 组 ， 并 且 重 新 接管 所 有 应 用 。 表 17-2 简 要 说 明 
了 实施 HADR 的 过 程 。 











表 17-2 在 上 述 环 境 下 实施 HADR 的 简单 过 程 





sm Hadr_pri.bat 的 内 容 : 
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USING 
USING 
USING 
USING 
USING 
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alternate server for 


db cfg for bbp 


db cfg for bbp 


ma hadr std.bat 的 内 容 : 


db2 
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"UPDATE 
"UPDATE 
"UPDATE 
"UPDATE 
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CFG 
CFG 


FOR 
FOR 
FOR 
FOR 
FOR 
FOR 
FOR 


bbp 
bbp 
bbp 
bbp 
bbp 
bbp 
bbp 


using 


Using 


USING 
USING 
USING 
USING 
USING 
USING 
USING 


alternate server for 


db cfg for bbp using 


db cfg for bbp using 


完成 配置 之 后 ， 


全 邻 : 


人 


在 主机 或 者 备份 机 上 的 DB2 命 


HADR_LOCAL_HOST 192.168 .100. 
HADR_LOCAL_SVC 64000" 
HADR_REMOTE_HOST 192.168.100 
HADR_REMOTE_SVC 64001" 
HADR_REMOTE_INST db2bbp" 
HADR_SYNCMODE NEARSYNC" 
HADR_TIMEOUT 60" 

db bbp using hostname 192.16 
logindexbuild on" 


indexrec restart" 


HADR_LOCAL HOST 192.168.100. 
HADR_LOCAL_SVC 64001" 
HADR_REMOTE_HOST 192.168.100 
HADR_REMOTE_SVC 64000" 
HADR_REMOTE_INST db2bbp" 
HADR_SYNCMODE NEARSYNC" 
HADR_TIMEOUT 60" 

db bbp using hostname 192.16 
logindexbuild on" 


indexrec restart" 


令 行 环 境 中 输入 以 下 


Db2 get snapshot for db on bbp 


即 可 以 查看 HADR 的 运行 状态 ， 如 图 17-5 所 示 。 


图 17-5 HADR 的 运行 状态 





17.2.3 ”通过 主机 软件 实现 后 端 专 用 网 络 同步 





用 这 种 方式 来 同步 数据 ， 数 据 不 会 流 经 前 端 网 络 ， 而 全 部 通过 后 站 
网 络 传输 到 备份 站 点 对 应 的 存储 设备 中 。 这 就 再 要 将 主 站 点 的 后 端 网 络 
设施 和 备份 站 点 的 后 端 网 络 设备 连接 起 来 。 或 者 直接 通过 裸 光纤 连接 两 
台 SAN 交 换 机 ， 再 或 者 租用 电信 部 门 的 光线 专线 。 








如 采用 前 者 连接 两 个 站 点 ， 那 要 求 两 个 站 点 之 间 的 道路 上 可 以 自己 
布线 ， 比 如 一 个 大 院内 ， 可 以 自主 布线 ， 不 需要 经 过 市 政 部 门 干预 ， 这 
样 便 可 以 直接 连接 两 端的 SAN 交 换 机 ， 和 直接 承载 EC 协议 了 。 否 则 ， 如 
果 两 个 站 点 跨越 了 很 远 的 距离 ， 那 么 就 必须 使 用 后 者 ， 也 就 是 租用 电信 
部 门 的 光 绕 ， 但 是 这 条 光 绕 上 的 数据 必须 符合 电信 部 门 传输 设备 所 使 用 
的 协议 。 后 者 需要 添加 额外 的 协议 转换 设备 ， 两 个 站 点 各 一 个 ， 如 图 
17-6 所 示 。 











图 17-6 ”连接 两 个 站 点 的 后 端 网 络 








现在 电信 部 门 的 光纤 专线 一 般 为 SDH 传输 方式 ， 接 入 到 用 户 端的 时 
候 ， 一 般 将 信号 调制 成 E1、OC3 等 编码 方式 ， 所 以 必须 将 FC 协 议 承载 
于 这 些 协 议 之 上 ， 也 就 是 我 们 在 前 面 第 13 章 中 所 摘 述 的 Protocol ”Over 
Protocol 模 型 ， 完 成 这 个 动作 的 ， 束 是 协议 转换 器 。 


协议 转换 器 在 一 端 按 照 条 种 协议 的 逻辑 进行 工作 ， 而 在 力 一 站 则 按 


照 男 一 种 协议 的 迎 辑 进行 工作 ， 把 数据 从 一 端 接 收 过 来 ， 经 过 协议 转 
换 ， 以 妨 一 种 协议 的 逻辑 及 送出 去 ， 到 达 对 端 后 ， 册 进行 相反 的 动作 。 


有 些 路 由 右 则 直接 在 其 内 部 集成 了 各 种 协议 转换 器 ， 可 以 说 路 由 器 
就 是 一 种 协议 转换 器 。 我 们 可 以 看 一 下 机 房 中 的 网 络 路 由 器 ， 上 面 有 各 
种 各 样 的 接口 ， 为 何不 清一色 都 是 RJ-45 以 太 网 接口 呢 ? 





因为 路 由 器 不 只 是 路 由 以 太 网 数据 ， 还 要 路 由 其 他 网 络 协议 的 数 
据 ， 甚 至 还 要 在 不 同 网 络 协议 之 间 做 转换 。 而 如 果 把 这 些 协议 都 做 到 
SAN 交 换 机 上 ， 那 么 这 台 SAN 交 换 机 ， 就 是 一 台 不 折 不 扣 的 SAN 路 由 器 
了 。 对 于 没有 费用 购买 SAN 路 由 器 的 用 户 来 说 ， 用 一 个 层 层 的 协议 转换 
设备 来 完成 也 是 很 划算 的 ， 这 就 像 给 照相 机 加 一 层 层 的 特殊 镜头 一 样 。 
图 17-7 是 一 个 层 层 协议 转换 器 的 实例 。 














图 17-7 利用 SDH 网 络 连接 后 端 网 络 











源 端 的 纯 FC 协 议 ， 经 过 FCIP 网 天 ， 变 成 了 基于 以 太 网 的 IP 协 议 
(FC over IP over ETH) ， 经 过 E1/ 以 太 网 转换 器 ， 承 载 到 了 E1 协 议 之 
上 ， 然 后 多 路 E1 信 号 汇聚 到 光端机 ， 通 过 一 条 或 者 几 条 光纤 ， 传 输 给 电 
言 部 门 的 SDH 交换 设施 上 进行 传输 ， 到 达 目 的 之 后 ， 进 行 相 反 的 动作 ， 
最 终 转换 成 纯 FC 协 议 。 这 样 ， 源 和 目的 都 不 会 感觉 到 中 间 一 层 层 协议 
转换 设备 的 存在 。 


主 站 点 和 备份 站 氮 的 后 端 SAN 交 换 机 能 够 成 功 连接 之 后 ， 两 个 SAN 
网 络 便 可 以 融合 了 ， 就 像 一 个 SAN 网 络 一 样 。 所 以 ， 主 站 点 的 服务 器 也 
就 可 以 访问 到 备份 站 点 的 磁盘 阵列 。 这 样 ， 不 需要 经 过 前 端 网 络 ， 就 可 
以 直接 访问 备份 站 点 的 存储 设备 ， 也 就 可 以 直接 在 备份 站 点 的 存储 设备 
上 读 写 数据 了 。 如 图 17-8 所 示 ， 备 份 站 点 磁盘 阵列 上 的 一 个 LUN〈 郑 





B) 可 以 直接 被 主 站 点 的 服务 器 识别 ， 这 样 ， 主 站 点 的 服务 器 就 可 以 同 
时 操作 本 地 磁 熏 阵列 和 备份 站 点 的 磁盘 阵列 了 。 





图 17-8 ”后 端 网 络 通 路 示意 图 





我 们 来 看 一 下 这 种 方式 下 数据 走 过 的 路 径 : 


本 地 磁盘 阵列 ~SAN 网 络 交 换 设施 -本 地 服务 器 内 存 -~SAN 网 络 交 
换 设 施 “ 通 过 协 转 流入 电信 部 门 网 络 〈 如 果 有 ) 二 远 端 AN 网 络 交 换 设 
施 - 远 端 人 磁盘 阵列 ， 如 图 17-9 所 示 。 





图 17-9 经 过 后 端 网 络 同步 数据 

分 析 : 上述 的 两 种 方式 中 ， 第 三 种 方式 的 步 又 比 第 一 种 少 了 
两 步 ， 数 据 到 达 远 端 SAN 交 换 设 施 之 后 ， 立 即 被 传送 到 了 磁盘 
阵列 这 个 最 终 目 标 ， 而 不 必 再 经 过 一 台 服 务 嚣 了， 为 何 呢 ? 








因为 第 二 种 方式 中 ， 主 站 点 的 服务 占 对 备份 站 点 的 存储 设备 有 了 和 直 
接 访 问 权 ， 而 第 一 种 方式 中 ， 双 方 都 没有 对 方 存储 设备 的 直接 访问 权 ， 
必须 通过 对 方 服务 占 的 参与 。 








然而 ， 第 二 种 方式 中 数据 仍然 至 少 需要 经 过 一 侣 服务器 ， 为 何 呢 ? 
因为 涡轮 稍 《实现 数据 同步 功能 的 软件 ) 是 运行 在 服务 器 上 的 ， 没 有 涡 
轮 稍 ， 水 就 不 会 流动 ， 数 据 也 无 法 流动 ， 而 不 可 能 有 一 种 时 ， 可 以 让 水 
不 经 过 它 就 可 以 流动 。 同 样 ， 数 据 流 也 不 可 能 不 经 过 稍 就 自己 流动 。 





现在 ， 两 个 SAN 已 经 连接 了 ， 而 且 主 站 点 的 服务 器 可 以 畅通 无 阻 地 
访问 备份 站 点 的 磁盘 阵列 存储 设备 了 ， 万 事 俱 备 ， 只 从 东风 。 完 竟 在 这 
种 方式 中 ， 要 怎么 来 设计 这 个 涡轮 泵 呢 ? 











其 实 没 有 什么 特别 之 处 ， 我 们 来 分 析 第 一 种 方式 的 同步 方法 ， 那 个 
泵 用 的 是 从 本 地 提取 数据 ， 太 送 到 前 端 网 络 ， 网 络 那 头 用 一 个 接收 者 将 
接收 的 数据 写 入 到 盘 阵 中 。 


分 析 : 同 理 ， 第 二 种 方式 下 ， 大 思路 当然 还 是 这 样 ， 只 不 过 
古 从 后 器 网 络 提取 数据 之 后 ， 再 发 送 回 后 端 网 络 的 另 一 个 目 
的 ， 然 而 这 一 切 只 需要 一 个 条 惑 能 完成 ， 因 为 这 个 双 现 在 已 经 
可 以 掌管 数据 的 起 源 设 备 和 数据 的 终结 设备 了 。 





我 们 理所当然 地 设计 了 这 个 泵 ， 它 的 作用 方式 就 是 ， 将 数据 从 本 地 
的 卷 A 中 提取 出 来 ， 然 后 直接 通过 SAN 网 络 写 入 位 于 备份 站 点 的 卷 B。 
如 果 数 据 是 直接 在 和 内存 中 生成 的 ， 需 要 写 入 保存 ， 则 写 入 本 地 卷 A 一 
份 ， 同 时 写 入 远 问 的 卷 B 一 份 。 这 种 方式 显然 比 第 一 种 方式 来 得 快 ， 但 
征 它 对 网 络 速度 要 求 更 高 ， 成 本 也 更 高 。 第 一 种 方式 中 ， 有 两 个 稍 ， 而 
第 二 种 方式 中 ， 只 有 一 个 录 ， 这 样 会 不 会 造成 “动力 ”不 足 呢 ? 不 会 的 ， 
水 在 流动 过 程 中 是 有 阻力 的 ， 而 数据 流 是 没有 阻力 的 ， 所 以 如 果 增 加 额 
外 的 条， 反而 会 影 啊 数据 流 的 速度 。 











这 种 实现 方式 又 叫做 “ 卷 镜 像 ”， 意 思 就 是 两 个 卷 像 镜 物 与 实物 完全 
一 样 。 第 一 种 方式 为 何不 叫 镜像 呢 ?” 因 为 第 一 种 方式 跨越 的 距离 太 远 ， 
这 样 不 能 达到 两 个 卷 在 任何 时 刻 的 数据 都 相同 ， 在 讲 同 步 和 卉 步 的 时 候 
还 会 涉及 这 方面 的 问题 。 这 种 方式 能 很 好 地 保证 数据 同步 的 实时 性 ， 但 
古 不 适合 远 距 离 大 数据 量 数据 同步 ， 除 非 不 惜 成 本 搭建 融 速 远 距 离 专线 
链 路 。 














第 二 种 方式 ， 卷 同步 软件 是 工作 在 卷 这 一 层 的 ， 所 以 它 检 测 的 是 数 
据 块 的 变化 而 不 是 文件 的 变化 ， 同 步 的 数据 内 容 是 数据 块 而 不 是 文件 ， 
和 第 一 种 方式 有 所 不 同 。 





1. Veritas Volume Manager 软 件 介 绍 


Veritas Volume Manager 也 是 Veritas 公 司 Storage Foundation 套 件 中 的 
一 个 模块 ， 它 的 功能 就 是 辅助 或 者 代 蔡 操作 系统 自己 的 磁盘 管理 模块 来 
管理 底层 的 物理 磁 胡 (当然 也 有 可 能 是 SAN 上 的 LUN 逻 辑 磁 可)〉。 


一 般 操 作 系 统 自己 的 磁盘 管理 模块 功能 有 限 ， 比 如 Windows 提 供 的 
磁盘 管理 器 组 件 ， 其 功能 只 限于 对 识别 到 的 物理 磁盘 进行 分 区 、 格 式 
化 、 挂 载 到 某 个 盘 符 下 ， 并 且 分 区 只 能 连续 ， 而 且 不 能 动态 调整 分 区 大 
小 ， 要 调整 也 只 能 删除 分 区 再 重新 建立 。 当 然 一 些 第 三 方 软件 可 以 做 到 
调整 分 区 大 小 ， 不 过 仍然 需要 重启 。Windows Server 操 作 系 统 提 供 的 动 
态 倒 盘 管理 ， 虽 然 可 以 做 到 RAID 卡 的 部 分 功能 ， 但 是 仍然 不 够 灵活 ， 
而 且 效 率 低 下 。 而 VxVM (Veritas Volume Manager) 卷 管理 软件 可 以 彻 
底 符 换 操作 系统 的 卷 管理 功能 。 





提示 : 本 书 第 5 章 中 曾经 通俗 地 阐释 了 卷 管 理 软件 的 思想 ， 
VxVM 束 是 这 样 一 个 疮 管理 软件 ， 它 把 操作 系统 奔 层 的 磁盘 统 
统 当 作 “ 面 团 ”， 可 以 竣 合 起 来 ， 然 后 再 分 配 。 


它 改变 了 操作 系统 的 磁盘 管理 器 的 分 区 管理 的 闲置 ， 将 所 有 磁盘 虚 
拟 成 卷 池 ， 然 后 从 池 中 分 配 新 的 卷 ， 新 卷 可 以 动态 地 增 大 和 减 小 容量 ， 
可 以 动态 分 割 、 合 并 。 文 持 卷 多重 镜 像 。 文 持 RAID 0，RAID 1，RAID 
0 十 1，RAID 5。 文 持 RAID 组 在 线 动 态 扩容 ， 可 随时 癌 RAID 组 中 添加 新 
磁盘 而 不 影响 使 用 。 卷 之 上 还 需要 有 一 层 文 件 系 统 ，VxVM 同 样 有 自己 
的 文件 系统 ， 叫 做 VxFS。VxFS 是 一 个 高 效 的 日 志 型 文件 系统 ， 这 就 使 
得 在 发 生 衣 省 之 后 文件 系统 的 自 检 过 程 非常 快 。 另 外 ， 还 支持 文件 系统 
大 小 动态 扩充 和 收缩 。 支 持 Direct IO。 支 持 文件 系统 快照 功能 。 

















用 户 只 要 在 服务 器 上 安装 VxVM 软 件 ， 经 过 相关 配置 ， 就 可 以 实现 
对 服务 器 上 两 个 卷 的 镜像 操作 ， 实 现 两 个 卷 的 数据 同步 。 一 旦 某 时 刻 主 
站 点 发 生 故 障 ， 则 备份 站 点 的 卷 上 数据 和 主 站 点 发 生 故 障 的 时 候 完 全 一 
致 。 此 时 只 要 在 备份 站 点 的 服务 器 上 挂 载 这 个 卷 到 某 个 盘 符 
(Windows) 或 者 目录 CUNIX) 下 ， 便 可 以 继续 使 用 了 。 








2. Logcal Volume Manager 软 件 介绍 


Logcal Volume Manager (LVM) 是 Linux 系 统 上 的 一 个 开源 的 软 
件 ， 后 来 被 IJBM 的 AIX 操 作 系统 用 于 默认 的 卷 管理 模块 。LVM 相 对 于 
VxVM 来 说 ， 是 一 个 更 加 开放 、 通 用 的 卷 管理 软件 。LVM 同 样 也 可 以 对 
两 个 卷 进行 镜像 操作 。 在 本 书 第 5 章 已 经 介绍 过 LVM， 这 里 就 不 做 过 多 
描述 了 。 


17.2.4 ”通过 数据 存储 设备 软件 实现 专用 网 络 同步 

















在 前 两 种 方式 中 ， 描 述 过 数据 要 流动 ， 就 需要 一 个 到 来 提供 动力 。 
第 一 种 方式 中 ， 有 两 个 肝 ， 数 据 流 经 的 管道 最 长 ， 第 二 种 方式 中 ， 有 一 
个 条 ， 数 据 流 经 的 管道 比 第 一 种 要 短 。 这 两 种 方式 ， 和 都 被 安装 在 了 服 
务 嚣 上。 而 第 三 种 方式 ， 泵 没有 安装 在 服务 器 上 ， 也 疫 有 安装 在 网 络 设 
备 上 ， 而 是 被 安装 在 了 存储 设备 上 ， 如 图 17-10 所 示 。 











图 17-10 ”经 过 后 端 网 络 同步 数据 








数据 最 终 还 是 要 存储 在 存储 设备 上 ， 与 其 让 别人 从 目 己 喘 上 提取 数 
据 然 后 发 送 到 远 痢 ， 不 如 上 自己 动手 ， 二 第 三 种 方式 就 是 利用 的 
这 种 思想 ， 目 己 做 主将 自己 的 数据 通过 后 器 SAN 网 络 设施 传输 到 目标 设 
备 上 。 








如 图 所 示 ， 主 站 点 的 磁盘 阵列 设备 上 的 同步 软件 ， 从 目 生 的 一 个 卷 
(LUN A) 提取 数据 ， 通 过 SAN 交 换 机 传输 给 了 备份 站 点 的 磁盘 阵列 设 
备 上 的 同步 软件 接收 端 ， 并 将 接收 到 的 数据 写 入 镜像 郑 CLUN B) 。 


数据 流 的 路 径 如 下 : 本 地 磁盘 阵列 ~ 本 地 SAN 网 络 交 换 设施 ~ 电信 
部 门 交换 机 组 〈 如 果 有 ) ”~ 远 端 SAN 网 络 交 换 设 施 - 远 端 磁盘 阵列 。 








路 径 比 第 二 种 方式 又 少 了 两 步 。 更 加 重要 的 是 ， 这 种 方式 彻底 解脱 
了 服务 右 ， 服 务 硕 上 不 需要 增加 任何 额外 的 负担 ， 所 有 工作 全 部 由 磁盘 
阵列 设备 目 己 完成 。 


提示 :在 本 书 第 5 章 详细 讲解 过 磁盘 阵列 。 磁 盘 阵 列 本 身 就 是 
一 个 计算 机 系统 ， 有 自己 的 CPU、RAM、ROM， 甚 至 有 自己 
的 磁盘 。 磁 盘 阵 列 就 是 一 台 管 理 和 虚拟 化 大 量 物理 磁盘 的 主机 
系统 。 既 然 是 主机 系统 ， 那 当然 可 以 在 其 上 运行 各 种 功能 的 软 
件 了 。 所 以 ， 这 种 数据 同步 软件 应 运 而 生 。 

目前 几乎 每 个 广 家 的 高 端 磁盘 阵列 设备 ， 都 具有 数据 同步 功 

能 。 比 如 IBM 公 司 DS 系 列 盘 阵 上 的 数据 同步 功能 叫做 Remote 

Mirror，HDS 公 司 的 叫做 TrueCopy，EMC 公 司 的 叫做 SRDEF。 

不 管 叫 什么 ， 它 们 的 思想 和 原理 都 是 一 样 的 ， 只 不 过 在 实现 方 
法 和 效果 上 有 所 不 同 。 








这 种 方式 的 数据 同步 ， 由 于 撒 层 存储 设备 不 会 识别 卷 上 的 文件 系 
统 ， 所 以 同步 的 是 块 而 不 是 文件 ， 也 就 是 说 存储 系统 只 要 发 现 某 卷 上 的 
茶 个 块 变 化 了 ， 束 会 把 这 个 块 复制 到 远程 设备 上 。 此 外 ， 备 份 站 点 的 存 
储 设 备 必须 和 主 站 点 的 存储 设备 型 号 一 致 ， 因 为 不 同 广 家 的 磁盘 阵列 产 
品 之 间 无 法 做 数据 同步 。 而 在 主机 上 的 同步 引擎 ， 就 没有 这 种 限制 ， 因 
为 主机 上 的 同步 软件 所 操作 的 是 操作 系统 卷 ， 而 不 是 磁盘 阵列 上 的 卷 ， 





操作 系统 隐藏 了 撒 层 存储 阵列 上 的 卷 。 不 管 什么 三 家 什么 型 号 的 盘 阵 ， 
经 过 了 操作 系统 的 屏蔽 ， 对 应 用 程序 看 来 ， 统 统 都 是 一 个 卷 ， 或 者 一 个 
盘 符 或 目录 。 


17.2.5 ”案例 : IBM 人 公司 Remote Mirror 容 灾 实 施 


Remote Mirror 是 IBM 公 司 的 DS4000 系 列 中 端 磁 盘 阵 列 上 的 一 个 软件 
模块 ， 其 功能 就 是 将 本 地 磁盘 阵列 上 某 个 或 者 某 些 卷 的 数据 ， 同 步 到 远 
端 磁 盘 阵 列 上 对 应 的 卷 ， 文 持 同步 和 异步 复制 ， 文 持 一 致 性 组 。 





某 企业 存储 系统 如 图 17-11 所 示 。 




















图 17-11 ” 某 企业 存储 系统 图 





这 个 企业 有 两 台 DS4500 磁 盘 阵 列 ， 主 、 备 份 站 点 各 一 台 。 现 在 将 
主 站 点 的 两 个 卷 LUN A 和 LUN B 同 步 到 备份 站 点 的 两 个 卷 LUN C 和 LUN 
D 上 。 此 时 需要 启动 DS4500 的 Remote Mirror 功 能 。 启 用 这 个 功能 ， 要 求 
主 站 点 和 备份 站 点 上 必须 分 别 建立 一 个 用 于 数据 缓冲 以 及 相关 重要 数据 
存放 的 卷 ， 且 必须 为 镜像 卷 ， 大 小 100MB 即 可 。 


(1) 在 Storage Manager 配 置 界面 中 ， 选 择 Storage Subsystem -~ 
remote mirror -~ Active 染 单 命令 ， 选 择 在 现 有 的 array 上 建立 一 个 mirror 
的 Repository 逻 辑 卷 ， 如 图 17-12 所 示 。 








图 17-12 ”创建 Repository 卷 


(2) 单 击 Next 按 钮 ， 弹 出 如 图 17-13 所 示 的 对 话 框 ， 提 示 DS4500 磁 
盘 阵 列 将 前 端的 2 号 端口 专门 用 于 连接 远程 的 磁盘 阵列 设备 来 传输 数 
据 ， 所 以 这 个 端口 将 禁止 用 于 其 他 主机 的 连接 。 








中 
tn 


图 17-13 ”重要 提示 窗口 





(3) 单 击 Finish 按 钮 ， 提 示 在 备份 节点 上 也 需要 相同 的 操作 ， 如 图 
17-14 所 示 。 





图 17-14 ”提示 备份 节点 需要 相同 的 操作 





(4) 主 站 点 上 的 两 个 Repository 建 立成 功 后 的 界面 ， 如 图 17-15 所 





图 17-15 ”成 功 建立 Repository 卷 





(5) 在 备份 站 点 上 重复 上 述 步 又 。 然 后 ， 在 备份 站 点 磁盘 阵列 上 
建立 两 个 目标 卷 ， 大 小 必须 大 于 源 卷 ， 如 图 17-16 所 示 。 





图 17-16 ”建立 两 个 目标 卷 











(6) 在 主 节点 上 右 击 Create Remote Mirror， 如 图 17-17 和 图 17-18 所 





图 17-17 创建 远程 镜像 图 17-18 ”创建 远程 镜像 





(7) 此 时 ， 本 地 磁盘 阵列 会 显示 出 网 络 上 的 另 一 人 台 破 盘 阵 列 设 
备 ， 如 图 17-19 所 示 。 


图 17-19 ”远程 设备 列表 








(8) 选择 备份 磁盘 阵列 上 的 镜像 目标 盘 ， 如 图 17-20 所 示 。 





图 17-20 “远程 设备 上 的 卷 列表 


所 示 。 


(9) 选择 模式 ， 如 图 17-21 所 示 。 
图 17-21 ”同步 或 者 异步 模式 选择 


(10) 设置 同步 的 优先 级 ， 如 图 17-22 所 示 。 








图 17-22 ”同步 优先 级 选择 
(11) 输入 “yes” 以 便 确 认 操 作 ， 如 图 17-23 所 示 。 
图 17-23 确认 
(12) 完成 后 出 现 如 图 17-24 所 示 的 提示 框 。 
图 17-24 ”成 功 提示 
(13) 用 同样 的 方法 作 男 外 一 个 确认 提示 ， 如 图 17-25 所 示 。 
图 17-25 ”确认 提示 
(14) 完成 后 ， 监 控 主 站 点 磁盘 阵列 的 变化 ， 如 图 17-26 所 示 。 
图 17-26 镜像 后 卷 图 标的 变化 
(15〉 监控 备份 站 点 磁盘 阵列 的 变化 ， 如 图 17-27 所 示 。 
图 17-27 备份 站 点 图 标的 变化 


(16) 主 站 上 右 击 源 盘 /属性 可 以 查看 镜像 的 完成 情况 ， 如 图 17-28 


图 17-28 ”镜像 状态 窗口 





(17) 备份 站 方法 相同 ， 如 图 17-29 所 示 。 


图 17-29 备份 站 镜像 状态 窗口 








17.2.6 ”小 结 


纵 观 以 上 三 种 数据 同步 的 方式 ， 可 以 肥 现 以 下 特点 。 





第 一 种 方式 数据 经 过 的 路 径 最 长 ， 同 步 实 时 性 最 兰 ， 但 是 也 最 康 


ES 
二 > 
O 





第 二 种 方式 数据 经 过 的 路 径 适 中 ， 数 据 同 步 实 时 性 强 ， 但 是 对 后 站 
链 路 要 求 比 第 一 种 高 ， 不 适合 大 量 数据 同步 。 





第 三 种 方式 ， 数 据 经 过 的 路 径 最 短 ， 对 服务 器 性 能 没有 影响 ， 但 是 
仍然 不 适合 在 远 距 离 低速 链 路 的 环境 下 运行 ， 而 且 还 不 能 保证 数据 对 应 
用 程序 的 可 用 性 。 因 为 存储 设备 与 应 用 程序 之 间 还 有 操作 系统 这 一 层 ， 
操作 系统 有 自己 的 缓存 机 制 ， 如 果 存 储 设备 上 的 数据 同步 引擎 没有 与 操 
作 系 统 配合 展 好 的 话 ， 很 有 可 能 造成 数据 的 不 一 致 性 ， 这 样 会 影响 到 应 
用 程序 ， 甚 衬 使 应 用 程序 朋 江 。 








主 站 点 发 生 故 障 之 后 ， 备 份 站 点 的 存储 设备 会 感知 到 ， 然 后 强行 接 
管 主 站 点 的 工作 ， 断 开 同 步 连接 ， 备 份 站 点 成 为 当前 的 主 站 点 ， 接 受 应 
用 程序 的 读 写 操作 ， 并 记录 目 从 断 开 连 接 之 后 发 生变 化 的 数据 其 。 待 探 
测 到 主 站 点 恢复 正 币 之 后 《或 者 手动 重新 配置 同步 ) ， 备 份 站 反 先 将 变 
化 的 数据 块 复制 回 原来 的 主 站 点 ， 复 制 完 成 后 ， 原 来 的 主 站 点 再 次 接管 
回 主 角色 ， 成 为 当前 的 主 站 点 ， 接 受 应 用 程序 的 读 写 操作 。 











17.3 ”上 容 灾 中 数据 的 同步 复制 和 异步 复制 
17.3.1 同步 复制 例 解 


下 面 分 析 一 个 实际 容 灾 案例 中 数据 的 流动 情况 。 这 是 一 个 基于 存储 
设备 的 目 主 同 步 的 环境 ， 如 图 17-30 所 示 。 








图 17-30 ”同步 复制 的 过 程 





(1) 东 时 刻 ， 主 站 点 服务 器 加 磁盘 阵列 发 出 一 个 IO 请 求 ， 回 菏 个 
LBA 写 入 数据 。 竺 写 的 数据 已 经 进入 了 磁盘 阵列 的 缓存 中 ， 但 是 此 时 破 
盘 阵 列 控制 器 不 会 给 服务 器 的 SAN 网 络 适 配器 驱动 程序 发 送 写 入 成 功 的 
应 答 ， 所 以 发 起 这 个 IO 的 应 用 程序 也 不 会 得 到 写 入 成 功 的 应 答 。 








(2) 主 站 点 磁盘 阵列 将 变化 的 数据 从 缓存 中 写 入 LUN A 中 《根据 
控制 器 策略 ， 写 入 一 般 会 有 延迟 ) 。 与 此 同时 ， 主 站 点 的 数据 同步 引擎 
获知 到 了 这 个 变化 ， 立 即将 变化 的 数据 块 从 缓存 中 直接 通过 SAN 交 换 机 
发 往 备份 站 点 的 磁盘 阵列 上 的 缓存 中 。 





(3) 备份 站 点 磁盘 阵列 上 运行 的 数据 同步 引擎 接收 庙 成 功 地 接收 
到 数据 块 之 后 ， 会 在 底层 FC 协议 隐 式 地 发 送 一 个 ACK 应 答 ， 或 者 通过 
上 层 显 式 地 发 送 给 主 站 点 一 个 应 答 。 


(4) 主 站 点 接收 到 这 个 应 答 之 后 ， 立 即 向 服务 器 发 送 一 个 FC 协议 
的 隐 式 ACK 应 答 ， 这 样 ， 服 务 器 上 的 FC HBA 了 驱动 程序 便 会 探测 到 发 送 
成 功 ， 从 而 一 层 层 向 操作 系统 的 更 上 层 发 送 成 功 信 号 。 最 终 应 用 程序 会 
得 到 这 个 成 功 的 信号 。 








(5) 如 果 按 照 上 述 方式 进行 ， 即 如 果 备 份 站 点 的 磁盘 阵列 由 于 茶 


种 原因 迟 迟 未 收 到 数据 ， 则 不 会 发 送 应 答 信 号 ， 那 么 主 站 点 的 磁盘 阵列 
控制 器 也 就 不 会 给 服务 器 发 送 写 入 成 功 的 信号 ， 这 样 服务 器 上 的 应 用 程 
序 就 会 处 于 等 待 状态 ， 造 成 应 用 程序 等 待 ， 从 而 连接 应 用 程序 的 客户 端 
也 得 不 到 啊 应 。 如 果 应 用 程序 使 用 的 是 同步 1I0， 则 其 相关 的 进程 或 者 线 
程 就 会 被 挂 起 。 这 种 现象 也 叫做 IO ”Wait， 即 IO 等 待 ， 意 思 就 是 向 存储 
设备 发 起 一 个 IO 而 迟 迟 接收 不 到 写 入 成 功 的 应 答 信号 。 如 果 连 接 两 个 站 
点 之 间 的 网 络 链 路 出 现 拥塞、 故障 ， 便 会 发 生 IO Wait。 





上 述 的 数据 复制 方式 ， 束 叫做 同步 复制 ， 因 为 主 站 点 必须 等 待 备份 
站 点 的 成 功 信 和 号， 两边 保持 严格 的 同步 ， 步 调 一 怪 ， 一 采 俱 末 ， 一 损 俱 


损 。 
17.3.2 有 寞 步 复 制 例 解 


再 来 看 另外 一 种 实现 方式 ， 如 图 17-31 所 示 。 








图 17-31 异步 复制 的 过 程 





(1) 某 时 刻 ， 主 站 扣 服 务 占 向 人 磁 抢 阵列 发 出 一 个 10 请 求 ， 同 菏 个 
LBA 写 入 数据 。 待 写 的 数据 已 经 进入 了 磁盘 阵列 的 缓存 中 ， 但 是 此 时 磁 
盘 阵 列 控制 器 不 会 给 服务 器 的 SAN 网 络 适 配器 驱动 程序 发 送 写 入 成 功 的 
应 答 ， 所 以 发 起 这 个 IO 的 应 用 程序 也 不 会 得 到 写 入 成 功 的 应 答 。 








(2) 主 站 扣 人 磁盘 阵列 控制 器 根据 集 略 ， 如 果 设 置 为 Write ”Back 模 
式 ， 则 在 第 一 步 之 后 并 即 向 服务 器 友 送 FC 协议 的 底层 应 答 。 如 果 设 置 
为 Write Through 模 式 ， 则 先 将 数据 写 入 LUN A， 然 后 再 回 服 务 器 应 答 。 


(3) 主 站 点 磁盘 阵列 将 这 份 数据 通过 SAN 网 络 及 送 给 备份 站 点 的 
磁盘 阵列 缓存 中 。 


(4) 备份 站 点 磁盘 阵列 成 功 接收 后 ， 返 回 成 功 信号 。 


如 果 按 照 上 述 方式 进行 ， 即 ， 主 站 点 磁盘 阵列 只 要 接收 到 服务 如 写 
入 的 数据 ， 融 立即 同 服 务 需 返回 成 功 信 和 号， 这样 应 用 程序 不 需要 等 待 ， 
数据 同步 动作 不 会 影响 应 用 程序 的 啊 应 时 间 。 问 服务 器 发 送 变 化 的 数 
据 ， 可 以 在 稍 后 进行 ， 而 不 必 严 格 同步 。 这 种 数据 复制 的 方式 就 叫做 姑 
步 复 制 。 也 就 是 说 两 边 步 调 无 须 一 致 ， 保 证 重要 的 事情 先 完 成 ， 不 重要 
的 稍 后 再 说 。 一 旦 遇 到 网 络 连接 阻 奢 或 者 中 断 ， 只 要 服务 需 还 能 访问 本 
地 的 磁盘 阵列 ， 那 么 应 用 惑 不 会 受 丝 坚 影响 ， 本 地 磁盘 阵列 会 记录 目 从 
网 络 断 开 之 后 ， 本 地 卷 上 所 有 发 生变 化 的 数据 块 的 位 置 ， 竺 网络 恢复 之 
后 ， 本 地 磁盘 阵列 会 根据 这 些 记 录 ， 将 发 生变 化 的 数据 块 继续 复制 到 远 
程 备份 磁盘 阵列 。 














有 得 必 有 失 。 异 步 复制 保证 了 服务 器 应 用 程序 的 响应 速度 ， 然 而 付 
出 了 代价 ， 这 个 代价 就 是 牺牲 了 主 站 点 和 备份 站 点 数据 的 严格 一 致 。 主 
站 点 的 数据 和 备份 站 点 的 数据 会 有 一 个 间隙 〈GAP) ， 也 就 是 未 被 成 功 
复制 到 远 端 而 积压 在 本 地 的 数据 。 此 时 如 果 主 站 点 一 旦 发 生 故障 ， 这 部 
分 数据 将 永久 丢失 。 而 同步 复制 方式 下 ， 没 有 间隙 ， 如 果 主 站 点 发 生 了 
故障 ， 备 份 站 点 的 数据 就 是 主 站 点 发 生 故 障 那个 时 刻 的 严格 数据 镜像 ， 
不 会 有 数据 丢失 。 同 样 ， 同 步 复制 的 代价 ， 就 是 牺牲 了 服务 器 的 应 用 程 
序 响 应 时 间 。 

















提示 : ”在 实际 容 灾 系 统 设计 的 时 候 ， 一 定 要 考虑 这 一 点 ， 要 
明白 用 户 是 愿意 牺牲 数据 安全 性 来 换取 高 啊 应 时 间 ， 还 是 愿意 
牺牲 啊 应 时 间 来 换取 数据 的 安全 性 。 


目前 很 多 设备 厂商 都 有 折 中 的 解决 方案 ， 比 如 在 网 络 正 常 的 情况 
下 ， 实 现 同步 复制 ， 一 旦 检测 到 网 络 连接 超时 ， 则 转 为 异步 复制 ， 待 网 


络 正 党 后 ， 再 转 为 同步 复制 。 


17.4 容 灾 系统 数据 一 致 性 保证 与 故障 恢复 机 制 


本 书 第 16 章 中 在 介绍 CDP 的 时 候 曾经 提 过 数据 一 致 性 的 问题 。 本 节 
将 具体 分 析 一 下 数据 一 致 性 的 保证 办 法 和 具体 技术 细节 。 


17.4.1 数据 一 致 性 问题 的 产生 


设想 这 样 一 种 情况 ， 如 图 17-32 所 示 ， 主 机 HOST 上 运行 了 一 个 数据 
库 系 统 ， 数 据 库 将 Online Log 存 放 在 本 地 站 点 存储 设备 的 Log 卷 中 ， 数 据 
文件 存放 在 DAT 卷 中 。 





图 17-32 ”数据 一 致 性 示例 








(1) 某 时 刻 ， 数 据 库 同 Log 中 写 入 了 一 条 Transaction 记 录 ， 主 机 将 
这 个 针对 Log 卷 的 写 请 求 发 送 给 本 地 站 点 存储 设备 ， 并 等 待 写 入 成 功 的 
SCSI 应 答 。 


(2) 本 地 站 点 存储 设备 接收 到 了 针对 Log 卷 的 写 IO， 在 将 数据 写 入 
Log 卷 的 同时 ， 将 这 份 IO 数据 发 送 至 远程 容 灾 站 点 的 存储 设备 。 





(3) 远程 存储 设备 接收 到 这 个 针对 Log 卷 的 IO0， 立 即将 其 写 入 缓存 
(或 者 写 入 磁盘 ， 视 Cache 写 集 略 而 定 )， 并 通知 本 地 站 点 存储 设备 IO 
完成 。 


(4) 本 地 存储 设备 接收 到 远程 IO 完成 的 消息 ， 立 即 通知 HOST 主机 
本 次 针对 Log 卷 的 写 IO 完 成 。 


在 主机 上 的 数据 库 系 统 接收 到 Log 写 入 成 功 之 后 ， 才 可 以 将 对 应 的 
Transaction 数 据 写 入 数据 文件 ， 如 宋 数据 库 并 未 接收 到 成 功 的 消 轧 ， 则 


不 会 继续 下 一 步 动作 。 在 将 数据 写 入 DAT 卷 的 时 候 ， 系 统 进 行 与 刚才 的 
4 步 相 同 的 动作 。 可 以 看 到 ， 在 这 种 完全 同步 的 数据 复制 情况 下 ， 不 会 
产生 任何 数据 一 致 性 问题 ， 写 IO 完全 按照 先后 顺序 被 同时 体现 到 本 地 和 
远程 存储 系统 中 ， 任 何 一 步 中 断 ， 下 一 步 就 不 会 发 生 。 


注意 : ”同步 10 所 能 严格 保证 的 也 只 是 灾 备 曾 数 据 的 时 序 一 致 
性 ， 而 不 能 保证 到 应 用 层 的 一 致 性 。 为 何 呢 ? 因为 比如 数据 库 
系统 ， 都 有 目 己 的 缓存 ， 其 中 包含 有 大 量 的 脏 数据 ， 只 要 这 些 
脏 数据 不 被 刷 盘 ， 那 么 存储 系统 就 算是 用 了 同步 1D， 也 不 能 把 
这 些 脏 数 据 同 步 到 远程 存储 中 。 而 异步 数据 复制 则 可 以 使 用 运 
行 在 客户 器 的 代理 程序 ， 在 每 次 数据 复制 触发 之 前 ， 通 过 代理 
程序 将 对 应 应 用 系统 的 及 数据 刷新 到 存储 系统 中 ， 然 后 再 触发 
一 份 本 地 存储 的 快照 ， 然 后 再 触发 数据 复制 过 程 ， 这 样 就 可 以 
保证 应 用 级 别 的 数据 一 致 性 了 。 

















然而 ， 在 开 步 数据 复制 过 程 中 ， 事 情 可 就 不 是 这 样 了 ， 会 出 现 这 样 
一 种 情况 ， 即 先后 发 生 的 两 个 有 逻辑 关联 性 的 时 间 ， 在 被 复制 到 远程 站 
点 之 后 ， 远 程 系统 可 能 只 保存 了 后 来 发 生 的 事件 ， 而 先 发 生 的 事件 却 没 
了 。 这 就 是 彻底 的 数据 不 一 致 ， 严 重 时 会 导致 应 用 程序 在 分 析 这 些 数据 
时 产生 寞 常 甚至 无 法 成 功 启动 ， 最 严重 的 则 是 应 用 程序 成 功 局 动 了 ， 但 
古 没 有 一 致 性 检查 机 制 ， 直 接 在 这 份 不 一 致 的 逻辑 错乱 数据 基础 上 继续 
运行 处 理 ， 这 种 无 知行 为 可 能 会 造成 更 加 惨痛 的 后 果 ， 比 如 程序 给 出 了 
不 符合 实际 的 错误 数据 从 而 影响 人 类 的 行为 。 











如 图 17-33 所 示 ， 同 样 为 上 述 的 拓扑 ， 复 制 方式 改 为 异步 方式 。 


图 17-33 ”数据 一 致 性 示例 





(1) 某 时 刻 ， 主 机 向 本 地 存储 的 Log 吞 写 入 一 份 数据 。 


(2) 本 地 存储 设备 接收 到 这 份 IO 数据 之 后 ， 将 其 写 入 缓存 ， 然 后 
立即 将 写 入 成 功 的 应 答 消 息 返 回 给 主机 。 


(3) 主机 数据 库 系 统 得 知 成 功 写 入 Log 的 消息 ， 随 后 便 做 出 判断 将 
数据 写 入 数据 文件 。 向 DAT 卷 发 送 了 一 份 写 IO 数据 。 


(4) 本 地 存储 系统 收 到 这 份 数据 之 后 ， 立 即将 其 写 入 缓存 并 且 将 
写 入 成 功 的 消息 返回 给 主机 。 





(5) 稍 后 ， 寞 步 复 制 过 程 开 始 ， 本 地 存储 系统 由 于 各 种 原因 ， 首 
先 将 DAT 疮 刚才 被 更 新 的 那 份 数 据 发 送 到 了 远程 存储 系统 。 


(6) 远程 存储 系统 接收 到 这 份 数据 ， 将 其 写 入 缓存 然后 立即 返回 
写 入 成 功 的 信息 给 本 地 存储 。 


(7) 之 后 ，Log 卷 刚才 被 更 新 的 那 份 数据 也 被 友 送 ， 在 疝 未 发 送 完 
成 之 前 ， 本 地 站 后 友 生 灾难 ， 整 个 机 房 由 于 地 宕 完全 十 塌 。Log 卷 刚 被 
更 新 的 数据 或 变 为 电磁 波 永 远 消失 在 宇宙 中 。 














我 们 来 看 一 下 灾难 发 生 之 后 ， 远 程 站 点 的 数据 状态 。 很 显然 ， 在 主 
站 点 首先 发 生 的 事件 ( 写 Log〉 并 没有 被 同步 到 远程 站 点， 而 后 来 发 生 
的 事件 “ 写 数据 文件 ) 却 被 同步 到 了 远程 站 点 。 此 时 远程 站 点 的 数据 影 
像 是 一 份 罗 和 辑 错乱 的 不 一 致 影像 ， 需 要 使 用 和 处 理 这 份 数据 的 应 用 程序 
来 对 数据 做 一 致 性 检查 从 而 恢复 数据 的 一 致 性 。 然 而 这 个 过 程 也 是 有 代 
价 的 ， 为 了 保证 一 致 性 ， 很 有 可 能 要 丢失 一 部 分 原本 不 应 该 丢失 的 数 
据 。 


有 人 在 此 会 产生 一 个 质疑 ， 是 的 ， 我 们 这 就 来 论述 为 何 本 地 站 后 不 





能 按照 顺序 来 发 送 所 有 的 写 IO 数据 。 如 宋 按照 顺序 发 送 ， 比 如 使 用 TCP 
协议 来 发 送 ， 不 就 可 以 保证 发 送 庙 和 接收 端 的 数据 是 绝对 按照 顺序 排列 
的 么 ? 当然 是 这 样 的 ， 本 地 站 点 在 传送 数据 所 利用 的 协议 这 方面 确实 没 
有 问题 ， 底 层 协议 绝对 是 遵循 先后 顺序 的 。 





问题 : “本 地 站 点 在 将 数据 传送 给 传输 协议 进行 传输 的 时 候 ， 
却 并 不 是 按照 写 IO 发 生 顺 序 的 。 什 么 ? 怎么 可 能 ， 难 道 本 地 存 
储 设备 不 知道 IO 发 生 的 先后 顺序 么 ? 它 不 会 记录 一 下 么 ? 答对 
了 ， 本 地 存储 系统 真 的 就 不 会 记录 这 些 IO 的 先后 顺序 。 








17.4.2 ”对 异步 数据 复制 过 程 中 一 致 性 保证 的 实现 方式 





1. 异步 数据 复制 实现 方式 及 存在 的 一 致 性 问题 


为 何 本 地 站 点 不 去 记录 号 IO 的 先后 顺序 呢 ? 管 案 是 为 了 市 省 计算 次 
源 和 空间 。 首 先 ， 可 以 在 脑海 中 演绎 一 下 ， 一 个 写 IO 进 来 之 后 ， 系 统 首 
先 要 做 的 就 是 尽快 高 效 地 将 其 写 入 对 应 卷 对 应 的 磁盘 ， 而 不 是 在 缓存 中 
排队 等 竺 被 复制 到 远程 站 点 。 束 算是 系统 先 将 这 些 数据 写 入 ， 之 后 驻 留 
在 缓存 中 直到 被 传送 ， 这 样 做 依然 也 会 耗费 很 大 的 缓存 空间 ， 而 且 这 样 
做 搞 不 好 会 积压 越 来 越 长 的 队列 ， 致 使 系统 进退 两 难 ， 即 使 其 他 任务 再 
忙 也 不 得 不 先 处 理 这 些 积压 的 队列 ， 叶 致 系统 前 端的 性 能 大 受 影 响 。 




















那 怎 么 办 呢 ? 又 不 记录 顺序 ， 又 不 让 积压 在 缓存 排队 ， 就 这 么 让 这 
些 数据 自由 地 写 在 人 硬盘 上 石沉大海 ? 竺 到 要 传送 这 些 数 据 到 远 端 时 ， 我 
们 又 该 怎样 大 海 捞 针 呢 ?呵呵 ， 说 道 捞 针 ， 您 还 真 说 对 了 ， 解 决 这 个 问 
题 的 办 法 ， 就 是 用 针 ， 什 么 针 ? 指针 啊 ! 呵呵 ， 我 们 是 一 定 要 记录 这 些 
IO 的 行踪 的 ， 绝 对 不 能 让 它们 溜 掉 ， 所 以 ， 在 数据 复制 开始 之 前 ， 我 们 
就 已 经 为 整个 卷 创建 了 一 份 Bitmap， 如 图 17-34 所 示 。 








图 17-34 同步 位 图 





初始 Bitmap 古 全 为 0 的 ， 只 要 接收 到 一 个 针对 源 卷 攻 地 址 的 写 IO， 
就 立即 将 Bitmap 中 对 应 这 个 地 址 的 位 置 为 1， 再 来 一 个 ， 就 再 置 一 个 ， 
已 经 置 过 位 的 就 不 再 置 了 ， 反 正 已 经 被 覆盖 过 多 次 了 。 系 统 就 这 样 一 直 
置 下 去 ， 你 甚至 可 以 在 系统 将 整个 Bitmap 都 置 成 了 全 1 之 前 ， 什 么 都 不 
做 ， 数 据 不 被 复制 ， 这 么 长 时 间 了 都 不 作为 ， 也 不 怕 此 时 一 旦 发 生 灾 
难 ， 这 一 整 郑 的 变化 数据 都 没 被 复制 到 远程 。 估 计 没 人 打算 这 么 做 ， 一 
旦 数据 复制 动作 被 触 友 ， 则 系统 会 不 停 地 从 Bitmap 中 的 第 1 位 开始 向 最 
后 一 位 扫描 ， 每 当 发 现 人 条 位 为 1， 则 表明 这 一 位 对 应 的 源 着 地 址 上 的 数 
据 疝 未 被 传送 到 远程 ， 则 系统 立即 读 出 源 卷 对 应 地 址 的 数据 并 传送 到 远 
程 ， 传 送 成 功 之 后 ， 立 即将 这 个 位 置 为 0%， 表 明 此 地 址 数据 已 被 传送 ， 
然后 接着 扫 摘 下 一 位 ， 做 同样 的 动作 。 然 而 ， 具 体 实现 的 机 制 并 不 一 定 
就 得 是 一 位 一 位 地 扫描 ， 可 以 设 定 一 个 扫描 窗口 长 度 ， 一 批 一 批 地 扫 
描 ， 数 据 和 被 一 批 一 批 地 读 出 ， 一 批 一 批 地 传送 ， 一 批 一 批 地 置 0。 扫 描 
到 表 尾 之 后 立即 打 回 表 头 再 次 重新 扫描 。 这 个 Bitmap 是 不 断 地 被 置 1 和 
置 0 的 ， 数 据 写 线程 和 数据 复制 线程 ， 线 程 同时 操作 这 个 表 ， 争 抢 这 个 
表 ， 有 可 能 刚 被 置 0 的 位 接着 又 被 置 了 1， 也 就 是 对 应 的 地 址 又 说 写 入 了 
数据 。 


























数据 复制 线程 和 数据 写 线程 很 有 可 能 出 现 苋 争 情况 ， 比 如 复制 线程 
扫描 到 某 个 为 1 的 位 并 且 准 备 读 取 对 应 的 数据 进行 传送 ， 但 是 数据 还 没 
有 被 传 送 完 之 前 ， 数 据 写 线程 收 到 针对 这 个 地 址 的 又 一 次 写 I9， 则 如 采 
此 时 写 线程 再 次 将 这 一 位 置 为 1 的 话 《〈 原 本 就 是 1) ， 当 复制 线程 成 功 传 
送 完 数据 之 后 ， 将 会 把 这 个 位 置 为 0， 而 这 是 不 应 该 发 生 的 ， 也 就 是 说 
漏 掉 了 一 个 写 IO 没有 被 复制 到 远程 ， 这 在 数据 一 致 性 上 是 绝对 不 允许 
的 。 但 是 这 里 是 开 步 复制 ， 利 用 这 种 扫描 Bitmap 的 方式 进行 的 异步 复制 








本 来 就 不 可 能 保证 数据 的 先后 性 ， 也 就 根本 谈 不 上 一 致 性 ， 那 么 刚才 那 
种 竞争 引发 的 问题 是 否 束 可 以 名 略 不 计 了 呢 ? 





不 可 以 。 如 果 最 后 被 更 新 的 地 址 的 数据 在 很 长 时 间 里 (或 者 永远 ) 
都 不 被 再 次 更 新 ， 那 么 最 后 一 次 的 更 新 就 需要 等 竺 很 长 时 间 ， 或 者 永远 
无 法 传递 到 远程 。 一 旦 在 这 段 时 间 内 《最 后 一 次 漏 掉 更 新 后 直到 下 一 次 
这 个 地 址 再 次 被 更 改 的 期 间 〉，， 操 作 员 希 望 将 异步 模式 变 为 同步 模式 ， 
先 暂 停 应 用 程序 ID， 等 竺 数据 完全 同步 到 远程 之 后 ， 将 复制 关系 改 为 同 
步 ， 一 段 时 间 内 ， 这 个 地 址 仍然 未 被 更 改 ， 而 此 时 系统 发 生 灾难 。 操 作 
员 庆 幸 地 认为 两 个 站 点 的 数据 是 完全 一 致 的 《由 于 之 前 变 为 了 同步 模 
式 ) 。 可 惜 ， 他 错 了 ， 他 被 这 个 Bug 搞 惨 了 ， 由 于 最 后 那个 被 更 新 的 数 
据 块 永远 也 没有 被 同步 到 远程 ， 而 这 个 数据 块 内 恰好 又 是 一 笔 非 常 关键 
的 数据 ， 寞 地 局 动 应 用 程序 之 后 ， 由 于 数据 的 丢失 ， 给 业务 带 来 了 巨大 
的 损失 。 当 然 ， 这 是 一 个 极端 的 例子 ， 但 是 也 不 能 不 防止 。 所 以 ， 还 是 
引入 避免 竞争 的 设计 为 好 ， 比 如 在 发 生 置 位 冲突 时 ， 数 据 写 线程 先 将 保 
存 状 态 ， 然 后 继续 执行 ， 等 竺 复制 线程 结束 传送 置 位 之 后 ， 再 重新 置 


位 。 





注意 : ”数据 写 线 程 在 接收 到 写 IO 之 后 一 定 要 先 将 Bitmap 置 位 
成 功 后 再 将 数据 写 入 源 卷 ， 数 据 写 入 源 卷 后 才 通 知 上 层 成 功 完 
成 。 其 中 任何 一 步 被 异常 中 断 的 话 ， 那 么 随后 的 动作 都 必须 停 
止 。 完 其 原因 ， 是 因为 如 果 先 将 数据 写 入 硬盘 后 再 置 位 ， 一 旦 
在 尚未 置 位 成 功 前 发 生 寞 常 中 断 ， 比 如 系统 Down 机 ， 则 此 时 
Bitmap 中 对 应 这 个 地 址 的 位 依然 为 0《 如 宋 置 位 前 惑 为 1 则 忽略 
本 情景 ) ， 而 源 卷 对 应 地 址 却 被 更 改过 了 数据 ， 此 时 ， 再 次 同 
步 时 ， 就 会 发 生 与 上 文 相同 的 Bug。 而 如 果 先 置 位 成 功 再 写 入 
源 卷 ， 即 便 置 位 成 功 后 ， 写 入 源 卷 之 前 ， 系 统 Down 机 ， 那 么 

















重 司 后 再 次 同步 的 过 程 就 会 将 原本 已 经 同步 的 数据 块 再 同步 一 
次 ， 无 非 就 是 浪费 了 一 点 可 以 忽略 不 计 的 链 路 带宽 ,但 是 不 会 
导致 Bug。 








在 进行 数据 异步 复制 的 初期 ， 系 统 需要 首先 将 源 卷 的 所 有 内 容 复 制 
到 目标 卷 ， 然 后 才 可 以 开始 Catchup 追 踪 不 断 变 化 的 数据 并 且 持 续 传 
送 。 这 个 步骤 叫做 初始 化 传输 。 此 时 ， 在 初始 化 传输 之 前 ， 系 统 会 生成 
一 份 全 为 1 的 Bitmap， 这 样 ， 扫 描 线程 就 需要 传输 源 着 上 的 所 有 数据 到 
远程 了 ， 其 他 后 续 步 又 与 上 文 所 述 的 后 期 Catchup 过 程 相同 ， 唯 一 区 别 
就 是 初始 化 传输 时 需要 Catchup 的 是 整个 苍 。 





这 种 数据 有 异步 复制 设计 导致 数据 传输 和 数据 写 入 的 同步 时 间 方 面 总 
有 一 段 Gap， 扫 描 线 程 在 不 断奶 赶 不 断 被 写 入 的 IO 以 将 它们 传输 至 远 
端 ， 受 制 于 系统 写 IO 负载 和 数据 传输 线路 的 因素 ， 很 少 有 两 者 齐头并进 
的 时 候 。 所 以 异步 数据 容 灾 在 主 站 点 灾难 发 生 的 时 候 几 乎 部 是 要 丢 数 据 
的 。 


由 于 针对 源 卷 的 号 IO 地 址 是 随机 的 乱 序 的 ， 而 系统 扫描 Bitmap 时 不 
能 感知 IO 的 顺序 ， 只 能 按照 自然 数 顺 序 扫描 以 便 传 送 被 更 新 的 数据 ， 这 
样 做 的 结果 就 是 ， 数 据 被 传送 到 远程 站 点 的 时 间 也 不 是 按照 写 IO 及 生 的 
先后 顺序 排列 的 ， 对 闪 接 收 和 写 入 的 时 候 当然 也 不 是 按照 先后 顺序 的 ， 
这 就 最 终 导 致 了 容 灾 端 存储 系统 中 数据 的 不 一 致 。 








如 果 用 这 种 Bitmap 记 录 模 式 来 进行 数据 异步 复制 ， 不 仅仅 是 在 多 个 
卷 之 间 可 能 发 生 不 一 致 ， 而 且 惑 算 本 地 和 远程 各 只 有 一 个 卷 ， 那 依然 也 
会 发 生 乱 序 传输 ， 也 会 不 一 致 。 


有 人 再 次 质疑 ， 称 其 有 办 法 做 到 既 按照 顺序 传输 又 不 影响 性 能 。 写 


IO 一 进来 ， 也 该 怎么 写 盘 就 怎么 写 ， 但 是 如 果 为 每 个 卷 也 创建 一 张 表 ， 
每 个 表 保 存 每 一 个 号 IO 的 LBA 地 址 和 当前 系统 的 时 间 戳 ， 如 有 果 遇 到 一 个 
以 前 已 经 保存 过 的 地 址 条 目 ， 则 删除 之 前 的 ， 保 存 最 新 的 时 间 戳 。 这 样 
系统 到 时 候 就 可 以 扫描 时 间 惟 从 而 按照 先后 顺序 发 送 数 据 了 。 











这 种 设计 存在 问题 。 首 先 ， 这 张 表 以 谁 来 排序 呢 ? LBA 地 址 还 是 时 
间 礁 ? 一 定 要 以 时 间 惟 来 排序 ， 舍 则 还 需要 做 额外 的 索引 表 以 便 查 询 ， 
既然 这 样 ， 那 么 如 果 遇 到 刚才 说 的 那 种 情况 ， 即 针对 同一 个 LBA 表 次 由 
写 IO 进 入 ， 那 么 就 删除 原来 的 条 目 ， 此 时 ， 既 然 表 是 以 时 间 戳 排序 ， 那 
么 系统 此 时 搜索 的 是 这 个 LBA 针 对 的 条 目 ，LBA 是 乱 序 的 ， 怎 么 保证 奉 
询 性 能 ?如 果 还 需要 额外 做 索引 的 话 ， 那 就 得 不 偿 失 了 。 就 算 做 了 索 
引 ， 快 速 得 到 了 对 应 条 目 将 其 删除 之 后 ， 这 个 空位 必须 要 利用 的 ， 人 否则 
表 将 无 限 扩大 ， 那 么 就 要 将 整个 底部 上 移 ， 这 些 动作 都 是 非常 耗费 资源 
的 。 


提示 : 另外 ， 时 间 戳 的 粒度 有 多 大 ? 参考 本 书 第 16 章 对 于 
CDP 回 调 粒 度 的 像 滚 论述 即 又 可 得 知 ， 这 种 设计 实际 上 也 根本 
无 法 保证 能 够 记录 每 一 个 IO 的 先后 顺序 。 所 以 ， 这 种 设计 太 过 
复杂 而 且 还 不 能 百 分 百 保 证 顺序 ， 因 此 不 能 应 用 。 








通过 快照 来 做 异步 复制 


首先 在 源 郑 上 做 快照 ， 然 后 将 这 份 快照 对 应 的 数据 块 全 部 复制 到 远 
程 站 点 。 在 复制 期 间 ， 谣 卷 数据 一 定 会 有 后 续 的 更 改 ， 不 管 它 ， 因 为 会 
被 COFW， 还 有 一 份 快照 留 确 。 等 首次 复制 完成 之 后 ， 目 标 卷 做 一 次 快 
照 ， 这 份 快照 内 容 上 等 同 于 源 卷 的 第 一 次 快照 。 一 段 间隔 之 后 ， 源 卷 再 
次 做 一 份 快照 ， 然 后 比 对 本 次 源 卷 快照 和 上 一 次 源 卷 快照 之 间 的 变化 的 
数据 块 ， 比 对 方法 见 其 他 章节 。 得 到 变化 数据 块 列表 之 后 ， 将 这 些 数据 




















块 依次 复制 到 目标 卷 ， 复 制 完 成 后 目标 卷 做 一 次 快照 ， 然 后 将 上 一 个 目 
标 卷 快照 删除 ， 同 时 ， 谣 卷 也 将 第 一 次 快照 删除 ， 两 边 各 目 都 留存 最 近 
这 一 次 快照 ， 然 后 一 段 间 隔 之 后 ， 重 复 相同 的 过 程 。 








这 种 做 法 的 好 处 是 可 以 充分 利用 原 有 的 快照 功能 ， 无 须 做 过 多 开发 
即 可 实现 远程 复制 功能 ， 但 是 做 不 到 同步 复制 ， 而 且 快照 的 间隔 不 能 过 
短 ， 所 以 RPO 会 加 长 。 但 是 不 失 为 一 种 简便 的 方法 ， 同 时 这 种 方法 在 实 
现 一 致 性 保护 方面 也 比较 容易 ， 比 如 做 快照 时 如 果 引 入 主机 闯 一 致 性 代 
理 ， 则 可 以 做 到 应 用 层 的 一 致 性 而 不 仅 是 砍 层 时 序 一 致 性 了 。 

















2. 数据 一 致 性 保证 的 办 法 





上 文中 描述 了 利用 追 踩 位 图 法 来 进行 异步 复制 过 程 中 所 存在 的 时 序 
一 致 性 无 法 保证 的 问题 。 本 节 介 绍 三 种 用 来 保证 异步 复制 过 程 中 数据 一 
致 性 的 设计 思想 和 方法 。 








1) 设计 思想 1: 基于 退 踪 日 志 法 


最 简单 的 一 种 保证 数据 时 序 一 致 性 的 方法 ， 束 是 将 所 有 进入 的 写 IO 
写 入 源 数 据 卷 的 同时 ， 将 其 复制 一 份 暂 存在 一 个 日 志 中 ， 完 全 按照 IO 进 
入 的 先后 顺序 排列 。 之 后 ， 按 照 FIFO 先 进 先 出 的 方式 将 日 志 进 行 回放 ， 
生成 数据 流通 过 网 络 传输 到 远程 阵列 中 。 这 种 方法 最 彻底 地 保证 了 时 序 
一 致 性 ， 但 是 存在 的 问题 也 不 可 忽略 ， 也 就 是 这 种 日 志 需 要 占据 大 量 空 
间 ， 如 果 对 于 一 个 写 负载 很 重 的 系统 来 讲 ， 日 志 将 占用 大 量 空 间 。 此 
外 ， 写 日 志 过 程 必须 发 生 在 IO 路 径 前 部 ， 因 为 如 果 不 在 前 部 将 IO 顺序 记 
录 下 来 ， 那 么 一 旦 等 到 写 IO 全 部 进入 后 端 Page Cache 绥 存 后 ， 将 无 法 再 
分 辨 出 顺序 。 所 以 ， 这 种 做 法 对 IO 资源 、 计 算 资 源 、 存 储 空 间 资 源 都 有 
很 大 影响 。 相 比 于 妃 踪 位 图 法 来 讲 ， 不 适合 高 负载 的 环境 下 。 














2) 设计 思想 2: 基于 退 踪 位 图 的 批量 传输 法 
(1) 单 本 地 存储 系统 解决 办 法 


通过 前 文中 对 追踪 位 图 法 的 分 析 看 到 ， 时 序 一 致 性 难以 保证 。 事 已 
至 此 ， 是 否 这 个 问题 就 无 解 了 呢 ? 难道 只 有 同步 数据 复制 才能 保证 一 致 
人 


非 也 。 人 的 智慧 是 无 穷 的 。 要 解决 这 个 问题 ， 必 须 找到 一 个 能 够 分 
状 单 个 IO 顺序 的 机 制 或 者 位 置 ， 而 且 不 能 用 时 间 惟 ， 因 为 已 经 讨论 过 时 
间 惟 的 局 限 性 了 。 而 整个 存储 系统 唯一 能 够 辨别 IO 先后 顺序 的 地 方 就 是 
总 入 口 的 IO Queue。Queue 是 一 个 先进 先 出 的 队列 ， 虽 然 队列 不 对 每 个 
IO 记录 时 间 戳 ， 但 是 如 果 在 Queue 中 任何 一 点 切 开 和 暂停， 或 者 叫 
Suspend， 就 一 定 能 够 保证 切口 两 侧 的 IO 一 定 是 按照 时 间 先 后 排列 的 。 





此 时 ， 如 果 系 统 首先 将 所 有 Suspend 之 前 发 生 的 IO 统统 复制 到 远程 
站 点 而 确保 本 地 站 点 在 传送 这 些 数 据 的 过 程 中 不 发 生 灾 难 或 链 路 问题 ， 
也 就 是 说 必须 保证 这 些 Suspend 之 前 发 生 的 所 有 写 IO 无 一 遗漏 地 被 复制 
到 远程 ， 那 么 也 就 保证 了 远程 站 点 数据 的 一 致 性 。 如 果 复 制 过 程 中 发 生 
灾难 或 者 链 路 问题 ， 即 数据 只 传输 了 一 半 ， 而 本 地 系统 在 传输 这 些 数据 
的 时 候 是 乱 序 传输 的 ， 并 不 能 分 辨 被 Suspend 之 前 发 生 的 这 些 IO 的 先后 
顺序 ， 所 以 远程 系统 中 的 那 一 半数 据 ， 很 有 可 能 就 是 不 一 致 的 。 这 个 问 
题 的 解决 办 法 我 们 在 下 文中 详细 论述 ， 在 此 我 们 先 一 路 假设 灾难 和 链 路 
问题 都 不 会 发 生 。Suspend 之 前 所 发 生 的 IO， 其 处 理 过 程 与 上 一 节 中 所 
述 的 异步 复制 过 程 相同 ， 系 统 也 同样 需要 在 Bitmap 中 标记 对 应 的 位 ， 再 
等 待 扫描 线程 的 扫描 然后 传送 。 








Suspend 之 前 发 生 的 IO 在 被 复制 到 远程 的 过 程 中 ， 被 Suspend 住 的 那 





些 写 IO 该 如 何 处 理 呢 ? 此 时 系统 绝 不 可 能 一 直 将 它们 Suspend， 因 为 异 
步 复制 是 需要 时 间 的 ， 而 主机 客户 端的 IO 雇 不 能 为 了 等 待 它们 完成 而 一 
直 被 Suspend 住 。 实 际 上 ， 当 系统 做 出 Suspend 动 作 之 后 ， 会 将 被 抬 住 的 
部 分 另存 为 一 个 新 写 IO Queue 并 且 立 即 开 始 处 理 ， 漏 下 去 的 那 部 分 
Queue 也 同时 会 被 系统 逐渐 处 理 挥 。 然 后 系统 再 从 新 Queue 中 再 次 执行 
传输 过 程 ， 周 而 复 始 。 





Suspend 





新 Queue 与 原 Queue 不 能 共用 一 份 Bitmap“〈 前 一 节 所 述 的 Bitmap) ， 
为 Suspend 之 后 系统 将 要 传输 的 只 是 被 漏 下 去 的 那 部 分 原 Queue， 只 有 
这 部 分 IO 才 会 走 前 一 节 所 述 的 异步 复制 流程 ， 更 新 Bitmap 从 而 等 得 被 扫 
描 后 传送 。 如 果 新 Queue 中 的 IO 此 时 插 进 来 ， 那 IO 的 顺序 就 无 从 保证 
了 ， 所 以 需要 为 新 Queue 也 建立 一 个 对 应 的 空 的 全 0 的 Bitmap， 同 时 在 处 
理 新 Queue 中 的 IO 的 过 程 中 更 新 这 份 新 Bitmap。 





当 系 统 将 Suspend 之 前 的 所 有 IO 复制 到 远程 的 时 候 ， 被 复制 出 去 的 
IO 在 旧 Bitmap 中 对 应 的 位 并 不 被 重 置 为 0， 目 的 是 为 了 防止 复制 过 程 被 
突然 中 断 。 如 果 一 旦 被 中 断 ， 远 程 系 统 就 需要 将 数据 回 退 到 复制 之 前 的 
状态 (下 文 详 述 ) ， 而 且 本 地 系统 的 旧 Bitmap 中 的 所 有 信息 都 需要 保 
留 ， 并 与 新 Bitmap 进 行 OR 操作 从 而 合并 为 一 份 活动 的 Bitmap， 然 后 等 
待 下 次 Suspend 的 到 来 ， 即 本 次 复制 宣告 失败 。 如 果 复 制 过 程 成 功 结 
束 ， 则 旧 活 动 Bitmap 无 须 保 留 ， 系 统 会 将 其 删除 ， 然 后 将 新 Bitmap 角 色 
转变 为 活动 Bitmap， 并 创建 一 份 新 的 空 Bitmap 以 供 下 次 Suspend 时 使 
用 。 














整个 过 程 的 示意 图 如 图 17-35 所 示 。 





图 17-35 ”批量 传送 思想 











就 这 样 ， 系 统 在 执行 完 一 次 批量 传输 后 ， 接 独 再 次 Suspend， 重 复 
刚才 的 动作 ， 周 而 复 始 地 将 本 地 存储 系统 发 生 的 写 IO 数 据 一 批 一 批 地 传 
送 至 远程 站 点 。 所 以 ， 怎 么 折腾 也 是 异步 ， 没 必要 非得 一 个 一 个 地 按照 
顺序 传送 ID， 一 批 一 批 地 传 既 简单 又 划算 。 





这 个 过 程 的 实质 其 实 就 是 批 与 批 之 间 可 以 保证 绝对 按照 时 间 顺 序 排 
列 ， 但 是 一 批 当 中 的 IO 则 无 法 判断 先后 时 间 。 所 以 上 文中 提 到 过 ， 在 批 
量 传输 过 程 中 一 定 要 保证 本 地 不 发 生 灾难 或 者 链 路 没有 问题 。 


还 没 结 束 。 细 心 的 人 已 经 发 现 了 。 上 面 的 做 法 不 正 是 刻 舟 求 剑 、 掩 
耳 盗 铃 么 ? 虽然 项 上 给 拘 住 一 下 子 ， 形 成 两 份 bitmap， 但 是 奔 下 的 卷 束 
一 个 ， 数 据 不 停 地 被 更 新 到 卷 中 的 数据 块 中 ， 而 当前 活动 bitmap 是 不 允 
许 再 更 改 的 ， 被 冻 住 了 ， 本 批 次 圾 要 传输 哪些 块 已 经 定 死 了 ， 而 这 也 正 
是 当初 为 何 要 新 生成 一 份 第 二 bitmap 的 原因 。 但 是 ， 当 前 活动 bitmap 冻 
住 了 ， 确 层 卷 却 没 有 航 冻 住 ， 所 有 更 新 都 是 直接 履 兰 源 数 据 块 的。 试想 
这 样 一 种 情况 : 东 时 刻 系统 扫描 活动 位 图 进行 批量 同步 ， 当 扫描 到 一 半 
的 时 候 ， 确 层 疮 有 茶 个 块 被 更 新 了 ， 而 这 个 其 地 址 恰好 落 在 已 扫描 完成 
的 区 域 ， 那 么 此 时 没有 任何 问题 。 但 是 后 来 ， 底 层 苍 中 某 个 块 义 被 更 新 
了 ， 而 这 个 块 地 址 恰好 落 入 了 尚未 家 扫描 到 的 区 域 ， 那 么 当 系 统 扫描 到 
活动 bitmap 中 对 应 这 个 英 的 位 的 时 候 ， 如 果 这 个 位 恰好 又 为 1， 那 么 就 
会 将 对 应 的 块 读 出 来 并 且 传 送 到 远程 。 这 样 的 话 远 问 的 数据 卷 的 状态 束 
时 序 不 一 臻 了， 因为 这 个 块 是 后 来 发 生 的 ， 在 它 之 前 还 有 一 个 块 的 更 
新 ， 而 这 笔 更 新 却 并 没有 传 到 远程 ， 这 就 是 典型 的 不 一 致 。 如 何 解 决 ? 
两 条 路 : 要 么 将 底层 卷 的 分 成 两 个 ， 要 么 就 将 底层 卷 冻 住 ， 等 本 批 次 同 
步 完 成 之 后 再 解冻 。 














显然 ， 把 卷 也 分 成 两 个 的 路 子 行 不 通 ， 动 一 动 内 存 里 的 数据 怎么 都 
行 ， 但 是 不 要 去 动 底 层 的 数据 结构 ， 人 否则 会 很 难 收场 。 那 么 就 只 能 将 诬 





层 郑 冻 住 了 ， 显 然 想到 利用 快照 技术 来 族 住 卷 ， 形 成 同步 开始 时 刻 的 一 
份 快 照 ， 这 样 的 话 ， 系 统 扫 描 活 动 bitmap 进 行 传输 的 时 候 就 不 需要 担心 
底层 卷 数据 随时 变化 而 导致 的 不 一 致 。 然 而 ， 也 没有 必要 完全 使 用 传 
统 的 快照 技术 ， 可 以 在 其 上 做 一 些 修 改 ， 删 挥 一 些 不 必要 的 功能 模块 ， 
只 保留 最 核心 的 COFW 线 程 核心 即 可 ， 并 且 其 作用 巡 辑 也 可 以 更 加 简 
化 : 





a 只 CoFW 那 些 当前 活动 bitmap 中 被 标记 为 1 的 块 ; 
m 只 CoFW 那 些 当前 活动 bitmap 中 尚未 被 扫描 到 ， 也 就 是 尚未 被 传 
送 到 远 端 的 块 。 


当 本 批 次 传输 完成 之 后 ， 删 掉 这 个 快照 。 当 下 一 批 次 同步 更 新 开始 
时 ， 再 做 快照 ， 然 后 利用 两 份 循环 位 图 完成 数据 传输 。 当 然 ， 如 果 为 了 
节省 开发 成 本 等 因 系 考 虑 ， 直 接 使 用 己 有 的 快照 模块 也 可 以 。 


(2) 多 本 地 存储 系统 解决 办 法 


以 上 的 设计 虽然 可 以 严格 保证 单 台 本 地 存储 系统 回 单 台 远程 存储 系 
统 复制 数据 时 的 数据 一 致 性 ， 但 如 果 本 地 有 多 台 物 理 上 独立 分 开 的 存储 
设备 ， 而 某 主机 上 的 某 个 应 用 程序 义 同 时 问 每 个 设备 上 的 一 个 卷 写 数 
据 ， 这 些 卷 之 间 又 有 逻辑 相关 性 ， 则 此 时 惑 必 须要 求 所 有 存储 系统 都 要 
伺机 Suspend 住 IO， 而 且 Suspend 的 时 间 点 也 需要 恰到好处 ， 不 允许 某 个 
设备 上 有 某 个 IO 是 先 于 其 他 某 设 备 的 某 IO 执 行 的 却 被 Suspend 住 ， 而 其 
他 设备 上 后 发 生 的 IO 却 没 被 Suspend 住 而 漏 下 去 执行 了 。 











这 种 目的 应 该 怎样 达到 呢 ? 让 所 有 系统 在 其 Queue 的 任意 位 置 
Suspend? 不 可 能 ， 系 统 与 系统 设计 不 同 ，Queue 也 不 同 ， 相 关联 的 IO 处 
于 各 个 系统 中 的 Queue 的 位 置 也 不 同 ， 所 以 系统 不 可 能 恰到好处 都 默契 


地 Suspend 在 一 个 一 致 点 。 本 质 上 ， 存 储 系 统 也 不 可 能 感知 其 他 系统 中 
某 IO 与 自身 系统 中 的 某 IO 是 人 否 有 逮 辑 相关 性 。 但 是 ， 我 们 可 以 巧妙 地 避 
开 这 个 问题 ， 从 一 种 根本 的 并 且 自 然 形成 的 角度 来 解决 这 个 问题 。 


设想 一 下 ， 如 果 是 从 Queue 的 中 部 某 处 来 Suspend， 则 多 个 独立 存储 
系统 一 定 要 有 机 制 来 相互 协作 ， 开 发 这 种 机 制 不 是 不 可 以 ， 而 是 得 不 偿 
失 ， 开 销 太 大 ， 有 没有 一 种 不 用 额外 开发 就 自然 存在 的 机 制 呢 ? 然 也 。 
如 果 不 是 从 Queue 中 部 来 Suspend， 而 是 所 有 设备 由 其 中 一 台 设 备 作 为 
Commander， 问 所 有 存储 系统 发 出 命令 ， 令 其 在 某 时 刻 准 点 同时 〈 关 于 
同时 ， 请 参考 下 文 论述 ) 直接 从 各 上 自 Queue 的 尾部 触发 Suspend， 即 任何 
尚未 到 达 存 储 设备 内 部 的 、 主 机 尚未 发 送 的 ， 或 者 在 主机 的 HBA 卡 
Queue 中 的 ， 或 者 已 经 发 送 但 是 依然 在 线路 上 传递 着 的 所 有 IO， 都 被 物 
理 地 隔离 到 了 所 有 存储 系统 之 外 ， 这 样 的 话 ， 所 有 存储 系统 就 都 可 以 完 
全 保证 漏 下 去 等 待 执 行 的 所 有 IO 中 的 最 晚 发 生 的 一 个 ， 与 被 抬 住 的 那个 
点 最 早 到 来 的 IO 是 先后 连续 的 了 。 触 发 Suspend 之 后 ， 按 照 与 上 一 节 中 
相同 的 步 桑 进行。 同样 ， 期 间 也 不 能 出 现 本 地 灾难 或 者 链 路 问题 。 当 所 
有 本 地 存储 系统 完成 本 批 次 的 数据 复制 之 后 ， 会 同 Commander 通 知 状 
态 ，Commander 人 确认 所 有 成 员 都 完成 任务 之 后 ， 再 次 发 起 下 一 轮 
Suspend。 如 图 17-36 为 这 种 思想 的 示意 图 。 











图 17-36 ”多 本 地 存储 系统 解决 办 法 


注意 : ”这 种 方法 要 求 所 有 本 地 存储 设备 的 系统 时 间 严 格 保持 
精确 同步 ， 否 则 同样 会 发 生 不 一 致 。 比 如 ， 主 机 分 别 先后 于 
T1、T2、T3 时 刻 向 存储 系统 A、B、C 发 起 三 个 写 IO 操 作 ， 现 
在 系统 决定 在 T4 时 刻 发 起 全 局 Suspend， 但 是 存储 系统 B 的 系统 
时 间 比 A 和 C 的 快 ， 则 就 有 可 能 在 A 和 C 尚 未 到 达 T4 时 刻 之 前 ， 
B 已 经 达到 了 规定 的 时 间 ， 则 B 此 时 立即 Suspend， 此 时 主机 针 


对 B 系 统 的 写 IO 恰 好 尚未 到 达 B， 被 排除 在 外 。 而 晚 些 时 刻 ，A 
和 C 同 时 达到 了 T4 时 刻 ， 同 时 Suspend， 而 恰好 针对 A 和 C 系 统 
的 写 IO 都 已 经 进入 了 Queue， 则 整体 系统 在 Suspend 之 前 Queue 
中 的 写 IO 只 包含 了 针对 A 和 C 的 ， 没 有 针对 B 的 ， 而 针对 C 的 写 
IO 是 晚 于 B 发 生 的 ， 所 以 此 时 整体 系统 数据 处 于 不 一 致 状态 。 








说 到 这 里 ， 又 有 了 一 个 矛盾 ， 上 文 曾经 论述 过 ， 时 间 惟 并 不 能 保证 
单个 IO 级 别 的 顺序 ， 即 使 本 地 的 所 有 存储 系统 的 时 间 再 精确 ， 也 不 可 能 
无 限 精 确 下 去 ， 总 会 在 某 个 数量 级 产生 差异 ， 如 果 此 时 系统 的 写 IOPS 非 
党 大 ， 大 过 了 时 间 惟 的 数量 级 ， 则 上 面 的 方法 也 就 不 能 保证 单个 IO 级 别 
的 顺序 的 Suspend 粒 度 了 。 














有 人 出 主意 了 ， 这 样 行 不 行 ， 即 触发 Suspend 的 时 候 直 接 发 送 触 友 
指令 ， 而 不 是 事先 通知 所 有 系统 在 茶 个 时 刻 触 发 ? 不 行 的 。 想 出 这 种 办 
法 的 人 名 上 略 了 其 本 质问 题 ， 即 多 个 独立 系统 的 时 间 不 可 无 限 精确 ， 吏 算 
古 用 指令 立即 触发 ， 那 也 要 考 夸 指令 到 达 各 个 独立 存储 系统 的 时 延误 
兰 ， 和 各 个 存储 系统 的 处 理 时 延 ， 一 旦 处 理 不 同步 ， 一 样 还 是 造成 了 不 
二 


江 即 才 尽 了 人 么 ? 尚 早 。 既 然 多 个 系统 时 间 不 可 无 限 精确 ， 那 么 单个 
系统 的 时 间 至 少 对 于 目 己 来 讲 是 精确 的 ， 不 存在 不 同步 的 问题 。 如 果 能 
让 一 个 独立 的 系统 来 总 控 所 有 IO 的 进出 ， 从 物理 上 将 所 有 IO 串 行 化 ， 然 
后 在 这 个 关口 实现 Suspend， 那 么 这 个 问题 就 非常 完美 地 解决 了 。 看 看 
系统 拓扑 图 ， 最 佳 的 串 行 化 关口 是 谁 呢 ? 没 错 ， 就 是 主机 。 在 主机 上 进 
行 IO 物 理 串 行 化 是 最 彻底 的 。 在 主机 的 HBA 驱 动 上 层 设 计 一 个 串 行 化 器 
也 可 以 说 是 Suspender， 由 这 个 Suspender 来 Suspender 主 机 上 的 IO， 然 后 
通知 所 有 其 连接 的 本 地 存储 系统 做 好 准备 。 这 一 过 程 将 会 是 很 快 的 ， 在 
几 十 毫秒 级 别 。 随 后 Suspender 释 放 主 机 IO。 








经 过 这 样 设计 之 后 ， 各 个 本 地 存储 系统 之 间 就 不 需要 太 过 精确 的 时 
间 同 步 了 ， 几 喀 秒 甚至 几 秒 的 误差 都 可 以 容忍 ， 因 为 此 时 主机 上 的 
Suspender 已 经 完全 暂 定 了 回 存 储 系统 发 送 10， 存 储 系统 有 足够 的 时 间 
将 全 部 剩余 的 IO 收纳 进来 然后 做 好 准备 。 





如 图 17-37 所 示 为 主机 端 Suspend 解 决 办 法 示意 图 。 








图 17-37 ”主机 端 Suspend 解 决 办 法 





虽然 可 以 自己 开发 一 个 Suspender， 但 是 如 果 有 现成 的 东西 ， 为 何不 
拿 来 用 呢 ? 第 16 章 介绍 过 VSS 服 务 ，VSS 服 务 是 一 种 最 好 的 Suspender， 
它 直接 作用 于 应 用 层 ，Suspend 在 应 用 层 ， 这 比 在 哪 一 层 Suspend 都 要 更 
佳 。 所 以 ， 完 全 可 以 利用 VSS 来 实现 一 致 性 组 的 功能 。 





然而 ， 问 题 并 未 就 此 彻底 解决 。 如 果 有 多 人 台 主 机 共同 连接 本 地 存储 
系统 ， 或 者 多 台 主 机 之 间 有 具有 逻辑 相关 性 ， 那 么 如 果 只 在 其 中 一 台 主 机 
上 实行 Suspend， 那 么 未 必 能 够 同时 保证 其 他 主机 写 IO 的 一 致 性 ， 所 以 
这 里 又 回 到 了 刚才 那个 问题 ， 即 如 何 将 所 有 主机 的 系统 时 间 做 到 精确 同 
步 从 而 精确 同时 Suspend， 答 守 一 样 是 不 可 能 。 这 次 是 真 的 江 即 才 尽 了 
么 ? 依然 尚 旱 。 既 然 主机 和 存储 都 不 能 做 到 ， 那 为 何不 在 它们 之 间 插 入 
一 个 独立 的 串 行 化 器 昵 ? 完全 可 以 的 。 交 换 机 束 是 这 个 角色 的 最 佳 候 选 
者 ， 如 果 在 交换 机 上 开发 一 种 模块 专门 实现 这 个 动作 ， 并 且 可 以 与 阵列 
进行 指令 交互 ， 形 成 一 个 标准 协议 ， 那 就 是 最 好 不 过 的 了 。 其 次 ， 虚 拟 
化 存储 网 关 设 备 也 同样 是 一 个 极 佳 的 角色 。 














然而 ， 目 前 针对 多 主机 间 一 致 性 组 实现 方面 ， 尚 未 有 成 型 的 产品 出 
现 。 


如 图 17-38 和 图 17-39 所 示 为 基于 交换 机 和 基于 虚拟 化 网 关 的 一 致 性 


组 实现 方式 。 





图 17-38 ”基于 FC 区 换 机 的 一 致 性 组 解决 办 法 





图 17-39 ”基于 虚拟 化 网 关 的 一 致 性 组 解决 办 法 





提示 : ”目前 就 作者 的 了 解 程度 范围 内 ， 很 多 人 对 数据 一 致 性 
保护 方面 的 理解 很 局 限 ， 总 认为 只 要 为 每 个 I0 打 入 时 间 稚 ， 就 
一 定 能 够 保证 数据 是 按照 先后 顺序 写 入 的 。 这 一 点 很 具有 误导 
性 。 我 们 可 以 分 析 一 下 ， 比 如 本 地 先后 发 生 了 A、B、C 三 个 

IO， 此 时 给 它们 分 别 打 入 时 间 戳 TL1、T2、T3， 然 后 通过 链 路 
发 送 到 对 端 ， 然 而 ， 在 发 送 的 过 程 中 ，A 先 被 发 出 ， 而 C 第 二 

个 被 发 出 ， 最 后 一 个 发 出 的 是 B (根据 上 文 所 述 的 异步 复制 的 
设计 思想 ， 发 生 这 种 情况 是 肯定 的 ) ， 对 端 会 分 别 先 后 接收 到 
A、C、B。 试 问 ， 此 时 远程 系统 如 何 判 断 到 底 什么 时 候 将 这 些 
数据 写 入 呢 ?” 如 果 系 统 打 算 在 接收 到 A、C 之 后 就 写 入 ， 那 么 

根据 时 间 惟 判断 ，C 在 A 后 面 ， 的 确 ， 所 以 系统 写 入 了 A 和 C， 

殊不知 ， 还 有 一 个 B 尚 未 被 接收 到 呢 。 如 果 B 尚 未 收 到 之 前 链 

路 断 开 或 者 本 地 灾难 ， 那 么 远程 对 应 的 数据 就 是 不 一 致 的 了 。 
有 人 说 了 ， 远 程 就 不 能 等 B 来 了 再 写 入 么 ? 不 能 。 因 为 远程 怎 
么 知道 还 有 一 个 B 没 过 来 ? 有 人 又 说 了 ， 根 据 上 文 所 述 的 设计 
思想 ， 本 地 会 一 批 一 批 地 将 数据 传送 啊 ， 这 一 批 中 只 要 有 一 个 
IO 没 传 成 功 ， 那 么 远程 就 会 回 滚 啊 ! 是 啊 ， 正 是 因为 这 样 ， 那 
么 是 否 还 有 必要 给 每 个 IO 打 入 时 间 戳 呢 ? 打 入 了 又 有 什么 用 

呢 ? 远程 必须 成 批 的 数据 一 次 写 入 磁盘 才 可 以 保持 一 致 ， 那 又 
何必 在 乎 这 一 批 IO 中 谁 先 被 写 入 谁 后 被 写 入 呢 ? 

有 人 又 间 了 ， 我 如 果 在 本 地 系统 发 送 IO 的 时 候 严 格 按照 顺序 发 
送 ， 那 么 远程 接收 到 数据 包 之 后 ， 上 层 的 协议 ， 比 如 TCP 或 者 

















FC， 也 一 定 会 按照 顺序 排列 起 来 ， 这 样 不 就 可 以 你 证 每 个 IO 
都 是 按照 顺序 进入 远程 系统 的 么 ? 的 确 ， 是 这 样 的 。 但 是 上 文 
中 也 说 过 ， 在 本 地 系统 内 记录 IO 的 先后 顺序 而 且 还 要 按照 顺序 
发 送 IO， 这 种 开销 太 大 。 再 说 了 ， 如 果 是 多 系统 协作 进行 一 致 
性 保护 ， 你 还 这 么 设计 么 ? 单 系 统 已 经 够 复杂 ， 多 系统 你 再 去 
横向 比 对 多 个 独立 系统 之 间 的 IO 谁 先 谁 后 的 话 ， 那 就 得 不 偿 失 
本 :8 

经 过 以 上 的 分 析 ， 我 们 可 以 判断 ， 给 每 个 IO 打 入 时 间 惟 是 根本 
没 必要 的 ， 多 此 一 举 。 如 果 选 择 使 用 对 IO 打 入 先后 顺序 信息 的 
一 致 性 保障 设计 方法 的 话 ， 请 使 用 目 然 数 序号 而 不 是 时 间 戳 进 
行 5 











3) 设计 思想 3: IO 序号 法 
(1) 单 本 地 存储 系统 解决 办 法 


上 文 论 述 了 为 何 时 间 戳 无 法 判断 单个 IO 的 先后 顺序 以 及 不 能 判断 两 
个 IO 之 间 是 否 还 有 漏 挤 的 IO。 如 果 要 从 为 每 一 个 IO 打 入 一 个 信息 以 用 来 
识别 先后 的 角度 解决 这 个 问题 ， 就 需要 找 一 种 能 够 反映 单个 IO 先后 顺序 
并 且 还 可 以 让 接收 方 判断 出 两 个 识别 信息 之 间 是 否 还 有 其 他 识别 信息 未 
收 到 。 很 显然 ， 这 种 识别 信息 就 是 自然 数 。 








本 地 系统 在 接收 到 每 个 写 IO 之 后 ， 为 这 个 IO 打 入 一 个 目 然 数 序号 ， 
在 初始 化 数据 同步 完成 之 后 所 接收 到 的 第 一 个 IO， 为 其 打 入 目 然 数 1， 
然后 没 接收 一 个 再 十 1， 一 直 排列 下 去 。 ve 
新 过 的 地 址 做 记录 ， 不 同 的 是 ， 这 个 Bitmap 中 还 需要 对 应 每 一 位 增加 一 
个 对 序号 的 记录 项 ， 当 本 地 系统 读 出 竺 传送 的 数据 后 ， 根 据 Bitmap 中 允 
应 位 所 记录 的 序号 ， 将 这 个 序号 退 加 在 所 传送 的 IO 数据 之 后 。 远 程 接收 





到 数据 之 后 ， 会 按照 自然 数 的 顺序 将 数据 写 入 远程 卷 ， 比 如 某 时 刻 收 到 
序号 为 1024 的 IO， 将 其 写 入 卷 中 ， 随 后 又 接收 到 了 序号 为 1026 的 IO， 此 
时 系统 就 会 得 知 序 号 为 1025 的 IO 丢失 或 者 尚未 传送 到 ， 系 统 会 缓存 所 有 
已 经 接收 到 的 1025 之 后 的 IO 数据 ， 直 到 接收 到 1025 号 IO， 然 后 将 这 些 数 
据 写 入 卷 中 。 





经 过 这 样 的 设计 ， 本 地 系统 不 再 需要 Suspend 操 作 了 ， 而 且 灾难 之 
后 丢失 的 数据 也 较 上 一 种 实现 方式 降低 了 许多 〈 上 一 种 一 丢 一 整 批 ， 也 
就 是 一 整 份 Bitmap 中 的 数据 ， 这 种 则 是 只 丢失 Gap 内 的 数据 ) ，RPO 能 
够 降低 一 些 。 但 随 之 而 来 的 则 是 Bitmap 的 庞大 、 占 用 内 存 过 多 、IO 数 据 
带 序 号 传送 耗费 了 更 多 的 网 络 融 宽 、 定 长 的 序号 一 旦 耗 尽 需要 两 端 协商 
重 置 序号 等 问题 。 而 其 中 最 为 突出 的 就 是 耗费 更 多 的 网 络 带 宽 ， 腊 步 数 
据 复 制 的 起 因 惑 是 因为 链 路 融 宽 过 低 不 能 满足 同步 复制 的 要 求 。 而 这 种 
设计 方式 便 是 雪上 加 霜 了 ， 造 成 复制 速度 降低 ， 所 以 ， 这 种 设计 思想 虽 
然 在 系统 写 IO 负 载 不 高 的 时 候 会 降低 一 些 RPO。 但 是 在 写 负 载 非 党 高 的 
时 候 ， 由 于 链 路 融 宽 的 额外 负担 ， 则 数据 复制 的 Gap 会 加 大 ， 此 时 是 合 
能 降低 RPO 也 就 要 综合 考虑 了 ， 损 不 好 适得其反 。 





综 上 所 述 ， 现 在 大 部 分 厂商 都 在 使 用 第 一 种 设计 思想 。 


(2) 多 本 地 存储 系统 解决 办 法 





多 本 地 存储 系统 情况 下 ， 对 IO 序 写法 设计 思想 来 说 束 是 一 个 梦 大 ， 
因为 此 时 IO 序 号 需要 在 全 局 下 保持 各 目的 先后 ， 而 这 种 先后 顺序 仅 靠 每 
个 存储 系统 是 无 法 判断 的 。 需 要 在 一 个 上 游 设备 中 将 IO 串 行 化 然后 编 
号 ， 发 送 给 存储 系统 。 这 样 做 就 需要 改变 存储 系统 前 端 ， 这 个 工程 无 疑 
是 巨大 的 ， 而 且 也 得 不 偿 失 。 








所 以 ，IO 序 号 法 目前 来 说 尚 无 实际 应 用 。 本 书 以 后 的 例子 都 基于 第 
一 种 设计 思想 来 论述 。 





(3) 数据 复制 过 程 中 的 错误 恢复 机 制 





上 文中 留 了 一 个 问题 尚未 解决 ， 即 一 旦 在 数据 复制 的 过 程 中 本 地 发 
生 灾 难 或 者 链 路 出 现 问 题 中 断 ， 那 么 此 时 处 于 远程 存储 系统 中 的 数据 几 
平 束 是 不 一 致 的 。 这 个 问题 如 何 解 决 ? 很 显然 我 们 需要 回 退 已 经 被 复制 
到 远程 站 点 的 数据 ， 存 储 系 统 的 回 退 ， 我 们 立即 想到 了 快照 。 是 的 ， 如 
果 在 每 次 数据 开始 复制 之 前 ， 能 够 为 远程 存储 系统 对 应 的 卷 制 作 一 份 快 
照 的 话 ， 那 么 一 旦 后 来 的 复制 发 生 问 题 ， 就 可 以 直接 将 对 应 的 卷 回 深 到 
上 一 次 快照 的 时 间 点 ， 昌 然 此 时 丢失 了 数据 ， 但 是 这 是 异步 容 灾 所 无 法 
避免 的 ， 起 码 这 样 做 能 够 保证 数据 的 一 致 性 。 所 以 ， 我 们 在 每 次 数据 被 
成 功 地 复制 之 后 ， 还 需要 多 加 一 个 步骤 ， 即 为 远程 存储 系统 制作 一 份 快 
照 ， 制 作成 功 后 才 会 通知 Suspender。 











对 于 多 本 地 存储 系统 的 关联 性 数据 复制 ， 在 Suspender 发 起 Suspend 
指令 并 命令 所 有 存储 系统 开始 数据 复制 之 后 ， 一 旦 其 中 某 一 台 存 储 系 统 
发 生 数据 复制 错误 ， 或 者 干脆 这 人 台 设 备 发 生 故 障 ， 那 么 Suspender 永 远 也 
不 会 收 到 这 个 设备 返回 的 成 功 消 息 了 ， 在 一 定 的 允许 时 间 之 内 ， 
Suspender 只 要 没有 从 任何 一 台 设 备 接 收 到 成 功 消息 ， 则 便 会 立即 同 对 应 
的 所 有 远程 存储 系统 设备 发 送 合 令 让 其 回 深 到 上 一 个 快照 时 刻 。 而 由 于 
本 次 复制 并 未 成 功 ， 所 以 本 地 所 有 存储 系统 会 将 当前 活动 Bitmap 与 新 
Bitmap 〈 即 对 应 Suspend 之 后 发 生 的 IO 的 Bitmap) 进行 OR 操作 ， 合 并 为 
一 份 活动 Bitmap， 并 创建 一 份 新 的 空 Bitmap 以 便 为 下 次 Suspend 之 后 作 
为 新 Suspend Bitmap 使 用 。 下 次 Suspend 之 后 ， 即 使 上 次 传 了 一 半 的 数据 
也 依然 需要 再 传 一 衣 ， 这 也 是 为 何 要 进行 OR 操作 的 原因 。 但 是 EMC 公 
司 SRDF/A 的 设计 则 可 以 在 本 地 记录 上 次 传 过 的 数据 ， 恢 复 之 后 ， 只 传 





递 上 次 未 传 过 的 和 新 一 轮 Suspend 后 改变 的 。 当 然 这 样 做 就 需要 远程 系 
统 暂 时 不 回 深 ， 保 持 上 次 已 经 传输 完成 的 那 部 分 数据 ， 当 确认 本 地 站 点 
由 于 某 种 原因 无 法 增 量 传输 之 后 再 回 深 。 


如 果 所 有 本 地 存储 系统 的 数据 复制 过 程 都 成 功 结束 ， 则 这 些 存储 系 
统 会 通知 Suspender， 然 后 Suspender 会 同 所 有 对 应 的 远程 存储 系统 发 送 
命令 ， 即 触发 一 份 对 应 卷 的 快照 。 快 照 成 功 后 ，Suspender 继 续 开 始 
Suspend 操 作 ， 周 而 复 始 地 将 数据 一 批 一 批 地 复制 到 远程 ， 并 且 每 次 成 
功 后 制作 快照 ， 并 删除 倒数 第 三 个 快照 (倒数 第 三 份 快 照 用 于 异常 情况 
之 后 的 回 滚 ) 。 











对 于 普通 异步 复制 或 一 致 性 异步 复制 ， 系 统 Down 机 重启 之 后 ， 将 
会 继续 进行 扫描 Bitmap 并 传送 对 应 数据 的 过 程 。 在 第 17.4.2 节 中 所 述 的 
两 个 潜在 的 Bug 一 定 要 特别 注意 。 





对 于 同步 模式 的 数据 复制 ， 错 误 恢 复 过 程 束 相对 简单 了 。 比 如 某 时 
刻 链 路 突然 中 断 ， 或 者 系统 Down 机 后 重 局 。 如 果 是 严格 同步 ， 那 么 受 
影响 的 应 用 程序 就 会 出 错 ， 业 务 无 法 继续 进行 。 而 此 时 可 以 人 为 干预 断 
开 同 步 复 制 逻 辑 Session， 重 新 启动 应 用 程序 ， 对 底层 卷 的 写 IO 不 再 被 同 
步 传输 到 远程 ， 但 是 会 在 本 地 创建 一 份 新 Bitmap 用 来 记录 所 有 在 断 开 复 
制 Session 之 后 本 地 卷 所 有 被 更 改过 的 数据 地 址 。 这 样 ， 在 链 路 恢复 之 
后 ， 重 新 启动 复制 逻辑 Session， 此 时 系统 就 会 根据 这 份 Bitmap 而 只 将 变 
化 过 的 数据 再 次 同步 到 远程 。 以 上 过 程 可 以 预先 在 容 灾 系 统 中 进行 设置 
从 而 自动 执行 。 

















3. 一 致 性 组 


说 到 这 里 ， 该 说 一 下 一 致 性 组 了 。 其 实 仔细 看 完 前 面 的 论述 后 应 该 


就 能 体会 到 这 个 “组 ” 字 的 含义 了 。 第 一 个 含义 : 数据 是 被 一 批 一 批 ， 或 
者 一 组 一 组 地 传输 到 远程 的 ， 组 和 组 之 间 能 够 保证 先后 顺序 ， 组 内 则 无 
法 保证 ， 如 果 一 整 组 数据 完整 传 到 了 远程 ， 则 远程 的 数据 是 一 致 的 ， 如 
果 一 整 组 数据 在 传输 的 中 途 出 现 问 题 ， 则 需要 将 远程 的 数据 回 深 到 上 一 
个 一 致 点 ， 这 个 目的 需要 用 快照 来 完成 。 第 二 个 售 义 : 多 个 独立 存储 系 
统 上 的 多 个 卷 组 成 一 个 整体 ， 个 体 与 个 体 之 间 必 须 保 证 数据 按照 整体 时 
间 的 先后 传输 到 对 方 ， 远 程 的 多 个 存储 系统 上 的 多 个 苍 形 成 的 组 ， 在 整 
体 上 必须 保持 数据 一 致 性 。 








这 就 是 一 致 性 组 技术 。 





4. 快照 异步 复制 方法 中 的 一 致 性 保护 和 一 致 性 组 





基于 快照 的 异步 复制 ， 相 比 上 文中 的 异步 复制 设计 虽然 RPO 加 大 ， 
但 是 在 一 致 性 方面 还 是 很 不 错 的 。 比 如 在 做 快照 时 ， 可 以 通过 主机 端 
Agent 来 将 缓存 数据 刷 入 磁盘 ， 根 据 主机 Agent 的 作用 层次 ， 最 高 可 以 做 
到 应 用 级 的 一 致 性 ， 也 就 是 彻底 的 一 致 性 保证 。 其 次 ， 在 数据 复制 期 
间 ， 由 于 两 问 都 做 了 快照 留 确 ， 所 以 不 必 担 心中 途 链 路 中 断 等 导致 的 目 
的 端 数 据 时 序 不 一 致 状况 ， 一 旦 遇 到 中 断 ， 则 目的 端 回 滚 到 最 近 的 快照 
即 可 ， 随 后 择机 继续 执行 数据 复制 。 同 时 ， 在 多 主机 多 LUN 多 存储 系统 
一 致 性 组 方面 ， 更 是 没有 问题 ， 同 一 台 主 机 上 的 多 个 LUN 需 要 一 致 性 组 
保证 的 话 ， 那 么 可 以 通过 主机 上 的 Agent 来 同时 刷 这 些 LUN 的 数据 ， 之 
后 做 快照 ， 如 果 是 多 台 主 机 的 多 个 LUN 〈 位 于 不 同 阵列 ) ， 也 可 以 通过 
让 多 台 主 机 上 的 Agent 同 时 刷 对 应 LUN 的 数据 ， 然 后 各 自 阵 列 做 快照 。 
这 里 相当 于 主机 快照 Agent 充 当 了 上 文中 的 Suspender/Freezer 了。 


17.4.3 ”灾难 后 的 切换 与 回 切 同步 过 程 


容 灾 的 目的 是 为 了 在 本 地 发 生 灾难 ， 或 者 并 未 发 生 破坏 性 灾难 ， 但 
古 正在 遭受 长 时 间 的 断 电 ， 或 者 通风 系统 、 温 控 系 统 等 辅助 设施 的 长 期 
故障 ， 则 此 时 可 以 在 异地 将 业务 重新 跑 起 来 。 养 兵 和 干 日 ， 用 兵 一 时 。 如 
果真 的 需要 将 业务 切 到 异地 运行 ， 那 么 应 用 程序 就 一 定 需 要 疝 异 地 站 扣 
的 卷 中 写 数据 。 而 一 旦 主 站 点 从 灾难 或 者 长 期 Outage 中 恢复 ， 那 么 就 需 
要 将 业务 再 次 回 切 到 本 地 主 站 点 执行 。 这 个 时 候 ， 就 需要 将 在 异地 执行 
时 被 更 改过 的 数据 重新 同步 到 主 站 点 。 

















对 于 同步 数据 复制 架构 下 的 切换 与 回 切 ， 处 理 过 程 也 是 相当 简单 
的 。 比 如 ， 主 站 扩 在 任意 时 刻 发 生 灾 难 之 后 ， 主 站 点 和 异地 站 后 对 应 的 
数据 是 绝对 相同 的 ， 在 业务 切换 到 开 地 站 点 执行 之 前 ， 异 地 站 点 就 可 以 
对 所 有 受 影 响 的 卷 创 建 一 份 新 的 全 0 的 Bitmap， 用 来 记录 所 有 切换 之 后 
针对 本 卷 的 写 IO 数据 ， 被 写 过 则 将 IO 地 址 对 应 的 位 置 为 1。 在 主 站 点 恢 
复 运 行 之 后 ， 需 要 将 异地 站 点 变更 的 数据 Resync 到 主 站 点 ， 此 时 异地 站 
点 扫描 每 个 卷 的 Bitmap， 把 为 1 的 位 所 对 应 的 地 址 的 数据 读 取 并 黎 六 到 
主 站 点 对 应 的 卷 的 对 应 地 址 。 绪 束 之 后 ， 应 用 程序 即 可 重新 启动 ， 恢 复 
最 初 的 状态 。 

















而 对 于 普通 非 一 致 性 异步 复制 过 程 ， 又 可 分 为 三 种 情况 〈 其 实 这 三 
种 情况 的 处 理 方 式 都 是 相同 的 ) 。 


第 一 种 情况 是 : 本 地 系统 发 生 灾 难 ， 但 是 硬盘 完好 没 被 破坏 。 一 切 
活动 停止 ， 数 据 状 态 永 远 定 格 ， 对 应 的 本 地 卷 Bitmap 也 将 定格 ， 复 制 到 
哪 算 哪 。 之 后 ， 应 用 程序 在 异地 启动 ， 局 动 之 前 ， 异 地 系统 为 每 一 个 参 
与 容 灾 的 卷 创建 一 份 新 的 全 0 的 Bitmap， 然 后 开始 接受 应 用 的 写 IO， 每 
接受 一 个 ， 就 在 Bitmap 中 对 应 的 位 置 1， 然 后 将 数据 写 入 容 灾 卷 。 当 主 
站 点 恢复 之 后 ， 需 要 将 在 寞 地 变化 的 数据 重新 同步 Resync 回 主人 卷 ， 此 
时 ， 主 站 点 首先 将 灾难 之 前 被 定格 的 Bitmap 传 送 到 异地 ， 弄 地 系统 将 这 











份 主 站 的 Bitmap 与 异地 的 Bitmap 进 行 OR 操作 (至 于 为 何 要 使 用 OR 操 
作 ， 读 者 可 以 自行 推导 ， 可 以 参考 第 16 章 中 卷 Clone 一 市 里 的 算法 思 
想 ) 。 得 出 的 新 Bitmap 中 ， 为 1 的 位 就 表示 需要 进行 Resync 的 数据 地 
址 ， 然 后 异地 系统 恋 出 对 应 数据 传送 回 主 站 ， 主 站 才 关 之 后 ， 方 可 再 次 
创建 异步 复制 Session， 系 统 恢 复原 状 ， 之 后 方 可 局 动 应 用 程序 。 




















第 二 种 情况 是 : 本 地 及 生 灾 难 ， 玉 石 俱 菊 。 那 么 没什么 好 说 的 了 ， 
应 用 程序 在 异地 局 动 ， 本 地 重建 之 后 ， 购 买 全 新 设备 ， 弄 地 变 为 了 主 站 
点 ， 重 建 后 的 本 地 变 为 了 容 灾 站 点 ， 数 据 重 新 被 同步 。 


第 三 种 情况 是 : 本 地 没有 发 生 整体 灾难 ， 而 只 是 对 外 网 络 链 路 全 部 
中 断 ， 包 括 数据 复制 链 路 。 此 时 业务 需要 在 异地 局 动 。 之 后 的 过 程 与 第 
一 种 情况 完全 相同 。 


对 于 带 一 致 性 组 的 异步 复制 过 程 的 错误 恢复 ， 步 又 与 普通 异步 复制 
过 程 完全 相同 ， 但 是 除了 一 点 ， 也 就 是 需要 Resync 时 ， 本 地 站 点 需要 将 
Suspend Queue 对 应 的 Bitmap 与 活动 Bitmap 进 行 OR 操 作 后 再 发 送 给 宛 地 
系统 ， 异 地 系统 将 这 份 OR 之 后 的 Bitmap 再 次 与 自己 的 Bitmap 进 行 OR 运 
算 之 后 才能 得 出 结 





17.4.4 周期 性 异步 复制 与 连续 异步 复制 


从 上 文 的 分 析 可 以 看 出 ， 每 次 异步 传输 触发 之 前 ， 系 统 需要 做 很 多 
处 理 ， 包 括 生成 新 位 图 、 锁 住 对 应 的 块 或 者 生成 快照 等 。 而 这 些 后 台 处 
理 过 程 需要 耗费 一 定 的 资源 。 系 统 可 以 使 用 两 种 模式 来 触发 异步 同步 过 


王 o 





这 种 模式 下 ， 系 统 不 停 地 做 复制 ， 本 次 同步 完成 之 后 ， 立 即 开始 下 
一 轮 的 同步 ， 利 用 循环 位 图 及 快照 连续 不 断 地 将 数据 复制 到 远程 ， 而 不 
管 每 次 复制 耗费 多 长 时 间 ， 复 制 了 多 少数 据 。 这 种 方式 是 一 种 上 自 运 应 的 
全 目 动 方式 。 





比如 某 时 刻 系 统 触 砾 了 复制 操作 ， 复 制 用 了 10 分 钟 完 成 ， 这 10 分 钟 
期 间 ， 源 卷发 生 了 200MB 的 变化 ， 那 么 在 历时 10 分 钟 的 同步 结束 之 后 ， 
系统 立即 开始 对 这 200MB 数 据 的 继续 同步 ， 假 如 这 次 同步 过 程 用 了 5 分 
钟 ， 而 这 5 分 钟 期 间 源 卷发 生 了 100MB 的 变化 ， 然 后 系统 继续 同步 这 
100MB 数 据 ; 用 了 2 分 钟 ， 期 间 又 产生 了 50MB 的 变化 ， 再 同步 这 50MB 
用 了 1 分 钟 。 就 这 样 一 直 往 下 收 全 ， 最 后 导致 同步 的 间隔 越 来 越 短 ， 每 
次 传输 的 数据 越 来 越 小 ， 最 后 会 达到 一 个 极端 状况 ， 即 两 次 数据 同步 期 
间 源 卷 没有 发 生 改 变 ， 那 么 此 时 系统 会 依然 执行 相同 过 程 ， 只 是 最 后 传 
输 的 时 候 发 现 位 图 都 是 09， 所 以 立即 完成 本 次 传输 ， 然 后 再 次 触发 下 一 
次 传输 ， 相 当 于 空转 ， 这 样 就 耗费 了 不 必要 的 资源 。 但 是 却 可 以 最 大 程 
度 地 保证 系统 的 RPO。 








2. 周期 性 异步 复制 


这 种 模式 下 ， 系 统 严格 按照 预先 设 定 的 时 间 间 陨 或 者 竺 同步 数据 的 
贞 累 量 来 触发 复制 ， 比 如 每 15 分 钟 ， 或 者 每 积累 50MB 的 数据 量 。 这 样 
做 合乎 音 理 ， 也 布 约 系统 资源 ， 但 是 其 RPO 是 固定 的 ， 比 如 就 是 15 分 
钟 ， 或 者 50MB 的 数据 。 灾 难 发 生 之 后 ， 这 15 分 钟 内 的 数据 或 者 这 50MB 
的 数据 一 定 是 丢失 找 不 回来 的 。 








17.5 ”四 大 厂商 的 数据 容 灾 系 统 方 案 概 述 


本 节 对 四 大 三 商 的 基于 存储 系统 底层 的 数据 容 灾 方 案 进行 简要 介 











绍 。 


17.5.1 IBM 公 司 的 PPRC 





PPRC 其 全 称 为 Peer-to-Peer Remote Copy， 即 点 对 点 的 远程 数据 复 
制 。 它 是 IBM 用 于 其 DS 6000 和 DS 8000 中 高 端 存储 平台 上 的 一 种 远程 数 
据 容 灾 软 件 模块 。 这 个 名 称 只 是 一 个 统称 ， 它 其 实 包含 了 Metro 
Mirror、Global Copy 和 Global Mirror 等 多 种 组 件 。 





Metro ”Mirror 方式 是 一 种 同步 数据 复制 方式 ， 能 够 在 任何 情况 下 保 
证 数据 一 致 性 。 适 用 于 距离 较 近 并 且 链 路 带宽 足够 的 两 个 站 点 之 间 的 复 
制 |。 





Global Copy 方 式 则 是 一 种 不 冲 一 致 性 组 功能 的 异步 数据 复制 方式 ， 
这 种 方式 不 能 保证 数据 的 一 臻 性。 适用 于 距离 较 远 而 且 链 路 带宽 很 低 的 
情况 下 的 数据 复制 。 它 的 数据 复制 方式 与 17.4.2 一 节 中 描述 的 相同 。 











Global “Mirror 则 是 一 种 珊 有 一 致 性 组 保证 技术 的 异步 数据 复制 方 
式 ， 可 以 保证 在 单 存 储 系统 的 严格 数据 一 致 性 ， 底 层 也 是 使 用 双 循 环 位 
图 法 。 但 是 对 于 多 存储 系统 ， 不 能 严格 保证 数据 一 致 性 ，Global Copy 只 
是 使 用 了 多 存储 系统 时 间 同 步 ， 然 后 同一 时 间 Suspend 的 模式 进行 数据 
一 致 性 的 大 致 保障 的 ， 如 果 系 统 IOPS 超 过 了 时 间 精 确 级 别 ， 那 么 依然 不 
能 保证 单个 IO 级 别 的 一 致 性 。 





在 多 存储 系统 以 构 下 ， 用 户 需要 指定 其 中 一 台 为 Master， 其 他 参与 











一 致 性 组 的 系统 都 为 Subordinate。Master 负 责 同 步 全 局 系统 时 间 和 发 送 
全 局 指令 从 而 命令 其 他 设备 执行 Suspend。 当 所 有 系统 成 功 完成 本 次 
Suspend 和 数据 传输 之 后 ，Master 还 负责 问 远 程 关 联 的 所 有 存储 系统 发 送 
指令 ， 命 令 这 些 远程 存储 系统 对 相应 的 卷 做 一 次 Snapshot。IBM 的 
Snapshot 产 品名 称 为 “FlashCopy”， 这 个 名 字 有 具有 一 定 的 迷惑 性 ， 中 译 
名 “内 速 复 制 ”， 其 实 闪 速 的 只 是 创建 了 一 份 地 址 映射 表 而 已 ， 数 据 并 未 
被 全 部 复制 。FlashCopy 在 执行 的 时 候 有 个 选项 叫做 “NOCOPY”， 这 个 
选项 控制 着 Snapshot 生 成 后 的 行为 ， 如 果 被 设置 为 NOCOPY 模 式 ， 则 系 
统 只 保存 地 址 映射 表 和 被 CoFW 出 来 的 数据 ; 而 如 果 选 择 了 COPY 模 

式 ， 则 系统 会 像 Clone Split 一 样 将 共享 数据 块 全 部 复制 出 来 ， 加 上 CoFW 
的 数据 块 共同 在 一 个 新 的 存储 空间 形成 一 份 与 源 卷 对 应 时 刻 一 致 的 物理 
卷 复制 。 














PPRC 可 以 实现 两 地 三 中 心 的 容 灾 架构 。 站 点 A 与 站 点 B 处 于 同城 距 
离 范围 内 ， 使 用 Metro Mirror 进 行 同步 数据 复制 。 站 点 B 再 与 位 于 异地 远 
距离 范围 的 站 点 C 之 间 进 行 Global Mirror 带 有 一 致 性 组 的 异步 数据 复 
制 | 。 





17.5.2 ”EMC 公司 的 MirrorView、SanCopy 和 SRDEF 
1. MirrorView 


MirrorView 是 专用 于 Clariion 存 储 系统 平台 上 的 远程 卷 镜像 软件 模 
块 。 分 为 MirrorView/S 和 MirrorView/A 两 种 模式 ， 前 者 为 同步 镜像 模 
式 ， 后 者 为 异步 镜像 模式 。 前 者 没什么 好 说 的 ， 各 家 实现 方式 都 一 样 。 
MirrorView/A 底 层 使 用 了 双 循 环 位 图 法 十 Snapview 来 保证 时 序 一 致 性 。 








MirrorView/A 只 文 持 单 存储 系统 中 多 个 卷 的 一 致 性 组 。 而 IJBM 


PPRC 则 支持 多 独立 系统 中 多 个 卷 的 一 致 性 组 。 
2. Sancopy 


Sancopy 其 实 是 一 个 Snapshot Replicator。 也 就 是 说 ， 它 运行 于 存储 
设备 中 ， 专 门将 本 存储 系统 的 某 个 指定 的 源 卷 的 茶 个 指定 的 Snapshot， 
直接 通过 后 端 存储 网 络 复制 到 另外 一 台 或 者 多 人 台 存 储 系统 的 指定 的 卷 
中 。 由 于 Sancopy 是 复制 的 快照 ， 需 要 调用 Snapview 来 实现 快照 的 生 
成 ， 所 以 ，Sancopy 的 源 卷 只 能 位 于 Clariion 平 台 存 储 系统 上 ，Sancopy 软 
件 自身 也 只 能 安装 并 运行 在 Clariion 平 台 上 。 而 复制 的 目的 卷 可 以 位 于 
Clariion、Symmetrix DMX 以 及 其 他 经 过 认证 的 第 三 方 存储 系统 中 ， 比 
如 IBM、HP、HDS 等 。 文 持 单 台 存储 系统 的 一 致 性 组 ， 即 在 Suspend 后 
对 多 个 源 卷 同时 制作 快照 并 且 复 制 。 经 过 第 一 次 初始 化 复制 之 后 ， 通 过 
不 断 地 对 源 卷 制作 快照 并 且 比 对 前 后 两 次 快照 之 间 的 变化 数据 地 址 从 而 
实现 增 量 的 数据 传输 。 在 初始 化 传输 时 ， 由 于 需要 将 源 卷 所 有 数据 首先 
同步 到 目的 卷 ， 所 以 要 求 源 卷 在 这 期 间 不 能 有 写 IO 发 生 。 从 技术 角度 来 
讲 ， 实 现 允 许 源 卷 写 IO 的 初始 化 传输 是 没有 问题 的 ， 制 作 一 份 对 源 卷 的 
初始 快照 并 且 传 输 到 目的 卷 ， 此 后 逐渐 生成 快照 做 增 量 传输 ， 慢 慢 达 到 
Catchup 状 态 ， 这 种 做 法 理论 上 讲 没有 问题 。 但 是 Sancopy 上 自身 无 法 做 
到 ， 必 须 依附 于 Snapview/snap 或 者 Snapview/Clone 来 做 到 。 








Sancopy 支 持 远 程 复制 ， 文 持 通 过 iSCSI 协 议 复 制 。Sancopy 本 质 上 
就 是 把 源 卷 所 在 的 存储 系统 作为 一 个 Initiator， 目 的 卷 所 在 的 存储 原本 
就 是 Target， 这 样 Sancopy 所 在 的 存储 系统 就 会 识别 并 且 挂 载 卓 的 卷 到 本 
地 ， 然 后 将 本 地 源 卷 的 某 个 Snapshot 直 接 像 主机 访问 Target 一 样 复制 到 
目的 卷 ， 之 后 再 做 增 量 复制 。 所 以 这 种 模式 下 ，Target 端 无 须 做 任何 变 
化 ，Target 此 时 就 当 Sancopy 端 的 存储 系统 为 主机 。 


正 因为 本 质 上 就 是 mnitiator-Target 关 系 ， 所 以 Sancopy 也 文 持 将 源 卷 
某 个 快照 复制 到 一 个 比 源 卷 更 大 的 目的 卷 。 目 的 卷 比 源 卷 多 出 来 的 容量 
在 物理 上 是 退 加 到 了 源 卷 的 尾部 。 

















Sancopy 其 实 与 MirrorView/A 在 底层 设计 有 很 多 都 是 相同 的 ， 都 是 
基于 Snapshot Catchup 模 式 而 且 都 需要 调用 Snapshot/snap。 只 不 过 
Sancopy 是 直接 以 Initiator-Target 模 式 工 作 ， 所 以 可 以 复制 到 众多 第 三 方 
存储 卷 ; 而 MirrorView 需 要 源 和 目的 双方 都 运行 MirrorView 的 进程 ， 不 
是 通用 的 SCSI ”Initiator-Target 模 式 ， 所 以 其 只 文 持 Clariion 之 间 的 互相 


Mirror。 
3. SRDF 


1) SRDF/Synchronous (SRDEF/S ) 


这 是 同步 数据 复制 ， 没 啥 好 说 的 ， 全 世界 的 三 家 都 是 一 样 的 实现 方 
式 。 


2) SRDF/Asynchronous (SRDF/A) 


这 是 和 融 一 致 性 保障 的 异步 数据 复制 模式 。SRDF/A 的 设计 模式 大 致 
思想 与 上 文 介绍 的 无 神 。 同 样 是 数据 批量 传送 ，Suspend 后 形成 一 批 ， 
然后 等 待 传输 。 如 图 17-40 所 示 ， 系 统 Suspend 之 后 的 所 有 IO 在 图 中 就 是 
Capture N， 对 应 前 文中 的 Suspend Queue; 当前 正在 传输 的 数据 对 应 图 
中 的 Transmit N-1; 远程 正在 接收 的 数据 批 ， 对 应 图 中 的 Recive N-1; 远 
程 已 经 接收 成 功 的 数据 批 ， 正 要 将 其 写 入 磁盘， 对 应 图 中 的 Apply NN- 
2。 




















图 17-40 ”异步 SRD 


注意 : ”为 何在 远程 站 点 ， 数 据 不 是 一 边 接收 一 边 被 写 入 磁盘 
呢 ? 因为 SRDEF/A 没 有 用 到 任何 快照 技术 来 照 下 远程 站 点 的 一 
致 性 状态 ， 与 前 几 节 的 设计 思想 是 不 同 的 。 所 以 ， 只 能 利用 数 
据 库 所 常用 的 Two Phase Commit 思 想来 做 ， 即 接收 到 的 数据 
批 ， 首 先 写 到 一 个 额外 的 存储 空间 ， 确 保 整 批 数 据 都 接收 到 
了 ， 然 后 再 一 次 性 写 入 磁盘 。 在 写 入 的 过 程 中 ， 也 需要 再 记录 
一 个 日 志 ， 因 为 一 旦 在 写 入 过 程 中 系统 发 生 Down 机 等 异常 情 
况 ， 重 局 后 还 可 以 退 溯 这 个 日 志 以 便 了 解 上 一 次 成 功 写 到 哪里 
了 ， 然 后 继续 从 断 点 处 开始 写 。 








SRDEF/A 与 前 几 节 介绍 的 实现 方法 还 有 其 他 一 些 不 同 ， 下 面 就 追加 
介绍 一 下 这 些 不 同 之 处 。 首 先 ， 主 站 点 复制 引擎 接收 到 针对 源 卷 的 写 IO 
数据 之 后 ， 在 这 些 数据 没有 被 复制 到 远程 之 前 ， 都 会 驻 留 于 内 存 等 待 传 
输 〈 根 据 多 种 事实 推 煌 ，SRDF/A 没 有 利用 Bitmap 作 为 设计 思想 ， 这 一 
点 只 是 推 产 ， 但 是 无 法 确定 ) 。 这 种 设计 实在 不 太 划 算 ， 虽 然 能 够 节省 
一 些 磁 盘 读 IO 操 作 ， 但 是 也 浪费 了 大 量 的 缓存 稀缺 资源 。 








果不其然 ， 这 种 设计 模式 最 终 导致 其 不 得 不 考虑 缓存 浇 出 的 情况 ， 
所 以 又 开发 了 一 些 补救 措施 。 比 如 ， 一 种 叫做 Write Folding 的 技术 ， 如 
果 某 个 写 IO 是 针对 之 前 已 经 写 过 的 地 址 再 次 写 ， 而 之 前 的 写 IO 数 据 尚 未 
被 复制 到 远程 ， 那 么 系统 就 不 复制 原来 的 号 IO 了 转 而 只 复制 新 的 写 
IO《〈 这 一 点 如 果 利 用 Bitmap 来 实现 的 话 是 自然 就 可 以 实现 的 ， 所 以 再 次 
推 产 SRDEF/A 没 有 用 Bitmap 实 现 ) 。 











再 严重 一 些 ， 见 势 不 妙 的 时 候 ， 就 提高 对 主机 写 IO 的 啊 应 时 间 以 降 
低 主 机 端 写 IO 的 频率 (Write Pacing) ， 其 次 ， 如 果 这 招 都 不 好 用 了 ， 
眼看 绥 存 将 满 ， 那 么 还 可 以 将 绥 存 中 的 一 些 数 据 destage 到 磁盘 ， 相 当 于 
page/swap， 以 腾 出 一 些 空间 (Delta Set Extension) 。 这 样 的 话 ， 最 终 还 








是 要 多 耗费 人 磁盘 读 了 ， 而 且 是 先 耗费 了 缓存 资源 ， 可 谓 是 赔 了 夫人 又 折 
兵 ， 还 给 主机 故意 提高 啊 应 时 间 。 其 次 ， 还 有 一 点 不 同 之 处 ， 这 一 扣 是 
个 优点。 即 上 文中 曾经 提 到 过 的 ， 在 过 到 传输 错误 、 链 路 异常 等 情况 
时 ， 再 次 传输 时 ，SRDF/A 可 以 只 传输 上 次 传输 中 未 完成 的 部 分 。 














以 上 为 本 地 单 存 储 环境 ， 实 现 一 致 性 组 较为 容易 。 虽 然 SRDF/A 也 
是 文 持 本 地 多 存储 系统 下 的 一 致 性 保障 的 ， 然 而 ， 根 据 推 亲 ，SRDEF/A 
与 IBM Global Mirror 一 样 ， 也 不 能 实现 单个 IO 级 别 的 一 致 性 。SRDEF/A 
与 IJBM Global Mirror 有 一 点 不 同 ， 即 前 者 是 将 Commander 放 置 于 主机 端 
而 不 是 本 地 存储 系统 中 的 一 台 。 让 人 费解 的 是 ， 既 然 已 经 涉及 到 了 主机 
的 参与 ， 那 么 为 何不 在 主机 端 一 并 实现 Serializer 和 Suspender 的 功能 呢 ? 
这 一 点 根据 现 有 的 资料 判断 无 法 判断 。 


至 于 多 主机 环境 下 的 一 致 性 组 ， 更 是 无 法 文 持 了， 目前 似乎 没有 三 
家 文 持 这 么 高 级 别 的 一 致 性 组 保证 。 





17.5.3 HDS 公 司 的 Truecopy 





Truecopy 也 分 为 Synchronous 模 式 和 Asynchronous 模 式 。 同 步 模式 没 
什么 可 说 的 。 异步 模 式 也 是 使 用 批量 传输 法 保证 数据 一 臻 性， 底层 设计 
细节 不 再 歼 述 。 


17.5.4 NetApp 公 司 的 Snapmirror 


Snapmirror 也 分 为 同步 和 异步 模式 。 在 异步 模式 下 ，Snapmirror 针 对 
源 郑 每 隔 一 段 时 间 做 一 次 快照 ， 通 过 比 对 两 次 Snapshot 的 变化 数据 地 
址 ， 从 而 将 这 些 变化 的 数据 传输 到 远程 存储 系统 对 应 的 卷 中 。 这 种 思想 
的 本 质 其 实 也 是 批量 传送 ， 对 源 卷 的 Snapshot 就 相当 于 一 次 Suspend， 比 





对 两 份 快 照 的 变化 数据 地 址 ， 就 相当 于 记录 Bitmap 。 


对 于 多 台独 立 存储 系统 之 间 一 致 性 组 保证 方面 ，NetApp 是 基于 主机 
VSS 实 现 的 。 其 Snapmanager 产 品 〈 与 EMC 的 Replication Manager 类 
似 ) ， 作 为 一 个 Requestor 加 VSS 发 送 快照 请 求 ，VSS 将 Suspend 对 应 的 应 
用 程序 的 IO0， 这 样 ， 不 管 这 个 应 用 程序 需要 读 写 的 卷 分 布 于 单个 存储 系 
统 还 是 多 个 存储 系统 ， 所 有 的 系统 都 有 足够 的 时 间 来 对 相应 的 卷 进行 快 
照 操 作 。 作 为 VSS 的 Provider，Snapdriver 作 为 快照 代理 ， 将 向 所 有 对 应 
的 存储 系统 发 起 快照 请 求 。 快 照 完 成 后 ，Snapmanger 可 以 调用 
Snapmirror 对 变化 的 数据 进行 传输 。 针 对 多 主机 之 间 的 一 致 性 组 实现 ， 
尚未 有 解决 方案 。 








对 于 同步 模式 ，Snapmirror 是 利用 Catchup 模 式 实现 的 。Snapmirror 
首先 进入 异步 模式 ， 即 数据 复制 的 Session 建 并 之后， 立即 生成 首次 快 
照 ， 然 后 初次 数据 传递 过 程 需要 传递 源 卷 上 所 有 被 这 份 Snapshot 所 占用 
的 数据 ， 需 要 比较 长 的 时 间 。 传 完 后 再 次 做 Snapshot， 比 对 两 次 
Snapshot 中 变化 的 数据 地 址 ， 再 次 同步 。 就 这 样 一 直 进行 下 去 ， 当 达到 
一 定 的 Gap 闵 值 时 ， 系 统 进 入 同步 复制 阶段 ， 针 对 源 卷 的 每 一 个 写 IO 在 
进入 本 地 日 志 链 后 立即 同步 到 远程 ， 远 程 系统 接收 到 写 IO 之 后 ， 先 将 其 
存放 于 Vol0 下 面 的 日 志 链 文件 中 ， 然 后 在 后 台 将 日 志 读 出 重 放 ， 从 而 写 
入 对 应 的 卷 。 








提示 : 由 于 WAFL 的 快照 方式 与 其 他 广 商 的 常规 设计 不 同 ， 所 
以 在 比 对 两 份 Snapshot 的 时 候 并 不 是 按照 本 书 第 16 章 中 介绍 的 
机 制 进行 的 。 


WAFL 的 每 份 Snapshot 其 实 就 是 一 份 真 实 的 文件 系统 MetaData 
Tree。 这 个 Tree 中 记录 了 整个 物理 存储 空间 的 Bitmap，AFS 以 及 每 个 


Snapshot 都 会 有 自己 的 Bitmap， 通 过 下 列 规则 比 对 两 份 Bitmap 即 可 得 出 
变化 的 数据 地 址 。 


a 规则 1: 后 面 的 Bitmap 中 为 1 的 但 是 前 面 Bitmap 中 为 0 的 位 ， 则 表 
明 这 个 地 址 对 应 的 数据 发 生 了 更 改 。 

m 规则 2: 后 面 Bitmap 中 为 1 并 且 前 面 Bitmap 中 也 为 1 的 位 ， 表 明 这 
个 地 址 对 应 的 数据 是 两 份 Snapshot 共 用 的 ， 一 定 也 没有 变化 过 。 

a 规则 3: 绝对 不 可 能 存在 后 面 Bitmap 中 为 0 而 前 面 Bitmap 中 为 1 的 
数据 。 因 为 WAFI 从 来 不 敌 盖 正在 被 某 Snapshot 占 用 的 数据 。 





虽然 EMC 的 MirrorView 也 同样 是 采用 比 对 快照 的 方式 进行 数据 复 

制 ， 但 是 其 本 质 上 有 区 别 。NetApp 在 数据 复制 到 远程 之 后 ， 快 照 也 就 自 
然而 然 地 生成 了 ， 因 为 WAFI 的 快照 本 映 就 是 一 个 卷 的 全 部 内 容 ， 而 传 
统 的 Snapshot， 源 卷 是 源 卷 ， 相 关 的 映射 表 和 其 他 元 数据 等 都 存在 于 源 
卷 额 外 的 存储 空间 ， 即 这 些 映 射 表 里 记 录 的 是 源 卷 的 数据 变化 而 不 是 记 
录 自 己 所 占用 衬 间 的 变化 ， 更 不 会 将 自己 占用 的 空间 的 数据 变更 同步 到 
远程 ， 所 以 EMC 的 MirrorView 在 同步 完 一 批 数 据 之 后 需要 在 远程 系统 创 
建 一 份 快 照 。 而 WAEF] 在 同步 完 一 批 数 据 之 后 ， 只 需要 进行 一 个 叫 

做 “Jump Ahead” 的 操作 即 可 ， 即 ， 将 容 灾 卷 上 的 AFS 入 口 指 针 指 问 最 新 
的 Snapshot 入 口 指针 ， 并 且 删 除 前 一 份 Snapshot。 当 然 这 份 Snapshot 就 是 
刚 被 同步 过 来 的 数据 所 上 自然 形成 的 而 不 是 竺 同步 完成 后 期 制作 的 。 














提示 : ”利用 比 对 快照 方式 进行 异步 数据 传送 的 设计 模式 的 一 
个 好 处 就 是 不 用 为 错误 恢复 机 制 而 额外 设计 复杂 的 流程 。 一 旦 
发 生 Down 机 或 者 灾难 ， 容 灾 站 点 只 需要 Rollback 到 上 一 个 
Snapshot 即 可 ， 主 站 点 重启 之 后 立刻 就 可 以 接受 ID， 无 须 做 任 
何 前 处 理 。 关 于 比 对 Snapshot 的 具体 技术 细节 实现 原理 请 参考 
本 书 第 16 章 的 有 关内 容 。 








17.6 ”生产 者 的 容 灾 一 “服务 器 应 用 程序 的 容 灾 


IT 系统 的 生产 者 ， 也 就 是 各 种 服务 器 上 运行 的 应 用 程序 。 坚 无 疑 
问 ， 主 站 点 发 生 故 障 ， 必 须要 在 备份 站 点 重新 运行 这 些 应 用 程序 。 我 们 
征 否 可 以 在 备份 站 氮 预备 应 用 程序 的 安装 文件 ， 发 生 故 障 后 ， 在 备份 站 
点 服务 器 上 安装 配置 这 些 应 用 程序 呢 ? 








这 么 做 虽然 可 行 ， 但 是 一 些 较为 复杂 的 应 用 程序 ， 安 装 和 配置 要 人 花 
费 大 量 的 时 间 ， 比 如 SAP 企 业 REP 系 统 的 安装 ， 可 能 需要 一 天 的 时 间 ， 
再 加 上 不 可 预料 的 因素 ， 耗 时 可 能 更 长 。 如 果 没 有 预先 安装 配置 好 这 些 
应 用 程序 ， 未 雨 绸 比 ， 则 事故 及 生 的 时 候 ， 企 业 束 需 要 妨 受 停机 所 带 来 
的 损失 了 。 








17.6.1 生产 者 容 灾 概 述 





我 们 必须 将 应 用 程序 在 备份 站 点 预先 安 闭 并 且 配 置 好 ， 但 是 不 能 让 
它们 处 于 工作 状态 ， 应 当时 刻 保证 同一 时 刻 只 有 一 个 站 点 的 生产 者 在 生 
产 ， 因 为 IT 系统 生产 出 来 的 产品 是 具有 一 致 性 的 数据 ， 而 且 数据 是 有 时 
效 的 ， 具 有 上 下 文联 系 的 。IT 生 产 是 一 个 连续 的 数据 处 理 过程 ， 一 旦 中 
途 产 生 数据 不 一 致 性 ， 就 需要 恢复 数据 到 某 个 一 致 的 时 刻 ， 然 后 从 这 个 
时 刻 继续 生产 。 而 不 像 实物 生产 那样 ， 产 品 是 一 件 件 的 物品 ， 都 具有 相 
同 的 属性 。 所 以 保证 同一 时 刻 ， 整 个 IT 系统 只 有 一 个 站 点 的 生产 者 处 理 
同一 份 数据 ， 这 一 点 非常 重要 。 





























然而 ， 既 要 求 两 个 站 点 同一 时 刻 只 能 有 一 个 站 点 的 生产 者 处 理 一 份 
数据 ， 又 要 求 当 生产 站 点 发 生 事 故 的 时 候 ， 备 份 站 点 的 生产 者 立即 局 
动 ， 接 着 处 理 备 份 站 点 经 过 主 站 点 数据 同步 过 来 的 数据 。 要 做 到 这 一 








点 ， 就 需要 让 备份 站 点 的 应 用 程序 感知 到 主 站 点 应 用 程序 的 状态 ， 一 旦 
检测 到 主 站 点 应 用 程序 故障 ， 则 备份 站 点 应 用 程序 立即 启动 ， 开 始 生 
有 








第 16 章 曾经 说 过 高 可 用 性 群集 ， 而 在 容 灾 技术 领域 中 ， 和 群集 的 概念 
扩大 到 了 很 远 的 范围 ， 备 份 站 点 与 主 站 点 可 能 不 在 同一 机 房 中 而 在 相隔 
很 远 的 两 座 建筑 物 里 ， 甚 至 两 个 城市 中 。 这 样 ， 备 份 应 用 程序 就 要 跨越 
很 远 的 距离 与 主 应 用 程序 通信 来 交换 状态 。 由 于 应 用 程序 运行 状态 数 
据 ， 相 对 于 其 处 理 的 数据 来 说 ， 数 据 量 是 很 小 的 ， 所 以 即使 是 跨越 广 域 
网 通信 ， 也 不 必 担 心 延 迟 太 大 。 如 果 是 通过 广域网 连接 两 个 站 点 的 前 端 
网 络 ， 则 最 好 使 用 专线 连接 ， 如 果 是 基于 Internet 的 VPN 连 接 ， 虽 然 可 以 
获得 高 带宽 /价格 比 ， 但 是 延迟 无 法 保证 最 小 ， 除 非 购买 电信 部 门 提 供 
的 QOS 服务 。 








类 似 HACMP、MSCS 这 种 HA 软件 ， 都 是 使 用 共享 存储 的 方式 来 作 
用 的 ， 即 HA 系统 中 的 所 有 节点 ， 共 享 同 一 份 物 理 存储 ， 不 管 某 时 刻 由 
谁 来 操作 处 理 这 些 数据 ， 最 终 的 数据 只 有 一 份 ， 而 且 是 一 致 的 、 具 有 上 
下 文 轴 辑 关系 的 。 而 远程 异地 容 灾 系统 中 ， 数 据 在 主 站 点 和 备份 站 点 各 
有 一 份 ， 而 且 必 须 保 证 两 边 数据 的 同步 。 


生产 的 时 候 ， 必 须 以 一 边 数 据 为 准 ， 另 一 边 与 之 同步 ， 绝 对 不 能 发 
生 两 边 同时 进行 生产 的 情况 ， 除 非 两 边 生 产 者 处 理 的 是 两 份 逻 辑 上 无 任 
何 关 联 的 数据 。 所 以 ， 远 程 容 灾 系 统 所 要 关注 的 有 两 个 重要 因素 ， 即 生 
产 者 和 生产 资料 。 只 要 生产 资料 在 主 站 和 备 站 完全 同步 ， 那 么 就 可 以 逻 
辑 上 认为 ， 数 据 只 有 一 份 ， 备 站 的 数据 是 主 站 的 镜像 ， 平 时 虚无 绿 缉 不 
可 用 ; 但 是 一 旦 主 站 发 生 故 障 ， 备 站 的 镜像 立即 成 为 实 实在 在 可 用 的 数 
据 ， 同 时 ， 生 产 者 在 备 站 局 动 生产 ， 处 理 数据 。 这 就 是 寞 地 容 灾 。 














然而 ， 传 统 的 基于 共享 存储 模式 的 HA 软件 ， 不 适用 于 异地 容 灾 系 
统 ， 因 为 共享 存储 模式 的 HA 软件 ， 是 基于 资源 切换 为 基础 的 ， 它 把 各 
个 组 件 都 看 成 是 资源 ， 比 如 应 用 程序 、 了 地址 、 主 机 名 、 应 用 所 要 访问 
的 存储 卷 等 。 发 生 故 障 时 ， 备 份 机 HA 软件 检测 到 对 方 的 故障 ， 然 后 强 
行将 这 些 资源 迁移 到 本 地 。 比 如 ， 在 备份 机 修改 相应 网 卡 的 卫 地 址 ， 并 
发 出 ARP 广 播 来 刷新 所 有 本 广 域 内 的 客户 端 以 及 本 地 网 关 设 备 所 保存 的 
ARP 映 射 记录 ， 以 让 所 有 网 络 上 的 终端 获知 此 IP 对 应 的 新 MAC 地 址 ， 修 
改 主机 名 映射 文件 (Host 文 件 ) ， 挂 载 共 享 存储 设备 上 的 卷 ， 最 后 启动 
备份 应 用 系统 。 





应 用 系统 可 以 访问 已 经 强行 挂 载 的 共享 卷 而 存 取 数 据 ， 客 户 端 可 以 
继续 使 用 原来 的 IP 地 址 来 访问 服务 器 上 运行 的 应 用 程序 ， 因 为 这 个 IP 已 
经 由 故障 的 计算 机 转移 到 了 备份 计算 机 ， 这 样 ， 生 产 就 可 以 继续 进行 
了 。 要 保证 生产 者 在 切换 之 后 生产 可 以 继续 ， 则 必须 先 保证 生产 者 所 依 
赖 的 所 有 条 件 已 经 切换 成 功 ， 这 些 条 件 包 括 耻 地址 〈 非 必需 ) 和 卷 等 。 


1. 本 地 容 灾 系 统 中 的 两 种 存储 模式 


本 地 HA 系统 中 ， 多 个 节点 如 果 共 同 拥有 同一 个 或 者 同 几 个 卷 ， 但 
是 同一 时 刻 只 有 活动 节点 才 挂 载 该 卷 进行 IO 读 写 ， 这 种 模式 就 叫做 共享 
存储 模式 。 即 HA 系统 中 的 每 个 节点 都 拥有 同一 份 存储 卷 ， 只 不 过 不 活 
动 的 节点 不 对 其 进行 挂 载 并 IO。 

















如 果 HA 系 统 中 每 个 节点 都 有 目 己 独占 的 存储 卷 ， 这 些 卷 除了 拥有 
者 可 以 读 写 之 外 ， 任 何 情况 下 ， 其 他 节操 都 不 能 读 写 ， 数 据 的 共享 是 通 
过 同步 复制 技术 同步 到 所 有 节点 上 的 存储 卷 中 的 ， 这 种 方式 就 叫做 
Share-Nothing 模 式 。 即 HA 系统 中 的 所 有 节 扣 之 间 不 共 至 任何 东西 ， 所 
有 元 素 都 是 独 剖 的 ， 甚 至 网 络 地 址 都 是 各 用 各 的 。 数 据 存 在 多 份 ， 每 个 








节 氮 一 


份 ， 节 点 之 间 通 过 同步 复制 技术 来 同步 数据 ， 东 市 点 发 生 故 障 之 








后 ， 这 个 节点 对 应 的 备份 节点 直接 启动 应 用 程序 ， 由 于 之 前 数据 已 经 在 
所 有 节点 上 同步 ， 所 以 此 时 数据 是 完整 一 致 的 。 由 于 Share-Nothing 模 式 
下 ， 不 存在 任何 的 “接管 >， 所 以 此 时 客户 端 需要 感知 到 服务 端 群集 的 这 
种 切换 动作 ， 并 通过 客户 端 手 动 或 者 自动 切换 配置 以 便 连 接 新 服务 器 。 
表 17-3 对 比 了 HA 的 两 种 存储 模式 。 











表 17-3 HA 群集 中 两 种 存储 模式 的 对 比 


数据 本 身 是 否 容 灾 

共享 存储 模式 下 ， 容 灾 系 统 的 各 个 节点 共享 同一 份 数 据 。 如 果 这 
份 数 据 发 生 损 坏 ， 则 必须 用 备份 镜像 加 以 还 原 ， 而 且 需 要 承受 停 
机 和 带 来 的 损失 。 而 Share-Nothing 模 式 下 ， 系 统 中 每 个 节点 都 有 自 
己 的 数据 复制 ， 如 有 果 其 中 一 份 数据 被 破坏 ， 系 统 可 以 切换 到 另外 
的 节点 ， 不 影响 应 用 ， 不 需要 停机 ， 被 损坏 的 数据 可 以 在 任何 时 
候 加 以 还 原 修 复 ， 并 且 修 复 后 的 节点 可 以 再 次 加 入 容 灾 系统 。 
软 人 硬件 成 本 

共享 存储 模式 下 ， 由 于 各 个 节点 需要 共享 一 份 存储 数据 ， 所 以 需 
要 外 接 的 磁盘 阵列 系统 ， 而 且 为 了 保证 数据 访问 速度 ， 外 接 存 储 
系统 必须 自身 实现 RAID 机 制 ， 主 机 上 也 需要 安 闭 连接 盘 阵 的 适 
配器 。 这 样 承 增 加 了 整个 系统 的 成 本 。Share-Nothing 模 式 下 ， 各 
个 节点 自 吴 保存 各 自 的 数据 ， 而 不 必 使 用 外 接 存储 系统 。 另 外 ， 
共享 存储 模式 还 需要 额外 的 HA 软件 及 额外 的 成 本 ， 而 Share- 
Nothing 模 式 不 需要 。 

前 问 网 络 资源 耗费 

共享 存储 模式 下 ， 各 个 节点 之 间 交 互信 息 一 般 通 过 以 太 网 络 ， 而 
存储 数据 通过 后 端 存 储 网 络 。 由 于 各 个 节点 在 前 端 网 络 上 只 传输 

















2. 


控制 数据 ， 所 以 对 前 端 以 太 网 络 资源 的 耗费 相对 较 低 。 而 Share- 
Nothing 模 式 下 ， 由 于 各 个 节点 之 间 的 数据 同步 完全 通过 前 站 网 
络 ， 所 以 对 前 端 网 络 资源 耗费 相对 较 蜗 ， 适 合 局 域 网 环境 。 
管理 难度 

共享 存储 模式 下 ， 不 但 需要 管理 节点 间 的 交互 配置 ， 还 需要 管 
外 部 存储 系统 ， 增 加 了 管理 难度 。Share-Nothing 模 式 下 ， 只 需要 
管理 各 个 节点 间 的 交互 配置 即 可 。 

是 个 需 要 俘 机 

共享 存储 模式 下 ， 由 于 需要 将 数据 从 单机 环境 转移 到 共享 存储 环 
境 供 其 他 贡 点 使 用 ， 往 往 需 要 停机 来 保证 数据 的 一 致 性 。 而 
Share-Nothing 模 式 下 ， 数 据 同步 是 动态 的 ， 不 需要 停机 。 

实现 复杂 程度 

首先 ， 共 享 存储 模式 下 ， 有 三 种 基本 元 素 : 节点 、 节 点 间 交 互 、 
共享 数据 。 而 Share-Nothing 模 式 下 ， 只 有 两 种 元 素 : 节点 、 市 点 
间 交 互 。 其 次 ， 如 果 使 用 共享 存储 模式 做 容 灾 ， 需 要 将 数据 移动 
到 共享 存储 上 ， 增 加 额外 的 工作 量 、 时 间 和 不 可 控 因 素 。 

是 否 需 要 第 三 方 软件 

共享 存储 模式 下 ， 备 份 节点 需要 通过 第 三 方 软件 来 监控 主 节 点 的 
状态 ， 在 发 生 故 障 的 时 候 主 动 接管 资源 ， 比 如 各 种 操作 系统 提供 
的 HA 软件 (HACMP、MSCS、SUN Cluster 等 ) 。Share-Nothing 
模式 下 不 需要 任何 第 三 方 软件 参与 。 

故障 因素 数量 

共享 存储 模式 下 ， 如 果 出 现 容 灾 系统 本 丑 的 功能 故障 ， 需 要 在 操 
作 系 统 、 应 用 程序 、HA 软 件 三 个 方面 排查 故障 。Share-Nothing 
模式 下 ， 只 需要 在 操作 系统 、 应 用 程序 二 者 之 间 排 查 故 障 。 












































异地 容 灾 系统 中 的 IP 切 换 


在 异地 容 灾 系 统 中 ， 主 服务 顺和 备份 服务 器 不 太 可 能 在 一 个 广播 域 
中 ， 一 般 都 是 通过 网 关 设 备 来 转发 之 间 通 信 的 卫 包 ， 所 以 不 可 能 用 所 谓 
资源 切换 的 方式 来 切换 耳 地 址 。 如 果 想 对 客户 问 透 明 ， 即 客户 端 可 以 无 
须 感 知 故 隐 的 发 生 ， 继 续 使 用 原来 的 卫 地 址 来 连接 备份 服务 器 ， 那 么 就 
需要 在 网 络 路 由 设备 上 做 文章 了 ， 动 态 修改 路 由 器 上 的 路 由 表 ， 将 IP 包 
路 由 到 备份 站 反而 不 是 主 站 点 。 如 果 客 户 利 用 域名 来 访问 服务 器 ， 那 么 
也 可 以 直接 在 DNS 设 备 上 修改 IP 指 向 记录 来 完成 这 个 功能 。 





最 方便 而 且 普 近 的 做 法 是 : 让 所 有 客户 机 利用 主机 名 来 连接 服务 
船 ， 这 样 ， 主 站 点 故障 后 ， 通 知 所 有 客户 端 修改 它们 的 host 文 件 即 可 将 
原来 的 主机 名 映射 到 新 的 耳 地 址 而 不 用 重启 计算 机 。 这 方面 ， 开 地 容 灾 
系统 中 的 HA 软件 几乎 发 挥 不 了 作用 。 





3. 异地 容 灾 系 统 中 的 卷 切换 


异地 容 灾 系统 中 在 主 站 点 和 备份 站 点 各 有 卷 ， 两 个 卷 之 间 可 以 通过 
前 端 网 络 同步 ， 或 者 通过 后 端 网 络 同步 。 主 站 点 后 ， 备 份 服务 右上 的 
HA 软件 检 训 到 主 服 务 孝 通信 失败 ， 便 会 感知 故障 及 生 ， 然 后 通过 某 种 
方式 ， 断 开 主 卷 和 备份 卷 的 同步 关系 《如果 不 断 开 ， 则 卷 会 被 锁定 而 不 
可 访问 ) 。 如 宋 同 步 引 擎 是 运行 在 存储 设备 上 的 ， 那 么 除非 HA 软件 可 
以 操控 运行 在 存储 设备 上 的 同步 引擎 ， 售 则 必须 由 系统 管理 员 手 动 利用 
存储 设备 的 配置 工具 来 断 开 同步 天 系 。 同 步 关 系 断 开 后 ， 本 地 的 卷 才能 
被 访问 ， 这 样 ，HA 软 件 才能 在 备份 机 上 调用 操作 系统 的 相关 功能 来 挂 
载 这 个 卷 。 








如 果 同 步 引 擎 本 身 融 是 由 运行 在 主机 和 备份 机 上 的 HA 软件 提供 
的 ， 那 么 就 可 以 实现 在 检测 到 通信 失败 之 后 ， 由 HA 软件 本 身 来 目 动 断 
开 同 步 和 关系， 然后 在 备份 机 上 挂 载 对 应 的 卷 。 





4. 寞 地 容 灾 系统 中 的 应 用 切换 


应 用 ， 也 瓯 是 生产 者 的 切换 ， 是 所 有 HA 容 灾 系统 在 故障 发 生 后 所 
执行 的 最 后 一 步 动 作 。 与 共 圣 存储 模式 的 HA 容 灾 相 同 ， 异 地 容 灾 中 的 
应 用 切换 ， 也 是 由 备份 机 的 HA 软件 来 执行 脚本 ， 或 者 通过 其 他 功能 调 
用 相关 应 用 的 接口 来 局 动 备 份 机 的 应 用 。 





比如 ， 对 于 DB2 数 据 库 来 说 ， 启 动 数 据 库 实例 所 使 用 的 命令 为 : 
db2start，HA 软 件 只 要 检测 到 主 站 点 故障 ， 只 要 在 备份 机 的 db2cmd 命 令 
行 方式 下 执行 这 条 命令 ， 便 可 使 备份 机 的 DB2 数 据 库 实 例 局 动 起 来 。 应 
用 的 启动 必须 在 所 有 资源 成 功 切 换 到 备份 机 后 发 生 ， 因 为 应 用 启动 的 时 
修 必 然 会 读 取 卷 上 的 一 些 数据 ， 如 果 卷 还 没有 被 挂 载 ， 应 用 启动 的 时 候 
就 会 报错 ， 比 如 : 找 不 到 数据 文件 。 














5. Veritas Cluster Server 软 件 介 绍 





VCS (Veritas Cluster Server) 可 以 基于 VVR 的 配合 ， 而 实现 异地 容 
灾 系 统 。 在 一 个 CLUSTER 环境 中 ， 如 条 一 台 服 务 器 运行 多 个 应 用 ， 只 
有 一 个 应 用 出 现 故 障 时 ， 那 么 VCS 可 以 只 将 该 应 用 切换 到 预先 定义 的 服 
务 器 上 ， 男 一 个 应 用 仍然 在 原来 的 服务 器 上 继续 运行 。 


VCS 将 其 监视 的 应 用 当 作 一 组 资源 来 管理 ， 这 一 组 资源 定义 为 资源 
组 (RG) 。 例 如 Web-Server， 要 保证 这 个 应 用 正常 运行 ，VCS 将 监视 存 
放 数 据 的 磁盘 组 ， 该 磁盘 组 上 的 文件 系统 、 网 卡 、 卫 地 址 及 Web 服 务 进 
程 。 既 然 VCS 是 基于 应 用 的 高 可 用 软件 ， 一 台 服 务 器 上 运行 的 多 个 应 用 
可 以 切换 到 不 同 的 服务 器 上 。 











例如 ， 图 17-41 所 示 的 服务 器 A 运 。 轩 1 多 Active 案 如 


一 /一 


行 着 IIS 网 页 访问 服务 和 DB2 数 据 库 服 务 ， 服 务 器 B 运 行 大 FTP 服务 和 邮 

件 转发 服务 ， 服 务 器 C 运 行 着 NFS 服 务 和 和 SMB 网络 文件 系统 服务 。 当 服 

务 器 A 出 现 故 障 时 ， 资 源 组 RG-Web 切 换 到 服务 器 BB 上， 资源 组 RG-DB2 

切换 到 服务 器 C 上 。 当 然 条 件 是 它们 都 能 存 取 对 应 的 应 用 数据 。 系 统管 

理 员 制 定 合 适 的 故障 条 件 ， 例 如 现场 完全 瘫痪 10 分 钟 或 某 个 应 用 停止 运 
行 半 小 时 。 当 这 种 情况 发 生 时 ， 可 以 设 定 有 GCM (Global Cluster 
Manager) 自动 切换 应 用 ， 或 向 系统 管理 员 报警 ， 得 到 确认 后 ， 再 切换 

应 用 。 无 论 应 用 切换 是 自动 还 是 需要 确认 ， 两 个 场地 之 间 应 用 的 启动 过 
程 均 无 须 人 工 干预 。 

















17.6.2 ”案例 一 : 基于 Symantec 公 司 的 应 用 容 灾 产品 VCSQ) 


两 台 服 务 器 的 双 机 系统 








图 17-42 所 示 为 两 台 DB2 数 据 库 图 17-42 
服务 器 ， 下 面 要 将 其 配置 为 一 个 HA 
双 机 热 备 系 统 ， 主 机 硬件 或 者 应 用 程序 故障 之 后 ， 由 VCS 自 动 检测 故 
障 ， 并 在 备份 机 上 重新 启动 各 种 环境 以 及 应 用 程序 。 


主 服 务 器 名 称 为 dbsvr1，IP 地 址 为 192.168.0.1; 备份 服务 器 名 称 为 
dbsvr2，IP 地 址 为 192.168.0.2。 


台 计 算 机 操作 系统 都 是 Solaris 9， 利 用 Symantec 的 Storage 
foundation 〈 包 含 了 VxVM 和 VxFS) 作为 卷 和 文件 系统 管理 工具 。 








在 两 个 系统 中 分 别 安装 了 DB2 数 据 库 程 序 ， 而 数据 库 文件 存放 在 共 
享 磁盘 阵列 上 面 。 共 享 卷 由 VxVM 对 底层 磁盘 进行 虚拟 化 而 生成 。 
VxVM 先 将 操作 系统 底层 磁盘 〈 盘 阵 上 的 LUN) 组 成 磁盘 组 ， 然 后 在 这 
个 组 中 再 划分 卷 ， 这 就 和 RAID 卡 的 做 法 类 似 ， 只 不 过 VxVM 作 用 在 主 
机 操作 系统 层 ， 而 RAID 卡 作用 在 硬件 层 。 


本 例 所 生成 的 共享 磁盘 组 命名 为 DBDG， 只 包含 一 个 物理 磁盘 ， 设 
备 名 为 c0t0d0， 然 后 划分 一 个 卷 ， 卷 名 DBVolume。 用 VxFS 格 式 对 这 个 
卷 进行 格式 化 ， 再 将 格式 化 好 的 卷 挂 载 到 虚拟 目录 中 。 本 例 将 其 挂 载 
于 /home/db2 下 面 。 





对 卷 的 划分 和 格式 化 仅 需 在 一 全 计算机 上 配置 即 可 ， 配 置 完 后 ， 只 
要 将 这 个 卷 进行 导出 操作 ， 另 一 全 计算 机 就 可 以 导入 并 识别 出 这 个 郑 
的 格式 ， 再 直接 挂 载 到 虚拟 目录 。 


为 了 对 客户 问 透 明 ， 我 们 用 一 个 虚拟 主机 名 和 虚拟 IP 作 为 访问 DB2 
数据 库 服务 的 地 址 。 虚 拟 主机 名 为 dbsvr， 虚 拟 IP 为 192.168.0.3。 





虚拟 IP 不 是 一 个 神秘 的 东西 ， 我 们 知道 一 块 以 太 网 卡 可 以 有 多 个 IP 
与 之 对 应 ， 如 果 把 192.168.0.3 这 个 IP 绑 定 到 dbsrv1 主 机 的 网 卡 上 ， 那 么 
dbsrv1 主 机 就 同时 拥有 两 个 IP: 192.168.0.1 和 192.168.0.3。 这 样 ， 客 户 端 
用 ARP 协 议 请 求 192.168.0.3 这 个 IP 地 址 对 应 的 MAC 地 址 时 ，dbsrv1 这 台 
主机 便 会 应 答 ， 客 户 端 知道 192.168.0.3 这 个 地 址 的 MAC 地 址 (dbsrv1 主 
机 网 卡 的 MAC 地 址 ) ， 束 可 以 建立 与 dbsrv1 主 机 的 通信 。 


一 旦 dbsrv1 主 机 发 生 故 障 ， 那 么 dbsrv2 主 机 上 的 VCS 软 件 就 会 将 
192.168.0.3 这 个 IP 地 址 设置 到 dbsrv2 主 机 的 网 卡 上 ， 并 发 出 Free ARP 广 
播 ， 将 新 的 IP 与 MAC 地 址 的 对 应 天 系 通 告 到 网 络 上 的 其 他 终端 。 客 户 机 
再 次 连接 的 时 候 ， 就 会 建立 和 dbsrv2 主 机 的 通信 ， 而 客户 端 对 这 个 JP 的 
拥有 者 是 dbsrv1 还 是 dbsrv2 丝 坚 没 有 守 觉 ， 也 没有 必要 守 觉 到 。 这 个 切 
换 IP 的 动作 ， 也 是 VCS 将 虚拟 IP 作 为 一 个 资源 来 切换 的 过 程 。 





提示 : ”Storage Foundation 的 安装 过 程 这 里 就 不 做 描述 了 ， 本 例 
假设 在 两 台 计 算 机 上 都 已 经 成 功 地 安装 Storage Foundation 组 件 


村 
相关 配置 配置 过 程 


(1) 在 dbsrv1 主 机 上 创建 供 DB2 数 据 文 件 使 用 的 共享 存储 及 文件 系 





# Vxdg init DBDG cot0od0 \\ 创 建 磁盘 组 DBDG， 使 用 cot0d0 这 个 硬盘 
# Vxassist -g DBDG make DBVolume 5g \\ 在 磁盘 组 上 创建 5GB 大 小 的 卷 DE 





# mkfs -F vxfs -0 largefiles /dev/vx/rdsk/DBDG/DBVolume \\ 将 卷 
格式 化 为 VxFS 文 件 系统 

# mkdir /home/db2 \\ 创 建 挂 载 点 ， 将 用 于 DBVolume 卷 的 挂 载 

# mount -F vxfs /dev/vx/dsk/DBDG/DBVolume /home/db2 \\ 将 格式 付 
DBVolume 挂 载 于 /home/db2 下， 这 样 就 可 以 通过 CD /home/db2 进 入 这 个 目录 从 i 
这 个 卷 的 内 容 进 行 访问 了 





(2) 使 两 个 系统 可 以 通过 RSH 方 式 互 相 访 问 ， 在 dbsrv1 上 面 做 如 下 
操作 。 





# echo “dbsrv2 192.168.0.2”>> /etc/hosts \\ 将 对 方 加 入 自己 的 主 村 
# echo “dbsrv2 db2inst1”>> $HOME/ .rhosts  \N 使 得 对 方 主机 可 以 通关 
以 db2inst1 的 身份 登录 本 机 。Db2inst1 是 DB2 数 据 库 所 必需 的 用 户 

# echo “dbsrv 192.168.0.3”>> /etc/hosts \\ 将 虚拟 主机 加 入 自己 的 : 





(3) 在 dbsrv2 上 面 做 类 型 的 操作 ， 将 dbsrv2 改 为 dbsrv1， 卫 也 做 相 
应 的 改变 ， 虚 拟 主机 IP 和 主机 名 不 变 。 


(4) 在 两 台 计 算 机 上 分 别 执行 下 列 命令 ， 创 建 相同 的 用 户 组 。 





# groupadd -g 999 db2iadm1 \\ 创 建 DB2 实 例 管理 组 ， 





# groupadd -g 998 db2fadm1 \\ 创 建 DB2 fencing 管 理 组 ， 

# groupadd -g 997 db2asgrp NA 创建 DB2 数 据 库 管理 组 ， 

# Useradd -g db2iadm1 -u 1005 -d /home/db2 -m db2inst1 

\\ 创 建 DB2 实 例 管理 用 户 

# Useradd -g db2fadm1 -u 1006 -d /home/db2fenci -m db2fenc1 
\\ 创 建 DB2 fencing 管理 用 户 





























# Useradd -g db2asgrp -u 1007 -d /home/db2as -m db2as 
\\ 创 建 DB2 数 据 库 管理 员 账 户 

















注意 : ”上 述 用 户 组 或 者 用 户 的 有 D 可 以 是 尚未 被 使 用 的 任意 数 
字 ， 但 一 定 要 保证 两 台 计 算 机 上 面 的 用 户 ID 是 一 致 的 ， 否 则 数 
据 库 切 换 的 操作 会 失败 ; 数据 库 实 例 管 理 员 的 账户 目录 要 存放 
在 共享 盘 上 面 ， 也 就 是 home/db2 目 录 。 





(5) 在 两 台 计 算 机 上 面 分 别 安装 DB2 数 据 库 程序 。 用 install 程 序 来 
安装 DB2， 然 后 手动 创建 实例 和 数据 库 。 因 为 实例 目录 需要 放 到 共享 卷 
上 ， 也 就 是 home/db2 目 录 。 


(6) 安 闭 完 DB2 程 序 后 ， 分 别 在 两 侣 计算 机 安装 DB2 的 许可 证 。 
# /opt/IBM/db2/V8.1/adm/db21licm -a db2ese.lic 


(7) 在 dbsrv1 上 面 创建 实例 (存放 到 共享 枚 〉。 


# cd /usr/opt/db2 08_ 01/instance 





# ./db2icrt -u db2fenc1 db2inst1 \\ 创 建 一 个 名 为 db2inst1 的 实例 ，[ 
将 实例 目录 存放 到 同名 的 用 户 名 目录 下 ， 也 就 是 dbinst1 用 户 的 主 目录 : home/DB: 


(8) ”修改 DB2 节 点 文件 /home/db2/sqllib/db2nodes.cfg， 将 原来 的 


db2srv1 主 机 名 修改 为 dbsrv 这 个 虚拟 主机 名 。 


0 dbsrv 0 


(9) 创建 数据 库 testdb。 











# SU - db2inst1 \\ 切 换 数据 库 实例 管理 用 户 ， 

# db2start \\ 启 动 数据 库 ; 

# db2 create database testdb  \X 创 建新 的 数据 库 tdstdb， 由 于 当前 用 户 
db2inst1， 所 以 testdb 数 据 库 被 创建 在 /home/db2 目 录 下 ， 也 就 是 共享 卷 上 

# db2 terminate 断 开 与 DB2 服 务 后 端 处 理 进程 的 连接 ; 

# db2stop NAN 停止 数据 库 ， 


I 





























(10) 将 共享 盘 从 dbsrv1 氏 载 下 来 〈 在 dbsrv1 执 行 ) 。 


# Umount /home/db2 NA 外 载 文件 系统 ; 
# VXxvol -g DBDG stopall ANNA 将 DBDG 的 所 有 卷 停止 活动 ) 
# Vxdg deport DB2DB \\ 将 磁盘 组 BBD6 导 出 ， 以 便 在 其 他 计算 机 上 导入 并 挂 直 





(11) 将 共享 盘 挂 载 到 dbsrv2 (在 dbsrv2 执 行 〉。 


# VxXdg import DBDG  \N 将 磁盘 组 DBDG 导 入 ， 
# VXxvol -g DBDG startall \\\ 将 DBD6 的 所 有 卷 启 动 ; 
# mount -F vxfs /dev/vx/dsk/DBD6/DBVolume /home/DB2 \\\ 挂 载 文 作 


(12) 在 dbsrv2 启 动 原来 在 dbsrv1 创 建 的 数据 库 testdb。 


# Su - db2inst1 
# db2start 


# db2 connect to testdb 


如 果 能 够 连接 成 功 ， 则 数据 库 双 机 配置 成 功 。 如 采 数 据 库 服务 在 茶 
系统 上 发 生 故 障 后 ， 会 被 VCS 切 换 到 为 外 一 台 计 算 机 并 运行 。 下 面 配置 
目 动 故障 检测 并 切换 的 功能 。 





(13) 复制 DB2 代 理 配 置 文件 到 VCS 的 配置 目录 。 


# ch /etc/VRTSvcs/conf/Db2udbTypes.cf /etc/VRTSvcs/conf/conf 
b2udbTypes .cf 


(14) 打开 VCS 图 形 工具 。 








# /opt/VRTSvcs/bin/hagui \\ 将 运行 VCS 图 形 化 配置 工具 
(15) 创建 服务 资源 组 (service group) ， 并 命名 为 db2grp。 
(16) 依次 单 击 “ 文 件 ”。“ 导 入 ”-,“ 确 定 ” 按 钮 ， 导 入 DB2 代 理 配 置 
Ns 
(17) 在 db2grp 中 创建 六 个 资源 。 
a 们 表 组 : 即 DBDG。 
m 卷 : DBVolume。 
a 挂 载 点 : /home/db2。 
a 网 卡 : 客户 端 所 连接 的 网 卡 〈( 例 如 bge0) 。 


sn IP 地 址 : 选择 192.168.0.3 这 个 虚拟 IP 地 址 。 
a DB2 agent: 这 个 资源 会 监控 DB2 程 序 在 群集 中 的 运行 情况 。 


(18) 为 这 六 个 资源 创建 依赖 关系 《〈 右 击 资源 ， 选 择 link) 。 





IP 依 赖 NIC 网 卡 的 工作 正常 ， 卷 的 存在 依赖 于 磁盘 组 的 状态 ， 文 件 


系统 依赖 卷 ， DB2 代 理 的 状态 要 同时 依赖 于 了 地 址 的 存在 和 文件 系统 的 
存在 。 


(19) 右 击 db2grp 服 务 组 ， 选 择 online， 让 db2 在 dbsrv1 上 线 。 
(20) 右 击 db2 服 务 组 ， 选 择 switch to， 让 db2 切 换 到 dbsrv2。 


(21) 如 果 切 换 正 常 ， 则 VCS 配 置 成 功 。 





17.6.3 ”案例 二 : 基于 Symantec 公司 的 应 用 容 灾 产品 VCSC) 


图 17-43 是 两 个 站 点 容 灾 系 统 最 基本 的 结构 图 。 主 站 点 是 基于 三 个 
节点 Cluster 的 多 个 应 用 ， 容 灾 站 点 同样 也 配置 成 一 个 三 节点 的 Cluster 系 
统 ， 它 们 配 了 同等 容量 的 存储 ， 并 具有 数据 容错 功能 。 








图 17-43 ”两 个 站 点 的 互 备 群集 


主 站 点 运行 的 是 Web 服 务 、DB2 服 务 、SAP 企 业 ERP 服 务 以 及 邮件 
转发 服务 的 关键 业务 ， 完 全 置 于 容 灾 系 统 控 制 之 下 ， 可 以 看 到 : 


a 主 站 点 服务 器 A 上 安装 了 Web 服 务 程序 和 SAP 应 用 程序 ， 而 且 二 
者 皆 在 运行 状态 。 

a 服务 器 B 上 安装 了 邮件 转发 处 理 程序 ， 以 及 SAP 应 用 程序 和 DB2 
数据 库 程 序 ， 但 是 服务 器 B 上 的 SAP 和 DB2 程 序 平时 都 处 于 停止 
状态 ， 只 有 邮件 转发 程序 在 运行 。 

a 服务 器 C 上 安装 了 DB2 数 据 库 程 序 ， 并 处 于 运行 状态 ， 另 外 还 安 
装 有 Web 服 务 程序 和 邮件 转发 程序 ， 但 是 平时 处 于 停止 状态 。 


备份 站 点 的 业务 是 FTP 服 务 、SMB 文 件 共享 的 一 般 业 务 ， 不 做 容 
灾 。 备 份 站 点 的 服务 器 A 上 运行 的 是 FTP 服 务 程序 ， 同 时 安装 有 SAP 应 





用 程序 ， 但 是 SAP 应 用 程序 处 于 停止 状态 ， 服 务 器 B 上 运行 着 SMB 文 件 
共有 至 服务 ， 同 时 安装 有 DB2 数 据 库 服务 程序 ， 但 是 DB2 数 据 库 服务 程序 
平时 处 于 停止 状态 ， 服 务 器 C 上 安装 有 Web 服 务 程序 和 邮件 转发 程序 ， 
并 且 都 处 于 停止 状态 。 


图 17-43 中 最 长 的 箭头 指示 了 两 个 站 点 数据 同步 的 路 径 ， 即 从 主 站 
点 盘 阵 〈 或 者 主 站 点 服务 器 的 内 存 ) ， 经 过 前 端 以 太 网 交换 机 ， 传 送 到 
网 天 设备 ， 然 后 经 过 广域网 到 达 备 份 站 点 的 网 天 设备 ， 表 通过 前 并 以 太 
网 交换 机 传送 到 备份 站 点 服务 大 内 存 ， 最 后 从 内 存 写 入 后 端 磁盘 阵列 。 





主 站 点 服务 器 之 间 的 箭头 ， 表 示 一 旦 某 个 服务 器 ， 或 者 服务 器 上 的 
菏 个 应 用 发 生 故 障 之 后 ， 资 源 组 的 切换 走 问 。 


从 图 17-43 中 可 以 看 到 服务 器 B 和 服务 器 C 形 成 了 一 个 互 备 的 系统 ， 
即 服务 器 B 是 邮件 转发 程序 的 主 节 点 ， 是 DB2 服 务 的 备用 节点 ;而 服务 
器 C 是 DB2 服 务 程序 的 主 节 点 ， 是 邮件 转发 程序 的 备用 节点 。 


提示 : ”因为 主 站 点 的 三 台 服 务 器 之 间 形 成 了 比较 复杂 的 互 备 
关系 ， 所 以 三 台 服 务 器 必须 能 识别 到 其 他 两 侣 服务 器 上 挂 载 的 
卷 ; 但 是 备用 市 点 不 应 当 挂 载 这 些 着 ， 仪 当 对 方 应 用 或 者 整个 
服务 器 故障 的 时 候 ， 才 能 在 备份 节点 上 挂 载 这 些 卷 。 








图 中 央 的 粗 箭 头 ， 表 示 一 旦 主 站 点 发 生 了 大 故障 ， 诸 如 整个 机 房 被 
损毁 等 ， 那 么 所 有 主 站 点 的 应 用 ， 全 部 切换 到 备份 站 点 ， 并 且 备 份 站 点 
的 节点 挂 载 备用 磁盘 阵列 上 的 所 有 卷 。Veritas 的 Storage Foundation 组 件 
应 当 安 装 到 图 上 的 所 有 服务 器 中 ，VVM 模 块 用 于 管理 所 有 存储 卷 ， 
VVR 模 块 用 于 同步 所 有 卷 的 数据 ，VCS 模 块 用 于 检测 故障 并 且 切 换 应 
用 。 整 个 HA 系统 的 工作 过 程 如 下 。 








(1) 主 站 点 应 用 的 运行 过 程 中 ， 所 修改 的 数据 通过 所 有 主 站 点 服 
务 右 主机 都 安装 的 VVR 软 件 实时 地 复制 到 备份 站 扩 。 


(2) 假设 某 时 刻 主 站 点 服务 器 上 的 SAP 应 用 发 生 故 障 ， 比 如 相关 
服务 无 法 启动 ， 则 VCS 模 块 检测 到 这 个 故障 之 后 ， 发 现 相 关 资 源 组 有 两 
个 备用 节点 可 切换 : 主 站 点 的 服务 器 B 和 备份 站 点 的 服务 器 A， 所 以 它 
首先 检测 主 站 点 的 服务 器 B 是 否 可 用 。 如 果 可 用 ， 则 发 送 一 些 信息 通告 
服务 器 B 上 的 VCS 模 块 ， 准 备 切换 SAP 应 用 到 服务 器 B， 服 务 器 B 确 认 
后 ，VCS 在 服务 器 A 上 首先 印 载 SAP 程 序 所 存储 的 对 应 卷 ， 然 后 通告 服 
务 器 B 卸 载 成 功 ， 服 务 器 B 再 挂 载 这 些 卷 ， 并 且 接 管 SAP 服 务 所 利用 的 了 P 
地 址 ， 之 后 启动 SAP 服 务 。 客 户 端 只 需要 重新 连接 一 下 便 可 。 











(3) 东 时 刻 ， 主 站 点 机 房 供电 系统 故障 ， 经 过 相关 人 员 的 检查 ， 
恢复 供电 大 概 需要 5 小 时 。 而 UPS 系 统 在 工作 两 小 时 之 后 因 电 量 不 足 而 
停止 ， 企 业 CIO 有 果断 决定 ， 在 UPS 电 量 耗 尽 之 前 ， 将 主 站 点 所 有 系统 手 
动 停机 以 免 因 为 突然 断 电 对 硬件 和 软件 带 来 的 损害 。 此 时 备用 站 点 的 
VCS 软 件 检 测 到 了 这 个 故障 ， 立 即 在 所 有 服务 费 上 挂 载 已 经 经 过 数据 同 
步 的 卷 ， 然 后 局 动 所 有 备份 应 用 系统 。 所 有 生产 均 恢 复 运 行 ， 客 户 端 经 
过 修改 host 文 件 或 者 修改 所 连接 的 了 PP 地址， 恢复 了 与 服务 器 的 连接 ， 所 
有 生产 继续 运行 。 











(4) 5 小 时 之 后 ， 主 站 点 机 房 供电 恢复 ，UPS 系 统 充电 。 企 业 CIO 
决定 ， 在 恢复 供电 1 小 时 之 后 《确保 主 站 点 供电 恢复 正常 ， 以 避免 不 必 
要 的 动荡 ) ， 切 回 所 有 应 用 到 主 站 点 。 主 站 点 所 有 系统 开机 ，VCS 软 件 
会 检测 到 当前 的 应 用 已 经 全 部 运行 在 备份 站 点 ， 所 以 不 会 在 主 站 点 服务 
器 上 挂 载 卷 并 启动 应 用 。 与 此 同时 备用 站 点 的 VVR 软 件 重 新 建立 了 与 主 
站 点 VVR 软 件 的 通信 ， 并 互相 交互 数据 ， 备 份 站 点 的 VVR 检 测 到 了 主 
站 点 相关 卷 上 的 数据 是 落后 的 ， 因 为 备用 站 点 在 主 站 点 故障 期 间 ， 已 经 


生产 运行 了 5 小 时 ， 此 间 数 据 已 经 有 所 变化 。VVR 立 即将 变化 的 数据 复 
制 到 主 站 点 的 相关 卷 。 重 新 同步 后 ， 备 用 站 点 的 VCS 停 止 应 用 、 凶 载 
卷 ， 主 站 点 的 VCS 挂 载 卷 ， 尼 动 应 用 ， 所 有 状态 恢复 如 初 ， 客 户 端 重新 
连接 即 可 连接 到 主 站 点 的 服务 器 上 。 





本 次 故障 造成 的 停机 时 间 很 得， 没有 对 生产 造成 太 大 影响 ， 同 时 也 
很 好 地 考验 了 这 个 企业 的 异地 容 灾 系 统 的 功能 。 如 果 没 有 容 灾 系统 ， 这 
个 企业 束 要 忍受 长 时 间 停 机 带 来 的 损失 。 


17.7 虚拟 容 灾 技术 


传统 的 生产 工具 容 灾 方 式 下 ， 对 于 服务 器 的 容 灾 ， 通 第 使 用 配置 相 
当 的 服务 器 作为 备份 机 。 但 是 如 果 有 10 台 服务 器 需要 做 容 灾 ， 那 么 也 要 
准备 10 台 物理 服务 器 作为 备份 机 么 ? 不 见得 。 一 种 办 法 是 只 使 用 一 台 或 
者 几 台 服务 器 ， 其 上 安装 与 主 服 务 器 相同 的 应 用 程序 ， 主 服务 器 有 哪些 
应 用 ， 备 服务 器 就 安装 哪些 应 用 ， 安 装 在 同一 台 或 者 儿 合 物理 机 器 上 ， 
当主 服务 器 发 生 故 隐 之 后 《存储 故障 、 服 务 器 目 身 硬件 故障 等 ) ， 在 备 
服务 器 挂 载 主 服务 器 的 LUN 并 且 启 动 应 用 ， 有 几 台 服务 器 故障 ， 就 在 备 
服务 器 上 启动 对 应 的 应 用 程序 。 这 样 虽然 古 一 种 做 法 ， 但 是 在 服务 器 恢 
复 的 时 候 ， 需 要 重新 安装 操作 系统 重新 部 车 应 用 程序 ， 然 后 才能 将 备 服 
务 句 上 运行 的 应 用 程序 切换 到 主 服 务 器 上 ， 这 是 一 个 比较 耗 时 的 过 程 。 




















为 了 解决 这 个 问题 ， 虚 拟 容 灾 技 术 出 现 了 。 还 是 这 10 台 服务 器 ， 如 
果 利 用 VMware 提 供 的 P2V 拉 术 将 整个 服务 器 系统 盘 以 及 数据 盘 做 成 虚 
拟 机 格式 ， 然 后 在 一 台 或 者 几 台 备 服 务 器 上 使 用 VMware 根 据 生 成 的 镜 
像 来 创建 对 应 的 虚拟 机 ， 并 运行 所 有 的 虚拟 机 ， 在 主 服 务 器 端 使 用 一 个 
Agent 程 序 将 对 应 应 用 系统 对 底层 的 IO 数据 同步 到 备 服 务 器 Guest OS 上 
对 应 的 存储 设备 中 ， 这 样 ， 当 主 服务 器 故障 时 ， 备 服务 器 可 以 直接 启动 
应 用 ， 接 管 服务 。 主 服务 器 恢复 之 后 ， 利 用 VMware 提 供 的 V2P 技 术 ， 
将 虚拟 机 对 应 的 映像 转换 成 物理 机 对 应 的 数据 并 将 其 放置 到 对 应 的 LUN 
中 ， 这 样 ， 主 服务 右 就 可 以 直接 局 动 操作 系统 并 且 局 动 应 用 程序 了 。 











目前 已 经 有 一 些 广 丙 推出 了 虚拟 容 灾 产 品 ， 比 如 爱 数 备份 存储 柜 
V3.5。 


17.8 ”一体 化 先行 车 一 一 爱 数 一 体 化 备份 存储 柜 


我 们 都 知道 电话 /传真 /复印 /打印 /扫描 一 体 机 ， 所 有 人 对 它 的 评价 都 
是 “好 用 、 够 用 、 实 惠 ”， 正 如 一 句 广告 词 所 说 的 :“ 花 一 样 的 钱 买 五 
样 ! ”如 今 在 存储 领域 ， 也 出 现 了 这 样 一 种 一 体 机 ， 即 存储 、 备 份 、 容 
灾 三 合 一 一 体 机 。 好 么 ， 这 存储 领域 的 老 三 样 一 下 子 被 集成 到 一 台 设 备 
中 了 ， 谁 这 么 有 本 事 ? 这 就 是 爱 数 (EISOO) 软件 有 限 公司 的 “备份 存 
储 柜 ”v3.5 产 品 。 











说 明 : ”2010 年 春 作 者 有 垩 参加 了 爱 数 产品 全 国 巡 展 青 岛 站 ， 
会 议 中 与 爱 数 的 同行 们 进行 了 深刻 学 习 探讨 。 感 觉 爱 数 是 一 家 
朝气 莲 动 的 公司 ， 非 常 开放 ， 这 就 注定 了 她 会 飞快 发 展 。2009 
年 下 半年 ， 爱 数 发 布 了 一 体 化 的 备份 设备 ， 备 份 存储 柜 3.0。 
没 想到 时 隔 半年 ， 再 次 看 到 了 备份 存储 柜 升级 版 本 v3.5， 能 将 
备份 、 容 灾 和 存储 集成 到 一 台 柜 子 里 ， 这 需要 投入 很 大 的 研发 
精力 ， 爱 数 却 做 到 了 ， 而 且 古 如 此 之 快 。 


17.8.1 爱 数 备份 存储 柜 3.5 产 品 架 构 分 析 








我 们 先 来 看 一 下 传统 的 备份 架构 。 如 图 17-44 所 示 ， 传 统 的 备份 系 
统 中 包含 备份 服务 右 、 介 质 服 务 器 《备份 介质 可 以 是 磁盘 阵列 或 者 磁 融 
库 ) 、 备 份 软件 ， 也 可 以 简称 4S 备 份 方案 (Backup ”Server，Operating 
System, Backup Storage, Backup Software ) 。 


图 17-44 ”传统 备份 系统 架构 





我 们 可 以 把 备份 服务 器 和 介质 服务 器 的 角色 集成 到 磁盘 阵列 中 ， 形 
成 一 种 带 有 集成 存储 和 备份 功能 的 磁盘 阵列 ， 这 就 是 爱 数 备份 存储 柜 的 


原型 体 。 如 网 17-45 所 示 ， 备 份 存储 柜 作 为 一 台 一 体 化 设备 被 插入 了 系 
统 中 。 它 可 以 作为 支持 NAS、FTP、FC-SAN 和 IP-SAN 访 问 协议 的 磁盘 
阵列 设备 而 存在 〈 相 当 于 系统 中 多 了 一 全 磁盘 阵列 ) ， 同 时 还 是 一 个 备 
份 服务 器 ， 用 户 服务 器 或 者 用 户 桌 面 电 脑 上 的 数据 可 以 直接 被 备份 到 这 
台 设 备 中 存放 ， 用 户 终 端的 保 面 数据 通过 前 端 以 太 网 备份 ， 而 用 户 服务 
器 的 数据 则 既 可 以 实现 通过 前 端 以 太 网 备份 ， 也 可 以 实现 通过 后 端 FC 
网 络 来 备份 (Lan-Free/Frontend-Free) 。 备 份 之 后 的 数据 还 可 以 由 这 台 
设备 再 写 到 带 库 中 离线 保存 ， 也 就 相当 于 D2D2T (Disk-to-Disk-to- 
Tape) 。 





图 17-45 ”集成 了 备份 服务 器 和 介质 服务 器 模块 的 阵列 柜 


一 体 化 的 备份 设备 就 像 防毒 墙 和 防火 墙 设备 一 样 ， 很 快 受到 用 户 的 
欢迎 ， 主 要 原因 就 是 用 一 体 化 的 方式 改变 了 传统 备份 系统 的 模式 ， 更 加 
简单 方便 。 之 后 ， 这 个 原型 体 开始 进化 ， 爱 数 将 众多 功能 向 其 中 融入 。 
首先 被 融入 的 就 是 容 灾 技 术 。 传 统 备份 和 容 灾 的 一 个 本 质 区 别 束 是 ， 传 
统 备份 不 是 实时 备份 ，RPO 和 RTO 均 太 长 ;而 容 灾 则 是 实时 保护 和 灾难 
接管 ， 保 证 业务 连续 性 ，RPO 和 RTO 均 显著 缩小 。 





在 容 灾 方 面 ， 爱 数 选择 了 与 其 他 厂商 不 同 的 路 线 ， 巧 妙 地 运用 了 虚 
拟 化 技术 ， 即 在 备份 存储 柜上 集成 VMware ”Server 版 的 虚拟 机 引擎 ， 在 
存储 柜上 创建 若干 个 虚拟 机 操作 系统 来 作为 环境 中 原先 的 生产 物理 机 的 
后 备 服务 器 。 物 理 机 上 安装 一 个 数据 实时 复制 代理 ， 通 过 前 端 以 太 网 来 
将 数据 实时 同步 到 备份 存储 柜 中 运行 的 虚拟 机 磁盘 中 存放 ， 当 物理 机 发 
生 故 障 之 后 ， 虚 拟 机 立即 接管 物理 机 ， 继 续 服 务 ， 这 就 使 得 RTO 变 得 非 
常 短 ， 理 论 上 等 于 虚拟 机 接管 物理 机 IP 地 址 所 耗费 的 时 间 。 如 图 17-46 
所 示 为 融入 容 灾 功能 之 后 的 备份 存储 柜 架 构 简 图 。 








图 17-46 ”融入 虚拟 机 平台 








对 虚拟 机 的 创建 和 管理 可 以 直接 使 用 爱 数 备份 存储 柜 的 配置 界面 ， 
而 无 须 使 用 VMware 原来 的 配置 工具 ， 如 图 17-47 所 示 。 





图 17-47 ”虚拟 机 管理 界面 








目前 ， 爱 数 针 对 SQL Server 和 Oracle for Windows/Linux 这 两 种 数据 
库 引 入 了 文件 数据 块 级 (并 不 针对 整个 LUN， 而 是 针对 LUN 中 的 文件 ， 
对 文件 进行 增 量 块 级 同步 ， 这 样 会 避免 很 多 不 必要 的 数据 传输 ， 提 高 效 
率 ) 的 可 感知 应 用 层 一 致 性 的 实时 复制 ， 相 信 随 着 时 间 的 推移 ， 其 他 可 
感知 各 种 应 用 层 一 致 性 的 实时 复制 均 会 实现 。 











然而 ， 有 了 单纯 的 数据 实时 复制 还 不 行 ， 实 时 复制 并 不 能 保证 数据 
的 逻辑 一 致 性 ， 必 须要 引入 Snapshot 或 者 CDP 技 术 ， 让 备份 后 的 数据 可 
回 滴 。 所 以 ， 爱 数 一 步 到 位 地 在 备份 存储 柜 中 引入 了 CDP 技 术 。 对 相关 
文件 的 写 IO 对 应 的 数据 被 从 物理 机 同步 到 虚拟 机 中 的 虚拟 磁盘 (对 应 存 
储 柜 中 的 某 个 LUN》 的 时 候 ， 运 行 在 虚拟 机 上 的 代理 程序 (用 于 接收 物 
理 机 发 送 过 来 的 数据 以 及 插入 文件 系统 驱动 层 来 分 流 IO) 会 同时 将 其 复 
制 一 份 到 CDP 日 志 卷 中 保存 CCDP 日 志 卷 由 介质 服务 器 模块 所 管理 ) 。 





提示 : ”但 是 爱 数 使 用 的 这 种 CDP 方 式 与 本 书 其 他 章节 中 介绍 
的 可 实时 挂 载 的 CDP 有 所 不 同 ， 这 种 CDP 属 于 一 种 全 局 日 志 链 
〈 见 本 书 对 应 章节 ) 的 模式 ， 全 局 日 志 链 极 大 地 降低 了 CDP 的 
处 理 难 度 ， 提 高 了 效率 。 但 是 随 之 而 来 的 也 需要 耗费 额外 的 存 
储 空间 ， 而 且 日 志 链 中 的 每 一 条 操作 不 但 需要 记录 当前 被 写 入 
的 数据 ， 同 时 也 需要 记录 对 应 的 文件 块 被 覆盖 之 前 的 内 容 ， 而 
这 些 记 录 中 会 有 很 多 的 元 余数 据 ， 基 本 上 是 元 余 了 一 半 ， 上 所 以 











日 志 链 也 将 是 很 庞大 的 。《〈 本 书 其 他 章节 所 介绍 的 非 全 局 日 志 
链 CDP 模 型 没有 这 种 问题 ， 请 读者 自行 思考 。 ) 








这 样 处 理 之 后 ， 备 份 存 储 柜 中 不 但 保存 了 一 份 最 新 的 与 物理 机 源 卷 
内 容 同步 的 可 随时 访问 的 虚拟 机 卷 ， 同 时 也 保存 了 所 有 针对 这 个 卷 的 内 
容 更 改 ， 一 旦 物理 机 发 生 灾难 的 时 候 ， 虚 拟 机 直接 就 可 以 接管 并 直接 读 
写 虚 拟 机 苍 。 如 果 一 旦 过 到 数据 不 一 致 的 情况 ， 那 么 束 需 要 利用 CDP 来 
回溯 到 之 前 茶 个 时 间 点 了 。 








具体 的 回调 方法 是 : 系统 将 用 户 给 定 的 时 间 点 在 CDP 日 志 链 中 作 匹 
配 ， 找 到 对 应 时 间 点 的 位 置 ， 然 后 开始 Undo《〈 注 意 ， 是 Undo) 从 日 志 
链 尾部 到 这 个 时 间 扣 之 间 的 所 有 变更 ， 将 其 全 部 回 退 ， 对 应 的 回 退 动作 
反映 在 虚拟 机 卷 中 。 回 退 完 成 之 后 ， 虚 拟 机 挂 载 这 个 人 卷 ， 应 用 局 动 ， 之 
后 应 用 程序 针对 虚拟 机 卷 中 对 应 的 文件 所 作 的 更 改 ， 也 被 追加 记录 到 
CDP 日 志 卷 对 应 的 日 志 链 尾部 〈 称 为 虚拟 机 卷 附加 CDP 日 志 链 〉 并 做 好 
区 分 标记 。 这 个 附加 CDP 日 志 链 记录 了 虚拟 机 接管 之 后 所 有 针对 对 应 文 
件 的 更 改 ， 在 数据 反 回 同步 到 物理 机 时 需要 用 到 。 





同时 ， 发 生 故 障 的 物理 机 在 故障 修复 之 后 ， 需 要 将 数据 反问 同步 到 
(通过 前 端 以 太 网 ， 由 安装 在 物理 机 和 虚拟 机 上 的 代理 程序 执行 物理 
机 的 LUN 中 ， 此 时 ， 系 统 根 据 虚拟 机 卷 实际 数据 、 源 卷 CDP 日 志 链 和 虚 
拟 机 卷 附 加 CDP 日 志 链 这 三 者 ， 来 把 虚拟 机 卷 当 前 的 实际 内 容 全 部 〈 通 
过 读 取 虚拟 机 卷 中 相关 的 文件 块 以 及 Replay 两 个 CDP 日 志 链 ) 复制 到 物 
理 机 对 应 的 LUN 中 。〔 注 意 ， 爱 数 所 实现 的 CDP 为 文件 级 CDP， 日 志 链 
也 只 是 针对 对 应 的 文件 ， 复 制 的 也 都 是 对 应 数据 库 的 文件 数据 ， 如 果 源 
LUN 中 有 其 他 非 相 关 文 件 ， 则 不 受 保护 。) 





爱 数 技术 : ”在 这 里 ， 爱 数 引 入 了 又 一 项 独 有 技术 ， 即 增 量 


器 同步 。 我 们 知道 ， 物 理 机 可 能 发 生 的 故障 多 种 多 样 ， 比 如 主 
板 损坏 等 。 这 种 故障 物理 机 原来 LUN 中 的 数据 是 没有 影响 的 
《也 有 的 时 候 意 外 宕 机 可 能 引起 数据 损毁 ) ， 那 么 此 时 物理 机 
卷 中 的 数据 与 容 灾 问 的 数据 大 部 分 还 是 相同 的 ， 虽 然 容 灾 端 接 
管 后 可 能 已 经 经 过 回调 过 程 ， 甚 至 已 经 被 应 用 程序 写 入 了 新 数 
据 。 在 这 种 情况 下 ， 如 果 将 容 灾 端 的 整个 LUN 或 者 文件 都 反 回 
同步 回 物 理 机 上 ， 就 是 没有 必要 的 了 。 爱 数 的 做 法 是 ， 对 物理 
机 尚 存 的 源 数 据 以 及 虚拟 机 所 对 应 的 最 新 数据 影像 分 别 计 算 
Hash 值 指纹 ， 通 过 比 对 指纹 ， 找 到 指纹 不 同 的 文件 块 ， 然 后 只 
将 这 些 块 同步 回 物理 机 。 














17.8.2” 爱 数 备 份 存储 柜 v3.5 独 特技 术 


除了 上 面 押 述 的 一 些 关 键 技术 之 外 ， 爱 数 还 融入 了 一 些 其 他 独特 的 
技术 。 我 们 知道 CDP 任 意 时 间 点 恢复 之 后 的 数据 并 不 能 保证 一 致 性 ， 所 
以 爱 数 在 这 里 做 了 一 些 额 外 的 工作 来 保证 对 应 数据 库 的 一 致 性 。 








爱 数 技 术 : 前 涉 式 一 致 性 保证 算法 〈Proactive 
Consistency) : 是 指使 用 某 种 API 与 数据 库 程 序 通信 ， 让 其 处 
于 一 致 状态 ， 然 后 在 对 应 的 CDP 日 志 链 中 标记 此 时 的 时 间 点 ， 
恢复 时 只 要 恢复 到 这 个 时 间 点 ， 就 一 定 是 一 致 的 。 

启发 式 一 致 性 保证 算法 (Heuristic Consistency) : 是 指 通过 监 
测 文 件 系 统一 些 特 殊 行为 从 而 判断 数据 库 的 一 致 性 状态 ， 然 后 
在 CDP 日 志 链 中 做 相应 标记 ， 从 而 保证 恢复 时 的 一 致 性 。 

前 涉 式 算 法 由 于 需要 定时 地 对 数据 库 发 起 指令 让 其 处 于 一 致 状 
态 ， 所 以 对 数据 库 有 影响 ， 而 局 发 式 算法 则 一 直 处 于 劳 路 监测 
状态 ， 不 但 对 应 用 没有 影响 ， 而 且 其 实现 的 一 致 性 时 间 点 粒度 




















也 比 前 者 要 细 。 爱 数 使 用 局 发 式 算法 。 


上 文 曾经 分 析 过 ， 全 局 CDP 日 志 链 导致 数据 占用 大 量 的 额外 空间 而 
其 见 余 度 很 咒 ， 和 鉴于 此 ， 爱 数 在 介质 服务 器 模块 上 使 用 了 重复 数据 删除 
技术 来 消除 。 


爱 数 技术 :” 爱 数 备份 存储 柜 v3.5 中 的 介质 服务 器 模块 所 运行 的 
Deduplication 属 于 一 种 前 处 理 式 、 全 局 指纹 库 的 全 局 重复 数据 
删除 算法 ， 这 种 算法 对 系统 的 要 求 非常 高 ， 由 此 可 见 爱 数 的 技 
术 实 力 。 

爱 数 还 提供 了 多 点 灾 备 方案 。 

爱 数 技术 : ”提供 二 级 级 联 容 灾 (P2L2R，Production site to 
Local DR site to Remote DR site) ， 以 及 两 地 互 容 、 一 地 多 
容 、 多 地 共 容 和 链 式 环 容 的 多 点 容 灾 拓扑 。 本 地 可 以 在 执行 完 
Dedup 操 作 之 后 ， 再 将 CDP 日 志 链 数据 同步 到 其 他 站 点 的 存储 
柜 中 ， 这 样 就 节约 了 大 量 网 络 带宽 。 








俗话 说 ， 三 天 不 练 只 能 瞪眼 看 。 对 于 容 灾 ， 如 果 不 进 行 演练 ， 那 么 
即便 是 部 著 的 非常 到 位 ， 灾 难 来 临时 也 一 样 会 手忙脚乱 ， 天 灾 人 祸 一 起 
来 ， 业 务 仆 人 就 要 中 断 很 久 了 。 而 传统 灾 备 淋 构 中 ， 要 想来 一 次 演练 ， 
那 可 谓 是 兴 师 动 众 ， 人 心 悍 悍 。 但 是 有 了 虚拟 容 灾 之 后 ， 事 情 就 变 很 大 
了 。 爱 数 提供 了 两 种 容 灾 演练 模式 。 








爱 数 技术 : 虚拟 容 灾 的 最 大 好 处 束 是 容 灾 端 随时 可 用 ， 并 且 
可 写 ( 变 化 的 数据 有 相应 的 CDP 日 志 链 记录 ， 可 以 回 退 ) 。 正 
因 如 此 ， 用 户 可 以 随时 找 一 台 客 尸 端 直接 连接 容 灾 端的 虚拟 

机 ， 如 果 能 连 上 而 且 做 几 笔 业 务 发 现 没 有 问题 ， 那 么 就 证 明 容 
灾 奖 至少 在 网 络 之 下 的 所 有 层面 都 是 运行 正常 的 。 整 个 过 程 对 

















物理 生产 机 没有 任何 影响 ， 而 且 所 做 的 更 改 还 可 以 回 退 。 这 就 
是 爱 数 所 提供 的 模拟 演习 ， 可 以 定期 执行 。 

同时 ， 实 战 演 习 爱 数 推荐 一 年 进行 一 次 。 届 时 容 灾 端 完全 接管 
生产 闫 ， 待 回 切 时 ， 系 统 将 容 灾 问 所 做 的 变化 同步 回 物理 生产 


端 。 











值得 一 提 的 是 ， 爱 数 的 GUI 做 的 非常 好 ， 所 有 对 备份 存储 柜 的 配置 
均 使 用 All-In-One-Web 管 理 界面 ， 通 过 浏览 器 即 可 登录 管理 ， 如 图 17-48 
所 示 。 























图 17-48 ”All-In-One-Web 管 理 界面 





说 明 : ”经 过 上 述 对 爱 数 备 份 存储 柜 v3.5 的 染 构 和 功能 分 析 ， 你 
是 否 也 会 和 作者 有 同感 呢 ? 还 有 很 多 细 市 的 功能 作者 没有 进 一 
步 研究 。 气 作者 所 知 ， 爱 数目 前 有 三 大 产品 线 ， 第 一 是 备份 软 
件 ; 第 二 就 是 备份 存储 柜 3.5; 第 三 则 是 云 备份 平台 。 虽 

然 “ 云 ”目前 基本 上 还 处 于 各 家 目 行 忽悠 的 状态 ， 但 是 爱 数 能 
如 此 的 精力 和 实力 来 涉足 云 领域 ,可见 爱 数 的 技术 水 平 以 及 并 
锡 壮 志 。 可 能 由 于 阪 陋 寡 闻 ， 反 正 笔者 看 到 爱 数 能 够 将 如 此 多 
而 强悍 的 功能 做 到 一 起 时 ， 佩 服 之 余 也 感到 欣 感 ， 国 产 存储 终 


将 会 辉煌 ! 

















17.8.3 ”国产 存储 的 方 问 


我 们 目前 尚 不 可 能 造 出 像 西 方 EMC Symmetrix、HDS USP 那 样 的 大 
型 高 性 能 存储 硬件 产品 ， 但 是 我 们 的 智慧 从 来 就 没有 输 给 过 西方 ， 古 往 
今 来 ， 一 同 如 此 。《 孙 子 兵 法 》、《 本 草 纲目 》、《 伤 寄 杂 病 论 》， 哪 
一 本 都 彰显 了 中 国人 对 自然 和 对 人 文 方面 的 智 意 。 但 是 由 于 长 期 封建 统 





治 使 得 我 们 的 智 意 和 科技 受到 了 严重 的 茶 钢 。 而 如 今 新 中 国 建国 已 经 60 
年 了 ， 改 革 开 放 也 已 30 年 ， 科 技 文 化 等 全 面 打 人 破 茶 钢 ， 飞 速 发 展 ， 我 们 
应 用 智慧 的 时 候 也 到 了 ! 





在 计算 机 领域 ， 最 能 体现 智慧 的 地 方 就 是 软件 。 和 西方 人 拼 拳 头 ， 
我 们 没有 胜算 ， 但 是 和 他 们 拼 脑袋 ， 我 们 很 有 信心 。 存 储 硬件 的 性 能 
强 ， 它 也 只 不 过 是 几 个 铁皮 却 ， 输 出 为 一 堆 LUN 而 已 ， 而 目前 人 们 的 需 
求 越 来 越 高 ， 仅 仅 是 提供 高 性 能 的 LUN 已 经 根本 无 法 满足 日 益 多 样 的 需 
求 ， 所 以 存储 广 商 近 几 年 来 正在 癌 上 层 高 附加 值 的 软件 方面 投入 大 量 精 
力 ; 而 对 于 硬件 ， 也 不 再 育 目 妃 求 专用 高 性 能 平 侣 ， 而 相继 转向 了 开放 
的 x86 集 群 以 降低 成 本 ， 利 用 软件 和 集群 的 优势 来 弥补 x86 单 节点 性 能 不 
足 的 问题 。 这 些 痢 显示 出 软件 方 同 已 经 成 为 全 球 存储 行业 的 主导 方 同 。 




















2008 年 左右 存储 行业 两 大 巨头 EMC 和 IBM 都 各 自 退出 了 自己 的 集群 
存储 系统 ， 这 个 事件 将 会 是 存储 行业 的 里 程 碑 ， 它 宣布 了 从 那 一 时 刻 
起 ， 软 件 从 此 上 升 到 了 主要 地 位 。 而 这 种 方向 的 变化 ， 就 为 我 国 的 存储 
行业 发 展 创 造 了 不 可 错过 的 机 会 。 软 件 方面 ， 我 国 的 研发 人 员 水 平 不 亚 
于 印度 人 《国外 存储 厂商 的 研发 人 员 有 很 大 一 部 分 都 是 印度 人 ) ， 而 且 
最 重要 的 一 点 ， 我 们 更 加 勤劳 。 所 以 ， 我 们 一 定 要 抓 住 这 种 恨 机 ， 迅 速 
以 软件 解决 方案 占领 存储 市 场 。 我 们 可 以 让 我 们 的 智慧 凌 敬 于 这 些 铁皮 
过 子 之 上， 运筹 惧 悍 ， 扬 长 避 短 。 











爱 数 束 是 典型 的 以 智 取 胜 的 例子 ， 备 份 存储 柜 体 现 了 中 国人 独特 的 
智慧 。 通 过 软件 和 硬件 的 整合 ， 爱 数 创新 地 打破 了 备份 、 容 灾 和 存储 的 
沟 黎 ， 创 造 了 一 人 台 集 存储 、 备 份 和 容 灾 于 一 体 的 灾 备 设备 ， 而 且 功 能 强 
大 、 实 用 又 实 惠 ， 完 全 体现 了 国内 用 户 的 需求 和 接 有 能力， 具有 人 鲜明 的 
中 国 特色 。 不 仅 如 此 ， 爱 数 备份 存储 柜 的 All-In-One-Web 界 面 做 的 非常 
人 性 化 ， 而 且 非 第 美观 ， 这 正 是 国内 其 他 存储 软件 厂商 所 欠缺 的 地 方 ， 





这 一 点 爱 数 可 谓 是 用 心 展 兰 ， 中 国人 一 般 都 爱面子 ， 而 爱 数 在 界面 上 也 
给 足 了 面子 。 


在 不 久 前 的 全 球 气候 大 会 上 ， 中 国 辐 所 有 人 承诺 了 节能 减 排 的 目 
标 。 而 爱 数 的 一 体 化 产品 也 体现 了 绿色 节能 ， 与 传统 的 解决 方案 一 堆 设 
备 相 比 ， 一 体 化 设备 的 节能 与 低 成 本 显而易见 。 





爱 数 的 创新 是 一 种 突破 ， 也 是 一 种 趋势 ， 顺 应 了 第 三 代 存 储 的 发 展 
方向 ， 统 一 存储 和 应 用 存储 的 趋势 正 是 包括 DataDomain、NetApp 等 新 
兴 存 储 厂商 的 发 力 点 。 


挑战 国外 的 传统 ， 既 需要 技术 实力 的 突破 ， 也 需要 应 用 和 模式 突 
破 ， 包 括 备 份 设备 和 容 灾 设 备 在 内 的 应 用 存储 应 该 说 是 国内 存储 发 展 的 
一 个 重要 方向 。 





17.9 Infortrend RR 远程 复制 技术 





Infortrend 的 RR_ (Remote Replication) 技术 文 持 双 癌 及 多 站 点 复 
制 ， 文 持 同步 复制 、 异 步 复 制 ， 提 供 三 种 模式 : 


mn Volume Copy 模 式 可 以 让 用 户 一 次 性 将 某 个 逻辑 卷 复 制 到 远程 使 
用 ， 不 提供 后 续 的 周期 性 数据 同步 。 

mn Async Volume Mirror 采 用 异步 快照 滚动 同步 方式 ， 周 期 性 地 将 本 
地 数据 变化 同步 到 远程 。 

ma Sync Volume Miror 则 是 标准 的 同步 数据 复制 。 





如 图 17-49 所 示 为 Infortrend Replication Manager 配 置 界 面 。 可 以 看 到 
第 用 的 动作 入 口 ， 比 如 创建 /编辑 /删除 复制 关系 、 网 络 状 况 测 试 工具 、 
复制 暂停 /继续 、 同 步 /异步 开始 、 断 开 复制 关系 、 了 映射 复制 的 逻辑 卷 、 
目标 逻辑 卷 自动 映射 、 切 换 复制 关系 。 


图 17-49 ”Infortrend Replication Manager 界 面 
提 一 下 比较 有 特色 的 两 个 地 方 。 一 个 是 提供 网 络 状况 测试 工具 ， 可 


以 让 用 户 一 目 了 然 的 了 解 当前 复制 网 络 通路 的 带宽 、 时 延 、 接 收 和 发 送 
的 数据 量 等 信息 ， 以 便 灵 活 控制 数据 复制 参数 。 如 图 17-50 所 示 。 








图 17-50 ”Replication Manager 网 络 状况 测试 工具 


另外 ，Infortrend RR 还 提供 了 男 外 一 种 使 用 越 来 越 多 的 应 用 场景 的 
支持 ， 也 就 是 用 同一 台 主 机 连接 两 台 互 为 镜像 的 存储 系统 ， 要 求 当 一 台 
存储 系统 宕 机 之 后 ， 力 一 台 存 储 设备 无 颖 接管 ， 拓 扑 如 图 17-51 所 示 。 
这 不 但 要 求 研 层 存储 系统 之 间 要 维持 数据 复制 关系， 而 且 还 要 求 多 路 径 





软件 充分 配合 。 普 通 多 路 径 软件 不 认为 两 台 不 同 的 阵列 上 报 的 逻辑 卷 是 
同一 个 ， 所 以 发 生 故 障 之 后 并 不 会 自动 切换 。Infortrend 提 供 Target 
Volume Auto Mapping 功 能 ， 局 用 之 后 ， 一 旦 目标 存储 发 现 源 存储 系统 
不 可 用 ， 会 自动 将 复制 的 目标 卷 映射 给 预先 配置 好 的 主机 ， 再 加 上 多 路 
径 软件 的 配合 ， 上 层 应 用 可 以 在 很 短 的 停滞 时 间 内 继续 IO 访问 。 














图 17-51 ”目标 卷 自 动 映射 





17.10” 飞 康 RecoverTrac 容 灾 管 理 系 统 


我 们 来 做 一 回 产品 经 理 ， 如 果 让 你 设计 一 个 容 灾 管理 系统 ， 你 会 
么 设计 ? 先 不 考虑 可 行 性 ， 就 按照 你 的 理想 来 勾画 。 人 至 少 我 是 这 么 个 
路 : 首先 这 个 系统 的 主 界面 应 该 是 一 个 可 视 化 的 、 用 图 形 化 展示 当前 多 
个 站 点 的 各 种 状态 以 及 数据 复制 链 路 拓扑 关系 ， 以 及 哪 条 链 路 上 正 有 效 
气 在 被 复制 、 时 延 多 少 、 实 时 带 冤 多 少 。 扣 击 每 个 站 点 进入 该 站 后 内 部 
视图 ， 会 显示 出 该 站 点 内 所 有 系统 ， 包 括 主机 /应 用 系统 、 存 储 、 网 络 
的 运行 状态 。 当 发 生 灾 难 的 时 候 ， 比 如 某 主机 宕 机 ， 而 且 一 时 半 会 无 法 
上 线 了 ， 业 务 又 非常 写 ， 那 么 可 以 考虑 在 本 地 站 点 局 用 一 台 虚 拟 机 来 暂 
时 代 蔡 这 人 台 主 机 ， 但 是 这 要 求 之 前 主机 的 所 有 数据 都 必须 在 外 部 存储 系 
统 中 存储 ， 虚 拟 机 局 用 之 后 ， 可 以 挂 起 这 些 数据 郑 ， 继 续 运 行 应 用 系 
统 ; 如 果 是 某 站 点 整体 宕 机 或 者 灾难 ， 连 容 灾 管理 系统 都 无 法 登陆 了 ， 
那么 此 时 必须 在 容 灾 站 点 的 容 灾 管理 系统 中 强行 在 容 灾 站 点 启动 对 应 的 
主机 和 业务 系统 ， 但 是 要 求 源 站 点 的 数据 必须 在 容 灾 站 点 有 一 份 ， 不 一 
定 也 不 指望 是 最 新 的 。 
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一 般 产 品 经 理 也 就 像 上 面 这 样 处 理 了 ， 但 是 更 加 专业 的 产品 经 理 需 
要 将 这 些 需 求 一 层 层 地 细 化 ， 比 如 怎么 配置 谁 和 谁 是 容 灾 关系 ， 也 就 是 
A 主机 宕 了 ， 要 起 哪个 备用 主机 /VM? 依赖 关系 和 启动 顺序 如 何 ? 演练 
如 何 实现 ? 物理 到 虚拟 、 虚 拟 到 物理 、 物 理 到 物理 、 虚 拟 到 虚拟 ， 底 层 
数据 格式 如 何 转换 ? 如 此 复杂 还 是 先 洗 洗 睡 吧 ! 让 我 们 来 看 看 飞 康 的 
RecoverTrac 容 灾 管 理 软件 是 如 何 解决 这 些 问题 以 及 是 如 何 设计 展现 的 。 





如 图 17-52 上 图 所 示 为 RecoverTrac 部 署 示 意图 ，RecoveTrac 能 人 够 将 
NSS/CDP 系 统 所 提供 的 CDP、 远 程 复制 功能 、 主 机 端 Snapshot Agent 功 
能 进行 封装 和 上 自动 化 处 理 ， 然 后 再 与 各 种 应 用 进行 适 配 ， 最 终 展现 给 用 








-一 个 易 配 置 、 易 管理 的 自动 化 容 灾 系统 。 支 持 V2V、P2V、P2P 和 V2P 


台 了 





图 17-52 ”RecoverTrac 部 署 示 意图 











如 图 17-53 所 示 为 RecoverTrac 主 界面 ， 其 支持 物理 机 、 虚 拟 机 环境 
容 灾 ， 并 文 持原 先 由 物理 机 运行 的 系统 ， 容 灾 切 换 到 虚拟 机 运行 ， 反 之 
亦 然 ， 当 然 虚拟 机 到 虚拟 机 容 灾 、 物 理 机 到 物理 机 容 灾 也 不 在 话 下 了 。 
该 界面 采用 最 为 传统 的 左右 分 栏 模 式 设计 ， 左 栏 将 多 种 资源 分 类 ， 包 括 
Host ”Image 资 源 、Cluster ”Image 资 源 、 物 理 机 、Hypervisor 欠 主机 、 
VMware vCenter 管 理 机 、 微 软 Hyper-V 宿 主机、 存储 服务 器 、 站 点 、 事 
件 等 。 容 灾 管 理 系统 ， 管 理 的 其 实 是 主机 系统 和 存储 系统 ， 其 本 质 上 只 
做 一 件 事 ， 那 就 是 将 主机 系统 在 男 一 个 地 方 局 动 ， 其 上 的 应 用 程序 环境 
室 无 变化 ， 包 括 存 储 、 网 络 环境 。 





图 17-53 ”RecoverTrac 主 界面 视图 











尺 康 在 理念 上 有 一 点 很 特别 之 处 ， 就 是 将 Host 的 概念 脱离 了 底 
层 “ 机 器 ”的 概念 ， 也 驶 是 说 ，Host 不 等 于 机 器 ，Host 三 应 用 程序 十 运行 
环境 ， 而 运行 环境 三 主机 名 十 操作 系统 十 网 络 配置 参数 十 存储 路 径 〈 盘 
符 和 空间 ) ， 此 时 ， 这 个 Host 其 实 可 以 运行 在 物理 机 器 上 ， 同 样 也 可 以 
运行 在 虚拟 机 上 ， 后 两 者 才 是 机 器 。 所 以 ， 脱 离开 底层 机 器 的 Host， 飞 
康 称 之 为 “Host Image”， 而 底层 的 物理 硬件 或 者 虚拟 硬件 ， 飞 康 称 之 
为 “机 器 ”也 就 是 图 中 的 “Machine”。 





配置 容 灾 系统 ， 首 先 要 把 所 有 资源 识别 出 来 。 这 是 第 一 步 。 如 图 
17-54 所 示 ， 首 先 创 建站 点 ， 包 括 本 地 和 远程 站 点 ， 可 以 创建 多 个 站 
点 ， 然 后 在 本 地 站 点 中 将 存储 服务 器 〈 飞 康 NSS 产 品 ) 、vCenter 管 理 





机 、 虚 拟 机 宿主 机 都 注册 进来 ， 注 册 时 需要 输入 IP 地 址 和 认证 用 户 名 密 
码 等 信息 ， 因 为 系统 需要 从 这 些 主机 中 获取 虚拟 机 信息 。 每 台 Host 中 还 
必须 安装 飞 康 SAN Client 客户 端 ， 从 而 与 RecoverTrac 通 信 ， 以 便 监 控 和 
管理 容 灾 过 程 。 

















图 17-54 创建 站 点 、 注 册 虚 拟 机 管理 机 和 得 主机 、 注 册 人 存储 服务 器 








如 图 17-55 所 示 为 同系 统 中 添加 所 有 需要 保护 的 物理 机 或 者 虚拟 
机 ， 这 就 是 为 何 系统 需要 先 把 vCenter、ESX Serve、Hyper-V 答 主机 预先 
注册 和 认证 好 的 原因 ， 因 为 系统 会 回 这 些 主 机 得 询 虚 拟 机 列表 ， 从 而 方 
便 用 户 选 择 添 加 。 





图 17-55 ”添加 需要 容 灾 保护 的 物理 机 或 者 虚拟 机 





其 次 ，RecoverTrac 还 文 持 整个 集群 为 单元 进行 容 灾 切换 。 所 以 必须 
先 创建 好 对 应 的 集群 资源 对 象 也 就 是 图 中 的 Cluster Image。 如 图 17-56 一 
图 17-58 所 示 。 上 站 先 创 建 对 应 的 集群 资源 对 象 ， 然 后 同 其 中 添加 Host 
Image， 然 后 关联 该 集群 中 主机 所 使 用 的 存储 系统 ， 最 后 关联 该 集群 对 
应 的 虚拟 IP 地 址 。 系 统 必 须 掌握 上 面 的 信息 ， 因 为 ， 在 做 容 灾 切 换 的 时 
修 ， 系 统 会 首先 将 所 配置 的 存储 系统 逻辑 卷 的 复制 关系 断 开 并 切换 到 容 
灾 站 点 ， 然 后 在 容 灾 站 点 的 机 器 上 挂 载 好 这 些 逻 辑 卷 ， 然 后 配置 好 所 设 
置 的 JP 地 址 ， 最 后 才 会 启动 对 应 的 机 器 。 











图 17-56 ”创建 集群 资源 对 象 并 添加 Host Image 





图 17-57 关联 该 集群 底层 所 使 用 的 存储 逻辑 卷 














图 17-58 ”告诉 系统 该 集群 的 虚拟 IP 地 址 


如 图 17-59 所 示 ， 配 置 完 后 的 集群 资源 对 象 的 属性 可 以 随时 更 改 。 





图 17-59 ”集群 资源 对 象 属 





府 


在 主 界面 的 “Machine” 中 ， 定 义 的 则 是 真正 的 物理 机 器 或 者 虚拟 机 
器 。 物 理 机 的 加 电 启 动 也 是 可 以 由 程序 控制 的 ， 早 期 对 物理 机 加 电 启 动 
必须 管理 员 在 机 器 跟前 才能 完成 ， 而 如 今 各 种 远程 管理 硬件 和 协议 已 经 
非常 完善 ， 比 如 IPMI 协 议 十 BMC 访 片 共 同 配合 ， 可 以 通过 远程 以 太 网 
来 发 送信 号 控制 物理 机 的 开关 机 。 对 虚拟 机 的 开关 机 就 不 用 说 了 ， 更 加 
方便 。 能 对 机 器 开关 自如 ， 这 一 点 是 完成 容 灾 自动 化 的 前 提 之 一 。 








问 系 统 中 注册 物理 机 和 虚拟 机 的 过 程 限于 篇 幅 就 不 再 贴图 了 ， 基 本 
过 程 类 似 。 值 得 一 提 的 是 ， 不 仅 可 以 在 RecoverTrac 中 注册 已 经 存在 的 虚 
拟 机 ， 还 可 以 直接 在 界面 中 创建 新 的 虚拟 机 ， 因 为 前 文中 已经 将 vCenter 
管理 机 注册 到 系统 中 并 认证 了 ， 所 以 RecoverTrac 可 以 利用 接口 直接 创建 
新 的 虚拟 机 。 




















创建 好 之 后 的 物理 机 或 者 虚拟 机 对 象 的 各 种 属性 可 以 随时 更 改 ， 如 
图 17-60、 图 17-61 所 示 。 其 中 ， 物 理 机 的 Power Control 属 性 页 面 中 可 以 
选择 各 种 不 同 的 远程 管理 协议 ; Service 页 面 中 可 以 选择 如 果 该 机 器 是 
Windows 操 作 系 统 ， 其 需要 保护 的 服务 列表 ， 以 便 在 切换 到 备用 机 器 之 
后 重新 按照 配置 规则 启动 这 些 服务 SAN Client 是 指 该 机 器 所 连接 的 飞 
康 NSS 设 备 需 要 对 该 主机 做 好 映射 关系 ， 该 主机 作为 该 NSS 设 备 一 个 
SAN ”Client; Device 则 是 指 该 主机 所 连接 的 逻辑 卷 ， 系 统 可 以 自动 发 
现 ， 也 可 以 手动 添加 ;Hardware ”Profile 则 是 用 来 描述 物理 机 关键 IO 设 
备 ， 比 如 网 卡 、FC 卡 的 驱动 配置 参数 ， 以 便 系 统 参考 导入 备用 机 器 。 


























图 17-60 ”物理 机 和 虚拟 机 属性 
































图 17-61 ”电源 管理 设置 和 Windows 服 务 设置 























所 有 资源 对 象 注册 和 配置 完毕 之 后 ， 需 要 创建 容 灾 任务 。 如 图 17- 
62 所 示 ， 首 先 需 要 创建 一 个 容 灾 任 务 ， 选 择 需 要 进行 容 灾 的 Host 
Image， 然 后 选择 对 应 的 容 灾 端 机 器 ， 以 及 设 定 这 些 Host Image 之 间 的 局 
动 顺序 ， 图 中 的 Delay Time 便 是 来 控制 各 个 主机 延迟 多 久 司 动 ， 以 便 保 
证 被 依赖 的 应 用 先 局 动 ， 依 赖 他 人 的 应 用 后 局 动 ， 当 然 ， 这 些 必须 由 人 
来 告诉 系统 ， 系 统 自 身 不 会 知道 这 些 逻 辑 的 。 








图 17-62 ”创建 容 灾 任务 和 选择 容 灾 端 机 咒 








如 图 17-63 所 示 为 选择 灾 备 端的 磁盘 ， 如 果 本 地 站 点 和 灾 备 站 点 属 
于 共享 存储 型 的 拓扑 ， 那 么 图 中 就 需要 义 选 ‘Same Disk Devices”， 此 时 
相当 于 仅仅 可 以 容 灾 主机 宕 机 ， 如 果 本 地 站 点 和 容 灾 站 点 之 间 采 用 数据 
远程 复制 技术 ， 那 么 切换 到 灾 备 端 运行 之 前 ， 存 储 系统 就 必须 先 把 复制 
关系 切换 ， 同 时 逻辑 卷 也 是 主 备 关系 ， 此 时 就 需要 选择 使 用 *Replica 
Disk Devices” 来 作为 灾 备 端 所 使 用 的 逻辑 卷 。 











图 17-63 ”选择 恢复 用 逻辑 卷 和 调整 启动 参数 








容 灾 任务 创建 完毕 之 后 ， 便 可 以 在 灾难 发 生 的 时 候 ， 运 行 对 应 的 任 
务 ， 系 统 便 会 按照 之 前 设置 好 的 参数 和 恢复 方式 将 宕 机 的 Host Image 重 
新 在 其 他 的 机 器 上 运行 起 来 。 





大 致 步 又 如 图 17-64 所 示 。 当 开始 执行 东 个 恢复 任务 的 时 候 ， 





RecoverTrac 会 首先 对 当前 数据 卷 做 一 份 快照 ， 然 后 会 利用 这 份 快照 来 作 
为 灾 备 端 主 机 的 底层 数据 ， 为 何不 直接 用 原 卷 上 的 数据 ? 因为 此 时 灾难 
己 经 发 生 ， 原 卷 的 数据 最 好 别 碰 ， 碰 坏 了 玉石 俱 焚 ， 还 是 做 一 份 快照 来 
使 用 保险 的 多 。 快 照 生 成 之 后 ，RecoverTrac 会 将 这 份 快照 挂 起 来 ， 然 后 
将 其 改变 成 灾 备 端 主机 硬件 以 及 OS 能 够 支持 的 格式 ， 比 如 P2V、V2P、 

P2P， 如 果 两 台 物 理 机 硬件 规格 、HBA 卡 型 号 也 不 同 ， 就 可 能 需要 做 一 
些 更 改 才 可 以 成 功 挂 起 数据 卷 。 然 后 ，RecoverTrac 会 将 处 理 好 的 快照 映 
射 给 灾 备 端 主机 ， 但 是 先 不 启动 灾 备 端 主机 。 下 一 步 ， 如 采 是 计划 内 切 
换 ，RecoverTrac 会 首先 停 挥 源 问 业务 主机 ， 然 后 启动 灾 备 端 主 机 ， 主 机 
启动 之 后 ， 数 据 卷 自然 挂 起 ， 业 务 自 然 启 动 ; 如 果 是 灾难 真实 发 生 ， 那 
么 系统 会 直接 局 动 灾 备 端 主机 。 





图 17-64 ”恢复 流程 





说 明 : ”虽说 飞 康 RecoverTrac 的 配置 界面 并 没有 达到 本 人 理想 
中 的 容 灾 管 理 系统 的 用 户 体验 效果 ， 不 过 其 对 容 灾 的 封装 抽 
象 ， 比 如 ， 将 Host 作 为 一 个 资源 ， 其 底层 可 以 对 应 物理 机 也 可 
以 是 虚拟 机 ， 并 可 以 任意 P2V/V2P/V2V/P2P， 其 概念 是 非常 独 
特 的 ， 对 容 灾 的 管理 、 监 控 和 配置 等 方面 可 以 说 非常 强大 ， 有 
更 多 的 细节 可 以 去 挖掘 和 使 用 。 在 此 我 也 希望 飞 康 研发 团队 可 
以 将 好 东西 宣传 出 去 ， 界 面 上 的 改进 在 如 今 移 动 终端 时 代 并 非 
难事 ， 欲 行 干 里 ， 好 马 须 配 好 鞍 。 

国内 也 有 厂商 开发 的 类 似 容 灾 管理 系统 ， 但 是 无 论 是 理念 、 技 
术 实 现 、 细 节 、 体 验 等 ， 都 达 不 到 飞 康 RecoverTrac 的 水 平 ， 而 
且 有 很 浓重 的 参考 痕迹 ， 不 再 多 表 ， 完 其 原因 ， 还 是 缺乏 十 年 
麻 一 剑 登 峰 造 极 的 执着 ， 不 重视 技术 ， 和 急功近利 。 振 兴 民 族 科 
技 之 路 ， 谈 何 容易 ! 





17.11 带宽、 延迟 及 其 影响 


100Mb/s， 这 个 速率 意味 着 什么 昵 ? 有 人 说 ， 每 秒 可 以 传输 10MB 的 
数据 〈8/10b 编 码 下 ) 。 通 常情 况 下 ， 这 种 说 法 是 对 的 。 但 是 如 宋 发 送 
方 与 接收 方 之 间 的 距离 变 得 很 远 ， 比 如 数 百 公里 甚至 一 干 公 里， 那么 这 
种 说 法 ， 你 会 发 现 根 本 不 成 立 。 我 们 现在 就 来 分 析 一 下 。 

















大 家 知道 ， 光 或 者 电信 号 的 传输 是 有 固定 速度 的 ， 即 近似 每 秒 30 万 
公里 。〔 光 在 真空 或 者 空气 中 传播 可 以 达到 30 万 公里 每 秒 ， 但 是 在 光 统 
中 传播 的 实际 速度 为 20 万 公里 每 秒 ， 而 电信 和 号 在 电缆 上 的 传播 近似 为 21 
万 公里 每 秒 ) 如 果 两 点 之 间距 离 为 1000 公 里 ， 那 么 信号 传 一 个 来 回 ( 传 
到 对 端 ， 然 后 对 端 给 以 ACK 应 答 ) 所 耗费 的 时 间 就 是 
1000*300000x2s6.6ms。 什 么 概念 呢 ? 也 就 是 你 想 把 1b 的 数据 传输 到 一 
于 公里 之 外 的 地 方 ， 那 么 至 少 你 要 耗费 6.6ms。 那 么 传输 10b、100b、 
1Kb、100Mb， 需 要 多 长 时 间 呢 ? 首先 想到 的 是 ， 至 少 比 传 tb 要 慢 。 到 
底 需 要 多 长 时 间 ? 来 看 这 个 公式 : 传输 来 回 时 间 三 《数据 量 =: 链 路 速率 
x2) 十 (传输 距离 :光速 x*2) 。 数 据 在 传输 的 时 候 ， 首 先 会 被 通过 编码 
电路 将 数据 串 行 化 编码 然后 放 到 电路 或 者 光路 上 传输 ， 这 个 编码 速率 ， 
就 是 链 路 带宽 ，100Mb/s 的 带宽 与 1000Mb/s 的 带宽 ， 区 别 就 在 于 后 者 在 
单位 时 间 内 可 以 编码 相当 于 前 者 10 倍 量 的 数据 。 但 是 不 管 链 路 带 帘 有 多 
少 ， 数 据 被 编码 之 后 ， 数 据 在 电路 上 的 传输 所 耗费 的 时 间 对 各 种 速率 的 
链 路 来 讲 都 是 一 样 的 ， 因 为 传输 的 时 候 已 经 与 链 路 编码 速率 (带宽 ) 无 
关 了 ， 传 输 到 对 方 之 后 ， 对 方 还 需要 解码 (所 以 编码 所 耗 络 的 时 间 也 要 
乘 以 2) ， 同 样 也 是 取决 于 链 路 带宽 。 











所 以 ， 当 两 点 之 间 传 输 距离 很 近 的 时 候 ， 比 如 1 千 米 ， 那 么 传输 时 
延 s0.0066ms， 基 本 上 可 以 忽略 了 。 所 以 那个 公式 变 为 :传输 时 间 三 


(数据 量 = 链 路 速率 ) 。 所 以 说 ， 链 路 速率 越 大 ， 只 代表 其 编码 速度 越 
快 ， 而 不 代表 传输 速度 越 快 ， 传 输 速度 是 固定 的 ， 都 是 光速 。 再 打 个 比 
方 ， 有 一 辆 长 途 车 ，50 个 人 排队 上 车 ， 排 队 上 和 车 需要 120s， 汽 车 行驶 需 
要 60000s，50 个 人 排队 下 和 车 需要 120s。50 个 人 被 排队 送 上 和 车， 就 好 比 数 
据 被 串 行 编码 放 到 电路 上 传输 ， 汽 车 行驶 相当 于 电路 信号 从 一 端 传递 到 
另 一 端 ，50 个 人 排队 下 车 ， 就 好 比 对 端的 解码 过 程 了 ， 然 而 到 此 还 没有 
结束 ， 当 汽车 抵达 目的 地 之 后 ， 司 机 必须 在 返回 出 发 点 进行 报信 ， 这 就 
好 比 TCP 协 议 在 收 到 数据 之 后 发 送 给 源 端的 ACK 应 答 一 样 。 司 机 可 以 空 
着 车 跑 回 去 报信 (单独 发 送 ACK 应 符 包 ) ， 也 可 以 在 目的 端 指 带 着 一 些 
回程 客人 返回 去 报信 《TCP 可 以 在 反问 流量 中 夹带 ACK 应 答 信 息 以 提高 
效率 ) 。 但 是 在 容 灾 系统 中 ， 数 据 总 是 从 源 端 流 癌 目的 端的 ， 或 者 在 灾 
难 回 切 的 时 候 从 目的 端 流向 源 端的 ， 总 之 只 有 一 个 方向 有 实体 数据 流 
动 ， 那 么 此 时 回程 ACK 都 是 独立 的 ACK 应 答 包 《独立 ACK 包 很 小 所 以 
其 编 解码 所 耗费 的 时 间 也 忽略 掉 即 可 ) 。 




















另外 ， 一 辆 汽车 能 承载 的 人 数 是 有 限 的 ， 也 就 是 说 ， 得 一 趟 一 趟 地 
拉 ， 这 就 好 比 TCP 每 次 所 发 送 的 最 大 数据 长 度 ， 也 就 是 TCP 的 滑动 窗口 
长 度 ，TCP 得 分 批 把 用 户 数据 传送 出 去 ， 每 次 的 发 送 量 必须 小 于 TCP 清 
动 窗口 的 长 度 ， 每 次 传输 之 后 均 需 要 对 方 发 送 一 个 ACK〈 这 里 不 考虑 
ACK 合 并 等 特殊 情况 ) 。 每 批 数 据 虽 然 到 了 底层 可 能 被 切 分 ， 比 如 TCP 
的 MSS (Max Segment Size) 切片 ， 一 般 等 于 底层 链 路 的 MTU， 故 层 链 
路 再 用 MTU 的 值 来 切片 ， 但 是 这 些 底 层 的 切片 在 被 传输 到 对 端 之 后 ， 
并 不 需要 对 端 底层 协议 的 应 答 ， 只 有 对 端的 TCP 在 完整 的 收 到 TCP 发 送 
的 一 批 数 据 之 后 ， 才 会 应 答 。 

















那么 我 们 来 算 算 在 相隔 1000 千 米 的 两 点 之 间 ， 每 秒 到 底 能 够 传送 多 
少 个 来 回 : 1000ms*6.6ms 三 151 个 来 回 。 如 果 按 照 TCP 的 典型 滑动 窗口 





即 16KB 来 计算 的 话 “〈 每 次 发 送 16KB 数 据 然 后 就 等 待 应 答 ， 不 考虑 延迟 
应 答 或 者 合并 应 答 等 特殊 情况 ) ， 那 么 每 秒 吞 吐 量 仅 为 151x16KB 王 
2416KB， 也 就 是 2.4MB 每 秒 。 和 夸张 么 ? 











当然 ， 上 述 算式 是 忽略 了 编 解码 所 耗费 的 时 间 以 及 整个 链 路 上 各 种 
中 继 、 转 发 或 者 协议 转换 设备 所 带 来 的 处 理 延 迟 〈 好 比 长 途 车 途中 遇 到 
的 各 种 收费 站 、 立 交 桥 等 ) 。 如 果 算 上 这 两 者 ， 则 甜 叶 量 会 更 低 。 更 加 
准确 的 实际 数据 传输 吞吐 量 计算 公式 为 V=TCP Window Size*2 (TCP 
Window Size= 链 路 带宽 十 距离 :光速 十 链 路 设备 处 理 延 迟 ) 。 总 之 ， 距 
离 越 远 ， 实 际 传输 吞吐 量 就 越 低 ， 在 实际 应 用 中 一 定 要 有 底 。 





当 距 离 很 短 时 ， 可 以 忽略 距离 带 来 的 延迟 ， 此 时 显然 谁 带宽 高 谁 传 
的 就 快 ， 而 距离 很 长 时 ， 此 时 带宽 再 高 也 无 济 于 事 ， 因 为 大 头 都 被 距离 
给 耗 掉 了 。 男 外 ， 即 便 是 底层 链 路 的 带宽 相同 ， 距 离 也 相同 的 情况 下 ， 
使 用 不 同 的 协议 进行 传输 ， 所 带 来 的 延迟 也 是 不 同 的 。 但 是 设想 一 下 ， 
不 管 链 路 跨越 了 多 长 的 距离 ， 如 果 这 条 链 路 上 永远 都 有 数据 在 传 着 ， 那 
么 发 送 方 与 接收 方 就 可 以 以 链 路 带宽 的 原生 速率 来 收发 信息 ， 只 不 过 有 
时 延 ， 就 像 卫星 电视 那样 ， 此 时 传输 速率 并 不 会 打折 ， 如 果 做 到 这 一 
点 ， 那 么 对 于 一 个 容 灾 系统 来 讲 是 非常 好 的 事情 ， 充 其 量 只 会 丢失 几 毫 
秒 之 内 的 数据 。 但 是 ， 事 实 却 并 非 如 此 。 超 远 距 离 传输 ， 怕 的 就 是 数据 
流 的 卡 膏 ， 卡 一 次 两 次 不 要 紧 ， 频 繁 卡 壳 ， 那 就 根本 无 法 利用 起 链 路 带 
宽 了 。 这 就 好 比 磁 盘 寻 道 操作 一 样 ， 本 来 磁头 能 以 很 高 的 速度 读 写 盘 片 
上 的 数据 ， 但 是 没 办 法 ， 必 须 换 道 ， 这 一 换 道 ， 外 部 速率 又 降 。 碰 巧 的 
是 ，15K 转 每 秒 的 SAS 盘 其 平均 寻 道 时 间 为 5.5ms， 而 一 千 公 里 距离 的 传 
输 时 延 为 6.6ms， 这 两 个 值 倒 是 接近 而 且 还 挺 有 意思 。 

















传输 协议 无 法 避免 “ 卡 壳 ”"， 因 为 总 要 传 一 段 敬 一 段 来 等 待 对 方 叶 个 
声 ， 看 看 收 到 没有 。 比 如 TCP， 这 样 束 平 日 无 故 的 浪费 了 底层 链 路 时 


隙 ， 再 加 上 长 距离 下 的 高 传输 延迟 ， 一 来 一 回 更 浪费 了 大 量 时 间 ， 所 以 
会 出 现 上 文中 的 即便 是 千 兆 链 路 下 ，1000 公 里 的 距离 每 秒 也 只 能 传输 
2.4MB 的 理论 值 ， 实 际 值 将 会 更 低 了 。 





另外 ， 如 果 在 长 距离 下 使 用 诸如 iSCSI 等 协议 的 话 ， 那 将 更 是 一 笔 
惊人 的 浪费 。 大 家 知道 SCSI 层 本 身 就 有 传输 保障 机 制 ， 人 家 上 自己 有 
ACK 那 一 套 ， 而 底层 TCP 再 来 这 一 套 显 然 就 显得 多 此 一 举 了 。 按 理 说 有 
了 SCSI 层 的 传输 保障 机 制 ， 其 下 层 协 议 栈 就 应 该 是 个 无 状态 的 类 似 链 路 
层 协 议 了 ， 应 该 直接 将 数据 一 股 脑 传 过 去 ， 但 是 现实 是 它 非 得 传 一 段 ， 
停 一 段 ， 等 待 对 方 说 个 OK， 然 后 再 传 再 停 ， 慢 慢 腾腾 ; 不 仅 如 此 ， 再 
加 上 SCSI 也 要 传 传 停 停 ， 那 就 是 变本加厉 。 所 以 长 距离 上 跑 诸 如 FCP、 
iSCSI 等 这 种 SCSI 协 议 与 FC/TCPIP 协 议 的 合体 协议 ， 将 会 是 个 梦 诈 。 











降低 不 必要 的 ACK 数 量 ， 增 加 请 动 窗口 ， 这 些 都 是 广域网 加 速 的 技 
术 ， 对 传输 速率 会 有 一 定 程 度 的 提高 。 但 是 最 终 解决 办 法 ， 还 是 要 尽量 
缩短 两 地 距离 ， 或 者 开发 专用 优化 的 协议 了 。 








说 到 私有 协议 ， 这 里 束 展 开讲 一 下 。 上 述 所 有 场景 ， 均 建立 在 两 点 
之 间 只 有 单 TCP 连 接 ， 即 单 流 的 场景 下 ， 此 时 的 链 路 带宽 当然 无 法 被 充 
分 利用 ， 而 且 也 提 过 ， 如 果 确 层 链 路 一 刻 也 不 用 着 ， 那 么 其 有 效 带 宽 束 
可 以 更 高 的 被 利用 ， 怎 么 办 呢 ? 显然 ， 通 过 提高 并 用 连接 的 数量 ， 吏 可 
以 充分 利用 起 底层 链 路 的 时 隐 。 


提示 : ”关于 这 个 思想 ， 在 磁盘 阵列 控制 器 如 何 充 分 利用 起 后 
端 FCAL 环 路 的 带宽 方面 也 是 类 似 的 ， 大 家 可 以 阅读 附录 1 中 的 
第 5 问 。 


大 家 知道 iSCSI 里 有 个 Multi Connection Per Session 的 概念 ， 使 用 


Microsoft 的 软 iSCSI Initiator 的 话 ， 里 面 束 可 以 进行 设置 ， 让 Initiator 端 可 
以 同时 与 iSCSI Target 端 建立 多 条 并 发 的 TCP 连 接 ， 从 而 提高 远 距 离 传 输 
时 的 效率 ， 当 然 这 个 特性 需要 iSCSI Target 端 的 支持 配合 。 但 是 对 于 FCP 
来 讲 ， 就 没有 这 种 特殊 考虑 的 并 发 连接 设计 了 。 经 过 考量 设计 的 可 并 发 
连接 的 私有 协议 可 以 极 大 提高 远程 数据 传输 的 效率 。 比 如 ， 在 优质 链 路 
条 件 下 ， 可 以 降低 TCP 连 接 数 并 且 增 加 滑动 窗口 ， 而 随 着 链 路 质量 的 降 
低 ， 逐 渐 增 加 TCP 并 发 连接 数 ， 同 时 降低 滑动 窗口 的 大 小 。 








既然 说 到 了 多 流 并 发 ， 那 么 索性 就 再 展开 一 些 。 对 于 一 个 卉 步 模式 
的 数据 容 灾 复 制 系统 ， 最 起 码 要 保证 的 是 灾 备 端 数据 的 一 致 性 ， 而 数据 
一 致 性 勾 有 多 个 层面 ， 最 底层 的 一 致 性 就 是 所 谓 “ 时 序 一 致 性 ”， 灾 备 站 
起 码 要 保证 每 个 IO 都 按照 其 在 源 端 被 执行 的 顺序 刷 入 灾 备 问 数 据 集 中 。 
如 琳 使 用 单 流 TCP/PP 则 可 以 保证 时 序 ， 但 是 传输 效率 很 低 ; 但 是 在 多 流 
并 发 的 情况 下 ， 因 为 原本 流 与 流 之 间 是 无 关联 的 ， 可 能 在 源 问 先 执行 的 
IO 被 传送 到 对 端 之 后 却 被 后 执行 了 ， 此 时 就 需要 引入 更 复杂 的 逻辑 来 保 
证 同步 过 去 的 数据 被 按照 顺序 执行 。 这 里 又 有 两 种 办 法 可 以 考虑 ， 一 种 
征 保证 RPO， 在 多 个 流 之 间 维 护 强 一 致 性 ， 将 多 个 流 强制 关联 以 保证 收 
发 顺序 ， 此 时 灾 备 端 可 以 并 即将 收 到 的 IO 数 据 刷 入 底层 数据 集 ， 第 二 种 
则 是 牺牲 RPO， 主 备 站 点 之 间 之 间 采 用 站 到 端的 一 致 性 组 技术 ， 在 数据 
批 与 数据 批 之 间 保 证 时 序 性 ， 而 不 是 每 个 IO 之 间 。 此 时 灾 备 端 不 能 在 收 
到 数据 后 立即 刷 入 ， 比 如 等 待 一 批 数 据 全 部 收 到 之 后 才 可 以 刷 入 。 这 人 么 
做 虽然 可 能 导致 丢失 一 批 数据 而 不 是 几 个 IO， 但 是 可 以 方便 的 保证 数据 
一 致 性 。 


























第 18 重 ” 鬼 径 神 工 一 一 数据 前 处 理 
与 后 处 理 


国 数据 新 处 理 
加 数据 后 处 理 
加 阴阳 


存储 相当 于 主机 之 下 的 主机 ， 主 机 要 做 什么 ， 存 储 都 要 做 ,但 是 存 
储 做 的 ， 主 机 不 一 定做 。 存 储 上 运行 着 各 种 各 样 的 应 用 程序 ， 这 些 程 序 
专门 管理 和 处 理 数据 ， 作 者 发 明了 一 个 词 ， 称 其 为 “Data Cooker”， 个 人 
感觉 非常 合适 用 来 描述 这 些 程 序 ， 比 如 Snapshot、Deduplication、 
Mirror、Clone、Tiering、Migrating 等 。 这 些 DataCooker 可 以 在 原本 的 裸 
数据 之 上 实现 更 高 级 的 功能 ， 实 现 更 多 的 附加 值 。 


存储 除了 比 主机 多 运行 了 一 些 更 为 强大 的 复杂 的 Data Cooker 之 外 ， 
其 他 与 主机 无 异 。 所 以 ， 只 要 有 了 上 所 有 Data Cooker 或 者 创造 更 强大 的 
Data Cooker， 那 么 就 有 了 创造 一 台 强 大 存储 的 能 





相对 于 存储 人 硬件 来 讲 ， 软 件 更 为 重要 ， 有 些 存储 甚至 连 一 些 普 通 
X86 服务器 的 人 硬件 指标 都 达 不 到 ， 但 就 是 因为 它 有 强大 的 Data Cooker， 
可 以 让 它 称 条 一 方 。 如 果 有 了 更 强大 的 硬件 平台 ， 可 以 将 代码 移植 到 新 
平台 之 上 。 不 过 看 似 目前 不 开放 的 平台 正在 萎缩 ， 大 家 都 在 开放 平台 里 
给 自己 铺路 ， 比 如 EMC 的 V-MAX， 高 端 存储 也 用 普通 x86。 





18.1 数据 存储 和 数据 管理 


存储 系统 有 两 大 部 分 内 容 : 数据 存储 、 数 据 管理 。 数 据 存储 部 分 包 
括 : 存储 控制 器 硬件、 人 磁盘、 适配器、 网 络 传输 通道 、RAID 管 理 、 
LUN 管 理 等 ， 这 个 部 分 的 主要 功能 就 是 提供 基本 的 裸 数据 的 存储 服务 ， 
比如 将 数据 存储 到 对 应 的 LUN 中 或 者 从 其 中 该 出。 数据 管理 部 分 包括 : 
Tier、Snapshot、Clone 等 数据 处 理 功 能 模块 ， 更 多 的 数据 管理 功能 模块 
如 图 18-1 所 示 。 




















图 18-1 数据 存储 和 数据 管理 层次 图 








数据 管理 部 分 主要 负责 一 些 高 层 的 数据 处 理 ， 就 像 社会 需求 层次 金 
字 塔 一 样 ， 最 底层 的 需求 是 生存 、 温 饱 、 有 衣服 罕 ， 这 一 层 就 对 应 了 存 
储 系统 对 数据 的 基本 存储 功能 ， 比 如 同一 块 磁盘 中 存储 数据 ， 再 往 上 就 
是 更 高 层 的 需求 ， 比 如 不 仅 要 温饱 ， 还 要 吃 好 ， 味 道 足 ， 而 且 还 要 物质 
丰富 ， 要 啥 有 啥 。 这 就 对 应 了 存储 系统 对 数据 存储 的 进化 ， 比 如 将 多 块 
硬盘 做 成 RAID 提 高 性 能 ， 并 且 划 分 LUN 使 空间 分 配 更 加 灵活 ， 硬 件 配 
置 越 来 越 强 大 ; 然而 人 的 需求 总 是 得 寸 进 尺 而 且 越 来 越 疯 狂 并 且 无 聊 
的 ， 吃 还 要 吃 出 花样 来 ， 吃 出 品位 和 精神 来 ， 吃 完了 还 不 行 ， 还 要 追求 
精神 层面 的 享受 ， 比 如 ， 钱 太 多 了 ， 上 街 撒 一 把 ， 或 者 装 个 乞丐 乞讨 。 
这 惑 对 应 了 存储 系统 中 对 数据 的 更 高 级 的 处 理 ，Mirro、Snapshot 等 ， 甚 
至 一 些 华而不实 的 功能 。 






































又 可 以 把 数据 管理 部 分 分 为 对 数据 的 前 处 理 和 后 处 理 两 大 类 别 。 前 
处 理 指 的 是 当 数 据 还 未 写 入 磁盘 之 前 就 已 经 对 数据 进行 了 初期 加 工 ， 或 
者 对 数据 的 存放 空间 做 预先 的 准备 ， 之 后 才 写 入 磁盘 存放 ， 前 处 理 的 例 
子 比 如 : Post Deduplication、Thin Provision 等 。 后 处 理 则 指 的 是 当 数 据 


写 入 磁盘 之 后 ， 功 能 模块 将 这 些 数 据 再 读 出 进行 处 理 ， 之 后 绸 写 回 磁 
盘 。 后 处 理 的 典型 例子 比如 : BackGround Deduplication、Data Migrating 
等 。 有 些 功能 模块 既 包含 前 处 理 过 程 ， 又 包含 后 处 理 过 程 ， 比 如 
Snapshot。Snapshot 的 生成 是 一 个 后 处 理 过 程 ， 但 是 一 旦 Snapshot 生 成 ， 
那么 每 个 受 影 响 的 IO 也 都 会 经 过 额外 的 前 处 理 过 程 ， 比 如 CoW 过 程 ， 之 


后 才 被 写 入 硬盘 ， 再 比如 Mirror，Mirror 可 以 前 台 同 步 执 行 ， 也 可 以 后 
台 异 步 执行 ， 前 者 则 就 属于 前 处 理 ， 而 后 者 就 是 后 处 理 了 。 





18.2 存储 系统 之 虚实 阴阳 论 


太 始 之 初 为 太极 ， 即 先天 地 而 生 者 ， 即 道 ， 即 混沌 无 极 。 无 极 而 至 
则 分 化 为 两 极 ， 一 为 阴 ， 一 为 阳 ， 阴 者 为 间 为 实质 ， 阳 者 为 清 为 气 为 能 
量 。 二 者 本 为 和 合 ， 但 合 久 必 分 ， 阴 阳 分 化 导致 对 立 ， 阴 阳 二 者 通过 不 
断 登 加 和 合 ， 量 的 积累 产生 质 的 变化 ， 而 衍生 了 万 物 万 象 ， 所 以 万 物 万 
象 丝 表现 为 阴阳 实 虚 表 里 上 下 大 小 等 两 极 化 。 然 而 分 久 必 合 ， 两 极 相合 
的 过 程 便 衍生 了 生老病死 沧海 桑田 。 两 极 分 分 合 合 ， 万 物 轮回 生生 不 
恩 。 阴 阳 既 对 立 又 相合 ， 阴 灭 则 阳 毁 ， 阳 毁 则 阴 丈 。 














现在 的 社会 是 虚 进 实 退 ， 实 实在 在 的 东西 越 来 越 少 ， 越 来 越 没 人 去 
做 ， 而 虚 的 东西 却 越 来 越 多 的 人 趋 之 契合 。 虽 然 表 面 看 来 风光 无 限 ， 但 
殊不知 ， 虚 是 要 徘 实 来 文 撑 的 ， 阳 气 是 要 靠 阴 实 来 运 化 生发 的 ， 不 管 任 
何 系统 ， 如 果 系 统 中 的 实质 不 够 ， 那 么 它 所 能 运 化 出 的 能 量 也 就 有 限 。 
如 果 利 用 茶 些 翟 门 政 道 强制 运 化 ， 那 么 必定 会 元 气 大 伤 ， 阳 气 再 也 不 能 
运 化 ， 此 时 整个 系统 就 表现 为 一 个 没有 知觉 和 功能 的 实质 ， 这 种 实质 其 
本 质 已 计 ， 这 就 是 所 谓 “ 阳 灭 则 阴 毁 ?”。 如 果 系 统 的 实质 已 经 气 空 ， 则 阳 
气 也 无 法 生化 ， 此 即 为 “ 阴 损 则 阳 损 *。 所 以 当 整 个 社会 的 阳 脱 胀 到 一 定 
程度 之 后 ， 物 极 必 反 ， 能 量 将 走 回 肖 塌 漂 灭 沉 深 ， 然 后 再 逐渐 积累 阴 
实 ， 然 后 阳 再 次 逐渐 被 生发 扩大 。 





























对 于 存储 系统 来 讲 ， 既 然 作 为 一 个 系统 ， 那 么 它 与 世界 中 其 他 系统 
都 有 类 似 的 本 质 ， 阴 阳 和 合 而 生 ， 同 时 阴阳 对 立 ， 互 引 互 斥 ， 共 同 推动 
目 身 的 发 展 过 程 。 对 于 存储 系统 ， 实 质 为 阴 ， 比 如 控制 器 、 磁 盘 、 线 
绕 、 柜 子 等 所 有 便 件 ， 而 软件 为 阳 ， 比 如 操作 系统 以 及 各 种 Data 
Cooker。 软 件 与 硬件 之 间 就 是 一 种 阴阳 关系 ， 脱 离 了 软件 ， 人 硬件 融 是 一 
堆 废 铁 ， 而 脱离 了 硬件， 软件 就 脱离 了 存在 的 根本 而 灰飞烟灭。 如 果 硬 














件 不 够 强大 ， 那 么 软件 运行 的 速度 也 就 不 够 快 。 同 样 ， 在 软件 层次 之 
内 ， 也 有 阴阳 关系 ， 底 层 软件 为 阴 ， 比 如 设备 驱动 程序 、RAIDALUN 管 
理 程序 ， 而 上 层 的 软件 为 阳 ， 比 如 Snapshot、Clone 等 ， 如 果 没 有 底层 的 
明 实 的 支撑 ， 上 层 的 这 些 能 量 就 无 法 被 生化 。 








磁盘 上 只 有 数据 ， 不 同 的 存储 系统 ， 样 子 可 能 一 样 ， 破 盘 也 都 可 以 
一 样 ， 但 是 它们 各 上 自 的 修行 境界 是 不 同 的 ， 有 些 系统 拥有 强大 的 Data 
Cooker， 而 有 些 系统 则 徘徊 于 基本 的 数据 存储 层面 。 








万 物 只 要 法 于 阴阳 ， 就 可 以 保证 运行 顺畅 ， 一 旦 与 阴阳 变化 规律 相 
那 ， 则 束 会 产生 各 种 问题 。 对 于 存储 系统 也 遵循 这 个 道理 。 比 如 菜系 统 
拥有 强大 的 硬件 ， 但 是 它 却 没有 强大 的 数据 管理 软件 模块 ， 只 能 够 提供 
基础 的 数据 存储 服务 ， 那 么 这 样 的 存储 系统 就 很 难 满足 目前 的 业务 需 
求 ;， 如果 茶 个 存储 系统 拥有 强大 的 数据 管理 功能 ， 但 是 它 底 层 的 人 硬件 却 
是 捉 伴 见 肘 ， 性 能 很 弱 ， 那 么 也 残 无 法 高 性 能 地 发 挥 出 这 些 噩 层 功 能 。 


阴 位 于 阳 之 下 ， 阴 是 实质 ， 阳 是 能 量 。 数 据 存 储 为 阴 ， 数 据 管理 为 
阳 。 目 前 的 存储 市 场 更 加 注重 修炼 阳 ， 而 对 于 阴 的 修 炬 已 经 逐渐 弱化 ， 
大 部 分 厂商 已 经 将 底层 人 硬件 架构 转 为 开放 廉价 的 x86 架 构 ， 利 用 集群 化 
来 文 撑 上 层 对 撒 层 性 能 的 要 求 。 





18.3 Data Cooker 各 论 


由 于 Snapshot、Clone、Disaster Recovery、Virtualization、Mirror、 
CDP 己 经 在 本 书 其 他 章节 介绍 过 了 ， 所 以 下 面 只 介绍 Thin Provision、 


Deduplication、Tier、Space Reclaiming 等 。 


18.3.1 Thin Provision/Over Allocation 





Thin Provision 目 前 被 广泛 的 翻译 为 “着 供 ” 或 者 “自动 精简 配置 "， 对 
这 两 种 翻译 笔者 个 人 是 不 赞同 的 。 一 是 这 两 种 翻译 根本 无 法 反映 这 种 技 
术 的 本 质 ， 让 人 根本 看 不 懂 ; 二 是 这 两 种 翻译 容易 让 人 理解 错误 ， 会 误 
导 别 人 。 前 者 直接 按照 字面 翻译 ， 完 全 没有 任何 音义 ， 后 者 则 故 弄 玄 
虚 ， 弄 了 一 个 让 人 摸 不 着 头脑 的 看 似 “ 专 业 ” 的 词 。 笔 者 认为 Thin 
Provision 直 接 翻 译 为 “ 超 供 ? 最 能 反映 这 种 技术 的 本 质 ， 即 Over 
Allocation。Over Allocation 的 概念 最 早 是 由 STK 公 司 于 1992 年 提出 的 ， 
后 来 DataCore 公 司 根据 Over Allocation 的 思想 在 2002 年 提出 了 Thin 
Provision 的 概念 并 将 其 应 用 于 存储 产品 ， 随 后 3PAR 也 于 同年 在 其 存储 
产品 中 应 用 了 Thn Provision 。 





所 谓 超 供 ， 还 是 举 个 例子 来 讲 ， 比 如 某 台 存储 系统 只 有 10TB 的 物 
理 存 储 空间 ， 现 在 有 10 台 主机 客 记 六， 每 个 客户 端 各 目 需 要 1TB 的 存储 
空间 ， 所 以 这 10T 空 间 只 能 给 这 10 个 客户 端 来 用 ， 此 时 已 经 没有 剩余 空 
间 了 。 但 是 在 使 用 过 程 中 却 发 现 ， 这 10 个 客户 端 中 ， 不 是 每 个 都 能 很 快 
就 将 自己 的 1TB 空 间 用 完 的 ， 这 就 造成 了 空间 朵 置 。 有 没有 办 法 把 这 些 
闲置 的 空间 利用 起 来 ， 但 同时 又 不 能 让 原来 的 10 个 客户 端 感知 到 呢 ? 











从 技术 上 来 讲 ， 实 现 这 种 普 意 的 “欺骗 "不 成 问题 。 假 如 10 个 客户 亲 


每 个 实际 使 用 了 500GB 的 空间 ， 这 样 的 话 ， 整 个 系统 内 还 剩 下 5TB 的 空 
间 没 被 实际 占用 ， 那 么 此 时 存储 系统 可 以 在 后 台 悄 悄 地 将 这 5TB 的 空间 
再 分 配给 其 他 客户 端 ， 比 如 ， 再 分 别 分 配 1TB 的 空间 给 5 个 客户 端 ， 现 
在 所 有 15 个 客户 端 每 个 客户 端 所 看 到 的 额定 空间 都 是 LTB， 但 是 实际 物 
理 空 间 却 只 有 10TB 而 不 是 15TB。 这 惑 是 " 超 供 ”的 “ 超 ” 字 所 体现 的 含 
义 。 








更 进一步 ， 上 面 的 例子 ， 即 使 剩余 了 5TB 未 占用 空间 ， 那 么 既然 存 
储 系统 可 以 自欺欺人 地 将 其 分 配给 5 个 客户 端 每 个 LTB， 那 么 为 何不 能 
更 加 厚 颜 无 耻 地 分 配给 10 个 、20 个 客户 端 ， 每 个 ITB， 或 者 每 个 10TB 的 
空间 呢 ? 本 来 已 经 是 在 骗 ， 骗 1TB 也 是 骗 ，10TB 也 一 样 是 在 骗 。 最 后 ， 
干脆 变 成 一 个 彻头彻尾 的 骗子 得 了 ， 骗 子 的 最 高 境界 就 是 连 目 己 都 被 自 
己 骗 了 。 比 如 ， 本 来 自己 只 有 10TB 物 理 容量 ， 但 是 它 却 通告 自己 有 
10PB 的 容量 ， 所 有 客户 端的 分 配 空间 ， 将 会 在 这 10TB 的 整体 物理 空间 
中 按 需 分 配 ， 也 就 是 说 ， 分 配给 你 多 少 空 间 只 是 虚 的 ， 你 实际 用 多 少 才 
是 实 的 ， 才 是 占用 实际 空间 的 。 这 种 做 法 是 基本 常识 ， 比 如 网 络 人 硬盘 、 
邮件 服务 商 等 ， 你 申请 一 个 2GB 的 网 络 硬盘 或 者 邮箱 ， 供 应 商 才 不 会 给 
你 预 留 2GB 的 空间 ， 它 只 是 记录 一 下 而 已 ， 当 你 真 的 塞 入 了 2GB 的 数据 
后 ， 你 才 真 正 地 占用 了 供应 商 的 存储 空间 。 























存储 系统 实时 监控 物理 空间 使 用 情况 ， 一 旦 所 有 用 户 整 体 空间 消耗 
达到 临界 值 ， 则 需要 马上 扩大 物理 容量 。 然 而 ， 对 于 空间 使 用 率 的 监控 
方面 ， 如 果 存 储 系统 为 NAS 系 统 ， 提 供 的 是 一 个 基于 文件 协议 的 卷 共 
享 ， 则 存储 系统 本 身 就 可 以 很 容易 地 监控 存储 空间 的 真实 耗费 情况 ， 因 
为 NAS 系 统 是 自己 来 维护 文件 与 物理 空间 对 应 关系 的 。 但 是 如 果 存 储 系 
统 提供 一 个 基于 Block 协 议 访 问 的 空间 ， 比 如 FC 或 者 iSCSI 协议 的 LUN， 
则 存储 系统 所 监控 到 的 这 个 LUN 在 物理 磁盘 上 所 占用 的 空间 使 用 率 很 大 











程度 上 是 伪 的 ， 存 储 系统 监测 到 的 后 用 率 永 远大 于 其 实际 占用 率 ， 其 原 
因 是 因为 存储 系统 自身 一 般 不 能 感知 到 这 个 LUN 中 的 文件 系统 中 的 实际 
文件 所 占用 的 空间 ， 只 有 客户 端 主机 才能 看 到 ， 如 果 在 使 用 这 个 LUN 的 
客户 端 主机 上 曾经 将 数据 塞 满 整 个 LUN 但 是 随后 又 删除 掉 了 ， 那 么 存储 
系统 所 看 到 的 这 个 LUN 的 使 用 率 永 远 都 是 100% ， 而 实际 却 是 0。 但 是 从 
技术 角度 来 讲 ， 存 储 系统 想 要 监控 LUN 之 内 的 实际 数据 使 用 率 也 不 是 什 
么 难题 ， 只 要 能 够 感知 其 上 的 文件 系统 逻辑 即 可 探查 到 ， 并 且 已 经 实 
现 ， 下 一 节 将 会 描述 。 





存储 系统 对 LUN 实 际 占用 空间 的 监测 ， 可 以 选择 简单 模式 、 复 杂 模 
式 和 完美 模式 。 


在 简单 模式 下 ， 系 统 将 记录 一 个 High Water Mark， 即 目标 LUN 曾 经 
接收 到 的 写 IO 所 对 应 的 LBA 地 址 中 最 长 (最 远 ) 的 那个 ， 利 用 这 个 
HWM 来 判断 目标 LUN 实 际 占用 的 空间 。 比 如 ， 一 开始 存储 系统 创建 了 
一 个 大 小 为 1TB 的 LUN， 但 是 由 于 使 用 Thin Provision 模 式 ， 这 个 LUN 刚 
被 创建 好 的 时 候 ， 实 际 是 不 占用 存储 系统 物理 硬盘 的 空间 的 ， 系 统 只 是 
将 这 个 LUN 做 记录 ， 但 是 不 为 其 分 配 实际 空间 。 当 主机 客户 端 挂 载 这 个 
LUN 之 后 进行 号 IO 操作 时 ， 假 设 第 一 个 IO 就 是 辐 这 个 LUN 的 最 后 一 个 
LBA 地 址 中 写 入 数据 ， 那 么 存储 系统 此 时 就 会 判断 这 个 LBA 地 址 ， 并 且 
查看 当前 已 经 分 配 的 物理 空间 尽头 的 LBA 地 址 ， 如 果 当 前 已 分 配 空间 尽 
头 LBA 地 址 小 于 当前 写 IO 的 LBA 地 址 ， 那 么 存储 系统 就 会 再 分 配 一 段 长 
度 为 〈 当 前 IO 的 LBA 地 址 -当前 已 分 配 空间 尽头 LBA 地 址 ) 的 物理 空间 
给 这 个 LUN。 在 这 个 例子 中 ， 虽 然 主 机 只 发 送 了 一 个 写 IO， 但 是 存储 系 
统 却 需要 分 配 与 LUN 标 称 大 小 相同 的 物理 空间 ， 这 显然 是 不 合算 的 ， 但 














复 洒 模式 下 ， 系 统 可 以 识别 简单 模式 所 不 能 识别 到 的 信息 ， 要 识别 





出 当前 LUN 真 正 需要 的 物理 空间 ， 就 需要 记录 更 多 的 信息 ， 比 如 LUN 中 
哪些 地 址 被 号 过 ， 哪 些 尚 未 被 写 过 ， 而 记录 这 种 信息 的 最 高 效 做 法 就 是 
利用 Bitmap。Bitmap 中 每 个 比特 可 以 表示 一 个 Block， 或 者 一 个 LBA， 
但 是 限于 效率 方面 考虑 ， 每 个 比特 表示 一 个 Block〈 或 称 Page， 比 如 
4KB、16KB 大 小 ) 是 比较 划算 的 。 利 用 这 个 Bitmap， 不 但 可 以 随时 监 
测 对 应 的 LUN 中 哪些 Block 实 际 被 占用 ， 而 且 还 能 统计 出 实际 占用 的 比 
例 以 便 在 将 要 达到 物理 空间 极限 时 发 出 通知 。 有 了 这 个 Bitmap， 系 统 就 
可 以 针对 每 个 写 IO 都 来 参考 这 个 Bitmap， 如 果 当 前 写 IO 的 目标 地 址 对 应 
的 比特 为 1， 则 表示 已 分 配 其 物理 空间 ， 则 这 个 写 IO 直接 写 向 对 应 的 物 
理 空间 ; 而 如 果 对 应 的 比特 为 0， 则 表示 对 应 的 Block 尚 未 被 分 配 ， 那 么 
系统 就 会 先 分 配 物理 空间 给 这 个 LUN， 更 新 LUN 的 Metadata， 然 后 将 数 
据 写 入 对 应 的 Block。 这 样 做 虽然 效率 低 ， 但 是 能 够 节省 更 多 空间 。 然 
而 ， 就 像 上 文中 所 述 的 ， 如 果 主 机 客户 端 确 实 曾经 对 这 个 LUN 中 的 每 个 
地 址 都 写 过 数据 ， 那 么 此 时 存储 系统 就 会 分 配 与 LUN 标 称 空 间 相 同 大 小 
的 物理 空间 。 但 是 此 时 这 个 LUN 内 的 所 有 数据 可 能 都 是 “尸体 ”， 即 这 个 
LUN 之 上 还 有 一 层 逻 辑 在 做 映射 ， 也 就 是 文件 系统 (或 者 其 他 程序 自身 
管理 的 数据 映射 机 制 ) 。 纵 使 文件 系统 将 这 个 LUN 中 的 所 有 数据 都 删除 
了 ， 那 么 此 时 对 于 存储 系统 来 说 ， 它 根本 无 法 感知 到 文件 逻辑 ， 所 以 此 
时 这 些 被 删除 的 文件 依然 是 占用 物理 空间 的 。 解 决 这 个 问题 的 办 法 将 在 
下 一 节 描 述 ， 也 就 是 所 谓 完 美 模式 。 




















Thin Provision 的 底层 技术 实现 方式 其 实 并 不 复杂 。 大 家 都 知道 ， 不 
管 是 在 Windows 还 是 Linux 操 作 系统 下 ，NTFS 或 者 EXT3 文 件 系 统 ， 都 文 
持 Sparse File， 文 件 系统 为 每 个 Sparse File 都 保存 了 一 张 Bitmap， 而 这 个 
Bitmap 的 作用 正如 上 文中 所 述 〈 关 于 Sparse File 的 更 多 介绍 请 参考 本 书 
其 他 音节) 。 所 以 ， 如 果 某 存储 系统 直接 使 用 文件 系统 来 作为 LUN 的 管 
理 平台 ， 那 么 它 完全 可 以 把 LUN 设 置 为 一 个 Sparse File。 但 是 由 于 Sparse 


File 并 不 支持 超 供 ， 比 如 物理 空间 只 有 100GB， 那 么 就 只 能 创建 100GB 
大 小 的 文件 ，Sparse 的 作用 只 是 在 同文 件 号 入 大 量 的 0x00 时 不 会 癌 磁 稻 
写 入 这 些 0， 而 且 随 后 的 读 出 过 程 也 不 会 产生 原本 应 该 发 生 的 实际 磁盘 
IO， 而 只 是 在 内 存 中 生成 这 些 0。 所 以 ， 要 实现 超 供 ， 必 须 对 Sparse File 
功能 加 以 增 减 。 


而 一 些 存 储 系统 并 不 使 用 文件 系统 来 管理 LUN 分 布 ， 那 么 这 些 存 储 
系统 就 比较 难受 了 。 举 例 来 讲 ， 我 们 先 来 看 看 如 果 使 用 横 回 条 珊 化 方式 
来 分 布 LUN 的 情况 下 (最 传统 的 方式 ) 系统 是 怎么 实现 Thin Provision 
的 。 显 然 ， 第 一 个 能 够 想到 的 方法 就 是 以 一 个 或 者 知 干 个 连续 条 带 为 单 
位 来 进行 动态 扩充 ， 比 如 某 时 刻 用 户 下 发 了 针对 某 地 址 的 IO， 系 统 便 会 
在 RAID 组 中 某 处 分 配 一 个 或 者 儿 个 连续 的 条 市 ， 随 后 每 次 IO 都 如 此 ， 
并 且 维 护 一 个 逻辑 地 址 到 物理 地 址 的 映射 表 。 一 开始 系统 尽量 保证 物理 
地 址 与 逻辑 地 址 是 一 一 对 应 的 ， 就 是 说 逻辑 上 连续 的 地 址 在 RAID 组 的 
物理 地 址 也 被 连续 存放 。 但 是 随 着 RAID 组 中 LUN 数 量 的 增多 ， 由 于 是 
Thin Provision， 其 他 LUN 的 空间 可 能 随时 会 挤占 某 个 LUN 的 物理 空间 缝 
险 ， 这 样 下 去 之 后 ， 整 个 RAID 组 中 的 多 个 LUN 之 间 的 条 市 可 能 就 变 成 
一 种 错乱 排 布 的 情况 ， 这 样 直接 导致 了 逻辑 连续 的 条 融 在 物理 上 却 不 连 
续 ， 在 大 块 连续 IO 情况 下 却 表现 为 随机 IO 的 效率 低下 。 








Thin Provision 村 绝 了 浪费 而 避免 了 额外 开销 ， 降 低 了 成 本 。 而 且 ， 
实现 Thin Provision 不 需要 多 少 配置 过 程 ， 用 户 只 需要 在 创建 LUN 的 时 候 
加 一 个 标记 即 可 ， 其 他 都 是 系统 后 合 目 动 完成 的 。 


注意 : ”但 是 使 用 Thin Provision 时 必须 严格 注意 的 是 : 随时 监 
控 目 标 LUN 的 实际 占用 空间 和 系统 剩余 的 物理 空间 ， 当 达到 浆 
值 时 ， 一 定 要 扩充 物理 空间 。 人 否则 一 旦 发 生 数 据 溢出 ， 主 机 端 
报 出 的 错误 将 是 类 似 “ 某 某 届 区 写 入 失败 ”的 底层 严重 错误 ， 而 








不 是 类 似 “ 磁 盘 已 满 ， 清 除 垃 圾 后 再 处 理 ” 之 类 的 上 层 错 误 ， 可 
能 将 会 导致 一 系列 更 加 严重 的 连锁 反应 ， 影 响 主机 端的 运行 。 


1. Thin Provision 对 性 能 的 影响 





Thin Provision 会 产生 一 定 的 性 能 影响 。 有 人 可 能 产生 这 个 疑 
问 : “本 来 500GB 的 需求 ， 你 只 给 50GB 的 空间 ， 相 当 于 50GB 的 空间 承载 
了 10 倍 的 IO 请 求 ， 性 能 会 成 问题 。” 这 个 结论 是 在 某 论 坛 某 网 友 提 出 
的 ， 笔 者 第 一 次 看 到 时 真 的 有 点 觉得 被 嘻 了 一 下 。Thin 确 实 对 性 能 有 影 
响 ， 但 是 这 个 结论 就 属于 完全 的 廖 论 了 。 假 设 不 使 用 Thin， 创 建 一 个 
500GB 的 LUN， 就 给 他 预 留 500GB 的 物理 空间 ， 那 么 此 时 ， 这 个 LUN 所 
接受 的 IO 目标 地 址 如 果 都 落 在 50GB 的 地 址 范围 之 内 ， 那 么 按照 上 面 的 
结论 ， 岂 不 是 依然 是 “使 用 50GB 的 空间 承载 10 倍 的 IO? 么 ?所 以 说 这 个 
结论 着 实 有 些 元 座 。 




















那么 Thin 对 性 能 的 影响 到 底 体现 在 哪些 方面 呢 ? 主要 是 两 个 方面 : 
耗费 额外 CPU 周期 、 物 理 空 间 碎 片 。 


开启 Thin 模 式 之 后 ， 针 对 LUN 的 每 个 IO 都 需要 耗费 额外 的 处 理 流 
程 。 比 如 ， 还 是 上 面 的 例子 ，50GB 物 理 空间 ， 当 这 个 LUN 接 收 到 一 个 
超过 50GB 地 址 范围 的 JO 时， 比如 是 读 IO， 那 么 Thin 引 擎 束 会 先 查 询 IO 
的 目标 地 址 是 否 已 分 配 了 物理 空间 。 本 例 中 尚未 分 配 ， 所 以 Thin 引 擎 会 
向 上 层 返 回 全 0x00， 因 为 目标 地 址 尚未 分 配 物 理 空 间 ， 证 明 它 尚未 被 写 
过 ， 那 么 对 应 地 址 上 的 内 容 当 然 就 应 该 都 是 0x00 了 ; 如果 是 写 IO， 那 么 
Thin 引 擎 也 需要 判断 目标 地 址 是 否 已 经 被 分 配 了 空间 ， 如 果 已 经 分 配 ， 
则 直接 将 这 个 写 IO 导 向 对 应 的 物理 空间 地 址 ， 如 果 尚 未 分 配 ， 那 么 Thin 
引擎 还 需要 在 整个 物理 空间 内 查找 剩 余 的 空间 ， 而 且 还 需要 尽量 保持 与 
已 经 分 配 的 空间 在 物理 上 连续 。 这 一 系列 的 判断 和 处 理 ， 加 上 还 需要 同 











时 维护 一 些 元 数据 之 类 ， 部 是 需要 耗费 人 额外 的 计算 资源 的 。 


由 于 Thin 不 会 预 留 标 准 的 物理 空间 ， 而 是 随 用 随 分 配 ， 就 像 操 作 系 
统 对 内 存 的 管理 一 样 。 那 么 就 无 可 避免 地 会 产生 物理 空间 的 碎片 ， 针 对 
一 个 LUN， 传 统 模式 下 是 连续 分 布 在 物理 空间 之 上 的 ， 而 Thin 模 式 下 ， 
可 能 这 一 块 ， 那 一 块 ， 因 为 原本 应 该 连续 被 分 配 的 空间 很 有 可 能 被 其 他 
的 Thin LUN 所 占用 ， 多 个 Thin LUN 混 乱 地 分 布 。 这 样 就 导致 了 IO 性 能 
问题 ， 本 来 上 层 的 连续 地 址 IO， 经 过 Thin 引 擎 处 理 之 后 ， 可 能 却 变 成 了 
随机 度 大 增 的 IO 类 型 。 这 一 点 对 于 那些 物理 空间 分 配 粒 度 很 小 的 Thin 引 
擎 更 为 明显 。 








上 文 曾经 提 过 ，Thin 可 以 有 不 同 的 细 贡 设计 。 比 如 一 个 50 一 500GB 
的 Thin LUN， 当 接收 到 一 个 位 于 80GB 偏 移 处 目标 地 址 的 IO 时 ，Thin 可 
以 智能 地 判断 上 层 在 接 下 来 的 时 间 里 ， 很 有 可 能 需要 对 其 附近 的 地 址 有 
更 多 的 操作 了 ， 所 以 ，Thin 引擎 此 时 可 以 以 80GB 这 个 逻辑 目标 地 址 为 
基准 ， 在 其 左 和 右 各 分 配 比 如 16MB/64MB/128MB 的 物理 空间 以 预先 占 
位 ， 新 分 配 的 空间 ， 视 剩余 物理 空间 的 比例 而 定 ， 尽 量 保持 连续 。 或 者 
Thin 引 擎 干脆 可 以 以 更 大 、 更 简洁 的 办 法 处 理 ， 把 分 配 粒 度 设 计 成 最 大 
化 。 














比如 刚才 那个 例子 ， 可 以 直接 将 50 一 80GB 之 间 的 30GB 的 物理 空间 
分 配 下 去 ， 只 不 过 这 样 做 的 肥胖 率 会 大 增 ， 但 是 却 节省 了 计算 资源 ， 同 
时 降低 了 IO 性 能 损耗 率 。Thin 引 擎 不 可 能 完全 做 到 最 细 的 最 小 化 粒度 分 
配 ， 即 以 单个 IO 的 目标 地 址 为 粒度 ， 还 是 刚才 那个 例子 ， 如 果 IO 长 度 为 
1， 即 只 读 取 或 者 写 入 一 个 扇 区 的 话 ， 那 么 Thin 引 擎 不 会 只 对 这 一 个 局 
区 进行 物理 地 址 空间 分 配 ， 这 样 做 效率 太 低 ， 需 要 维护 的 Bitmap 等 元 数 
据 粒 度 太 大 ， 尺 寸 也 就 过 于 庞大 ， 碍 找 起 来 非常 耗费 资源 ， 而 且 底 层 产 
生 的 碎片 更 多 。 所 以 ， 流 行 的 还 是 折 中 的 做 法 ， 即 在 IO 目标 的 左右 以 相 








当 长 度 的 粒度 将 空间 分 配 下 去 ， 这 样 就 可 以 在 一 定 程度 上 保证 连续 IO 的 
性 能 ， 同 时 可 以 保证 耗费 较 少 的 计算 资源 。 


说 道 Thin 对 性 能 的 影响 ， 这 里 有 一 个 极端 的 例子 ， 请 看 表 18-1。 这 
征 国外 茶 知 名 存储 三 商 某 终端 阵列 开局 Thin 功 能 之 后 的 性 能 下 降 统计 
表 ， 可 以 看 到 最 差 情 况 下 性 能 竟然 下 降 了 70% ， 而 且 是 随机 IO 的 情况 
下 。 如 果 说 Thin 会 让 人 逻辑 上 连续 的 块 抵 层 变 得 随机 ， 那 么 这 理论 上 应 该 
不 会 对 随机 IO 产生 这 么 大 的 影响 ， 因 为 原来 也 是 随机 ， 现 在 依然 是 随 
机 ， 随 机 度 并 没有 加 成 。 那 么 原因 出 在 哪里 呢 ? 











表 18-1 Thin 对 性 能 的 影响 


这 还 得 从 Thin 的 源头 原理 来 追 滴 。 要 想 实 现 Thin 的 核心 模块 ， 只 要 
有 三 大 元 数据 基本 就 足够 了 : 一 个 位 图 、 一 张 表 、 一 棵 树 。 位 图 是 用 来 
记录 底层 连续 物理 地 址 空间 内 哪些 地 址 已 经 被 分 配 ， 哪 些 没有 被 分 配 
的 ， 以 便 用 来 迅速 分 配 空间 ; 表 则 是 用 来 记录 各 个 LUN 的 逻辑 地 址 与 物 
理 地 址 对 应 关系 的 ， 因 为 逻辑 地 址 不 是 传统 那 种 与 物理 地 址 一 一 对 应 的 
关系 了 ， 可 能 随时 被 分 配 到 任何 地 址 上 ， 这 张 表 需要 按照 逻辑 地 址 排序 
从 而 便于 后 续 的 查询 操作 。 树 则 是 在 内 存 中 生成 的 用 于 迅速 查 表 的 结构 
了 。 说 到 这 ， 我 们 先 来 算 算 这 张 表 的 大 概 容量 吧 ， 假 设 使 用 64b 的 地 址 
长 度 ， 分 配 粒 度 为 32KB， 也 就 是 每 32KB 的 物理 块 用 一 个 64b 地 址 表 
示 ， 那 么 这 张 表 内 每 一 项 条 目的 大 小 束 是 128b。 对 于 一 个 容量 1TB 的 空 
间 来 讲 ， 需 要 33554432 个 32KB 的 块 组 成 ， 那 么 这 张 表 的 容量 就 是 
33554432x128:1024=1024:8 王 512MB 的 空间 ， 而 针对 一 个 10TB 的 空间 
就 需要 保存 5GB 的 元 数据 。 而 一 般 情况 下 ， 文 持 Thin 的 产品 一 般 都 会 将 
所 有 磁盘 建立 成 一 个 全 局 存储 池 ， 也 就 是 说 ， 系 统 中 的 全 部 磁盘 都 需要 
加 入 这 个 池 ， 那 么 加 入 100TB 的 空间 ， 就 需要 对 应 50GB 的 元 数据 。 而 如 
条 使 用 1MB 的 块 粒度 ， 那 么 大 家 自己 算 一 下 ， 元 数据 会 骤 降 到 

















16MB/TB。 如 果 将 地 址 长 度 也 适当 降低 ， 比 如 降低 到 48b， 则 也 能 节省 
定 容量 的 元 数据 。 顺 带 提 一 下 的 是 ， 这 种 元 数据 量 相对 于 文件 系统 元 
数据 量 来 讲 ， 还 算是 少 的 。 正 因为 元 数据 如 此 之 大 ， 所 以 不 可 能 全 部 驻 
留 内 存 ， 这 样 就 牵扯 到 每 次 上 层 的 用 户 IO 都 可 能 需要 读 写 这 些 元 数据 ， 
所 以 会 导致 性 能 严重 下 降 ， 也 就 是 被 读 写 惩罚 所 拖 慢 了 ， 即 便 是 随机 

IO， 其 性 能 依然 有 很 大 下 降 。 至 于 元 数据 所 耗费 的 计算 资源 ， 并 不 是 很 
大 ， 碍 询 效率 还 是 很 高 的 。 再 加 上 传统 阵列 厂商 在 类 文件 系统 方面 积累 
不 够 ，IO 优 化 还 是 不 到 位 ， 所 以 会 导致 性 能 相对 下 降 。 














HDS 公 司 在 USP V 产 品 中 使 用 42MB 为 一 个 粒度 ，EMC 在 DMX 上 的 
粒度 为 768KB，IBM 在 其 SVC 产 品 上 的 粒度 为 32 一 256KB,，“IBM 在 其 
DS8000 和 Storwize V7000 中 的 Easy Tier 的 粒度 为 16MB 一 8GB， 默 认为 
256MB”。 而 3PAR 公 司 的 粒度 是 16KB;， 然而 这 并 不 是 业界 最 小 的 ， 最 
小 的 粒度 当 属 NetApp 的 WAEFL， 为 4KB， 因 为 它 对 待 LUN 就 像 一 个 普通 
文件 。3PAR 公 司 的 Thin 处 理 模 块 被 散 入 在 ASIC 中 以 加 快 执行 速度 。 


2. Thin Provision 的 脆弱 性 


Thin 的 第 一 个 脆弱 性 就 是 其 对 性 能 的 影响 实在 不 可 忽略 ， 甚 至 有 时 
不 可 容忍 。 某 厂 了 商 的 存储 系统 ， 开 启 了 Thin 功 能 之 后 ， 性 能 最 大 下 降 了 
70% ， 也 就 是 性 能 最 差 时 仅 为 非 Thin LUN 的 30% 。 究 其 原因 可 以 参考 上 
文中 的 描述 。 这 使 得 Thin 很 难 被 广泛 地 用 起 来 ， 除 非 能 够 解决 性 能 问 
题 。 而 粒度 与 性 能 总 是 一 对 矛盾 ， 为 了 保证 性 能 而 增加 粒度 ， 又 会 丧失 
Thin 的 意义 ， 所 以 如 何在 性 能 与 粒度 之 间 取 舍 ， 是 厂商 应 该 考虑 的 问 


匮 。 











Thin LUN 需 要 时 不 时 地 进行 雁 片 整理 以 保证 性 能 。 上 文中 摘 述 了 
Thin 导 致 的 数据 乱 分 布 问题 ， 这 样 的 话 ， 就 需要 考虑 引入 LUN 碎 片 整理 





机 制 。 不 要 将 LUN 碎 片 整理 与 LUN 文 件 系统 碎片 整理 相 混淆 。 后 者 是 指 
使 用 这 个 LUN 的 主机 端 上 的 文件 系统 对 LUN 内 的 逻辑 上 的 文件 进行 碎片 
整理 ， 而 前 者 是 指 将 本 喘 被 乱 分 布 到 RAID 组 之 上 的 LUN 雁 片 进行 整 
理 ， 其 实 这 两 个 层面 的 碎片 整理 本 质 上 是 一 样 的 ， 可 以 把 LUN 看 作 是 分 
布 在 RAID 组 之 上 的 一 个 大 文件 。NetApp 的 WAFL 就 是 这 么 做 的 ， 而 且 
WAFL 天 然 可 以 实现 Thin LUN， 现 用 现 分 配 空 间 对 于 文件 系统 来 讲 是 小 
儿科 的 事情 ，LUN 束 是 WAFL 下 的 一 个 文件 。 也 正 是 因为 如 此 ，WAFL 
同样 面临 着 雁 片 问题 ， 为 了 保证 性 能 ， 其 提供 了 LUN Reallocation 操 
作 ， 也 就 是 碎片 整理 操作 。 








Thin 的 第 三 个 脆弱 性 便 是 其 瘦身 的 效果 很 难 维持 ， 时 不 时 地 就 会 变 
胖 。 比 如 ， 主 机 端 应 用 程序 或 者 文件 系统 的 一 些 行 为 。 最 典型 的 便 是 文 
件 系统 碎片 整理 过 程 ， 会 首先 读 出 零散 的 碎片 ， 整 合 之 后 写 入 新 位 置 ， 
然后 标记 之 前 的 位 置 为 空闲 。 而 “ 写 入 新 位 置 " 这 五 个 字 ， 是 Thin LUN 最 
不 愿意 看 到 的 ， 因 为 这 意味 着 系统 要 分 配 这 些 新 位 置 ， 那 么 Thin LUN 就 
逐渐 变 胖 了 。 如 果 原 本 100GB 的 LUN， 上 面 有 50GB 的 碎片 文件 ， 而 此 
时 这 个 Thin LUN 可 能 只 实际 分 配 了 70GB 的 物理 空间 ， 那 么 当 进 行文 件 
系统 碎片 整理 之 后 ， 极 端 情况 下 ， 文 件 系 统 可 能 要 读 出 这 50GB 的 碎 
片 ， 然 后 再 写 入 50GB。 假 如 碎片 整理 过 程 需要 的 新 空间 为 30GB， 那 么 
系统 一 定 就 会 在 底层 将 原本 的 那 瘦 下 去 的 30GB 分 配 出 来 ， 此 时 这 个 
LUN 就 是 一 个 胖 LUN 了 ， 就 算 文件 系统 碎片 整理 完毕 之 后 ， 实 际 文 件 占 
用 仍然 为 50GB， 那 么 这 个 LUN 也 瘦 不 回去 了 ， 除 非 有 回收 机 制 ( 见 下 
pt 

















另外 一 个 典型 例子 便 是 生成 大 量 临时 数据 的 应 用 程序 。 比 如 茶 应 用 
程序 运行 时 ， 茶 个 条 件 下 触发 大 量 临时 文件 数据 的 生成 ， 结 束 之 后 束 删 
挤 ， 那 么 此 时 对 应 底层 的 LUN 来 讲 ， 也 要 分 配对 应 的 空间 来 存放 这 些 临 








时 文件 数据 ， 虽 然 最 后 的 状态 是 这 些 临时 文件 全 被 应 用 程序 删 掉 了 ， 但 
是 底层 已 经 胖 了 ， 回 不 去 了 。 上 一 段 曾经 说 过 “Thin ”LUN 需 要 碎片 整 
理 ”， 这 一 段 又 说 “碎片 整理 会 导致 Thin LUN 变 胖 ”， 乍 一 看 非常 矛盾 ， 
其 实 还 是 如 上 文 所 述 ， 两 层 碎 片 整 理 各 有 各 自 的 功效 ， 但 是 确实 会 产生 
对 立 面 。 














综 上 所 述 ，Thin Provision 真 是 一 个 脆弱 的 东西 ， 如 果 只 靠 久 做、 捧 
耳 盗 铃 来 硬 说 目 己 瘦 了 ， 还 是 不 靠 谱 啊 ! 要 真正 不 反弹 的 着， 就 要 从 应 
用 层 业 务 层 入 手 ， 从 源头 上 杜绝 垃圾 数据 的 产生 。 





3. Thin 底 层 设 计 中 的 一 些 算法 


累加 模式 的 颗粒 分 配 算法 一 一 比如 T1 时 刻 一 个 新 创建 的 LUN1 有 和 针 
对 其 LBA1 的 写 IO， 那 系统 就 写 入 Thin Pool 的 LBA1; T2 时 刻 有 针对 新 创 
建 的 LUN2 的 LBA100 的 写 IO， 那 就 写 入 Thin Pool 的 LBA2， 依 此 类 推 。 
Thin Pool 承 像 水 池 一 样 ， 不 管 接 收 到 哪个 LUN 的 奶 加 写 IO《〈 之 前 尚未 写 
过 的 地 址 ) ， 那 么 每 个 IO 都 会 导致 Thin 池 里 的 高 水 位 线 往 上 涨 一 个 LBA 


< 也 


全 随机 模式 的 颗粒 分 配 算法 一 一 素 加 模式 的 笑 粒 分 配 算法 下 ，LUN 
的 数据 不 能 够 被 分 配 到 系统 内 所 有 物理 盘 之 上 ， 不 能 充分 利用 起 系统 整 
体 性 能 ， 所 以 可 以 使 用 全 随机 模式 的 颗粒 分 配 算法 ， 让 分 配 范 围 弥散 在 
整个 Thin Pool 的 地 址 空间 内 而 不 是 累加 。 


自 适应 分 配 力度 算法 一 一 系统 可 以 智能 感知 上 层 IO 的 行为 ， 比 如 大 
块 的 连续 追加 写 入 操作 ， 那 么 此 时 就 没有 必要 每 次 分 配 很 小 颗粒 的 空 
间 ， 完 全 可 以 加 大 分 配 力度 ， 比 如 一 次 分 83MB、16MB， 根 据 IO 特 点 和 
持续 时 间 等 因素 ， 不 断 提高 分 配 力度 ;， 反之， 如果 检测 到 追加 写 IO 负载 











趋 缓 ， 那 么 就 逐渐 降低 分 配 力度 。 








位 移 保 持 颗 粒 分 配 算法 一 一 分 配 存储 空间 颗粒 的 时 候 ， 尽 量 按照 原 
来 的 相对 地 址 分 配 。 比 如 用 户 在 一 个 空 Pool 里 创建 了 一 个 Thin LUN， 回 
LBA1 写 了 数据 ， 那 么 程序 就 向 Pool 里 的 LBA1 写 ， 后 来 又 向 LBA1000 写 
了 ， 程 序 也 同 1000 写 ; 后 来 义 创建 了 一 个 Thin LUN， 也 向 LBA1 写 ， 那 
么 此 时 程序 可 以 向 Pool 里 的 LBA2 写 ， 写 在 LBA1 旁 边 ， 依 此 类 推 ， 
LUN3 的 LBA1 束 是 Pool 的 LBA3。 但 是 一 旦 如 果 遇 到 Pool 的 LBA1 和 
LBA2 都 被 同一 个 LUN 占 据 ， 那 么 程序 就 考虑 寻找 相对 距离 最 近 的 LBA 
写 入 ， 总 之 尽量 保持 所 分 配 的 地 址 的 相对 偏 移 量 与 这 个 IO 原本 的 目标 地 
址 相对 偏 移 量 一 致 。 这 样 束 可 以 保持 逻辑 上 连续 的 颗粒 在 物理 上 也 相对 
连续 ， 对 后 续 的 连续 地 址 读 写 操作 有 好 人 处。 同时 用 户 一 般 不 会 创建 大 量 
的 LUN， 上 所 以 颗粒 地 址 争 抢 地 址 冲突 的 几率 也 不 会 很 高 ， 因 此 最 好 能 保 
证 颗粒 块 该 放 哪 还 是 放 哪 ， 相 对 位 移 保持 一 致 。 








思考 : 时 加 分 配 模式 下 ， 由 于 系统 会 针对 所 有 进入 的 首次 写 
IO 做 连续 地 址 写 入 操作 ， 所 以 对 外 会 表现 出 较 高 的 性 能 ， 但 是 
随 痢 数据 写 入 的 推移 ， 奶 加 与 越 来 越 少 ， 会 逐渐 满 变 为 畴 再 

写 ， 那 么 此 时 底层 会 变 为 完全 随机 地 址 IO， 性 能 会 降低 ， 尤 其 
是 在 上 层 连 续 地 址 IO 时 ， 底 层 总 是 表现 为 随机 地 址 IO。 

全 随机 模式 的 颗粒 分 配 模式 下 ， 相 对 累加 模式 来 讲 整体 性 能 

提升 ， 但 是 对 于 初次 /追加 写 没有 任何 加 速 作 用 。 并 且 对 于 后 

续 的 连续 地 址 IO 一 样 也 会 有 所 拖 慢 。 

而 位 移 保持 分 配 模式 下 ， 由 于 地 层 的 数据 排 布 与 原本 的 逻辑 排 
布 保 持 尽 量 的 相对 一 致 ， 所 以 由 Thin 的 引入 而 导致 的 系统 性 能 
变化 幅度 会 被 控制 到 最 低 。 而 且 对 于 后 续 的 连续 地 址 IO 是 可 以 
保证 最 大 幅度 的 维持 原生 性 能 的 。 














综合 来 讲 ， 应 当 使 用 使 用 位 移 保持 颗粒 分 配 算法 。 





颗粒 格式 化 算法 一 一 上 而 的 文字 都 是 用 LBA 来 指 代 分 配 颗 粒 的 ， 实 
际 上 不 会 有 哪个 产品 的 颗粒 度 细 到 LBA 扇 区 的 。 比 如 就 拿 768KB (EMC 
在 其 Symmetrix V-Max 上 使 用 的 粒度 ) 作为 一 个 颗粒 粒度 ， 每 次 分 配 必 
须 是 32KB 的 整数 倍 。 但 是 这 里 就 会 有 一 个 问题 ， 如 果 主 机 下 发 的 IO 只 
有 4KB， 那 么 底层 也 一 样 需要 分 配 768KB， 那 么 这 时 候 问 题 就 来 了 ， 这 
768KB 中 剩余 的 762KB 都 是 僵尸 数据 ， 如 有 果 主 机 后 续 发 起 对 这 768KB 地 
址 范围 内 的 读 IJO， 此 时 Thin 处 理 模 块 就 不 会 返回 全 0x00 了， 因为 已 经 分 
配 空间 了 ， 必 须要 从 磁盘 读 ， 这 样 的 话 就 会 把 僵尸 数据 返回 给 主机 ， 而 
不 是 原本 应 当 返 回 的 全 0x00。 为 了 解决 这 个 问题 ， 在 颗粒 分 配 之 后 ， 
Thin 模 块 必 须 做 初始 化 操作 ， 也 就 是 将 颗粒 内 没 被 当前 写 IO 所 覆 盖 的 地 
址 上 的 数据 肩 区 写 入 全 0x00。 如 果 你 真 的 这 么 认为 ， 你 就 错 了 ， 底 层 根 
本 不 需要 为 Lun 进 行 清 零 操作 。 一 块 用 过 的 物理 磁盘 上 ， 全 都 是 僵尸 数 
据 ， 同 样 ， 一 个 新 划分 的 Lun， 其 上 也 可 以 都 是 僵尸 数据 ， 底 层 没 有 义 
务 清 零 。 有 人 问 如 果 读 出 来 僵尸 数据 怎么 办 ?答案 就 是 没 办 ， 如 果 一 个 
程序 不 去 写 自己 的 数据 到 磁盘 上 这 个 区 域 ， 上 来 就 读 这 个 区 域 ， 那 么 这 
个 程序 不 是 测试 软件 就 是 数据 恢复 软件 ， 正 儿 八 经 的 软件 没 这 人 么 干 的 ， 
都 是 先 写 入 ， 再 读 ， 至 于 房间 里 面 之 前 住 了 什么 人 发 生 了 哪些 事 ， 人 家 
不 去 操 那个 心 。 


























强调 : 但 是 必须 强调 的 一 点 是 ， 一 个 Lun 在 被 创建 之 后 ， 其 零 
而 区 必须 先 被 主动 清 零 ， 因 为 零 而 区 太 重 要 了 ， 如 果 不 清 零 ， 
而 及 生 了 小 概率 事件 (比如 恰好 底层 磁盘 的 某 零 而 区 内 容 刚好 
对 应 了 该 Lun 的 零 届 区 ) ， 那 么 此 时 就 会 出 问题 了 ，OS 会 直接 
按照 零 而 区 里 的 分 区 表 尝 试 挂 载 磁 盘 分 区 ， 会 产生 不 可 预知 的 
后 琳 。 


后 人 台 重 整 机 制 一 一 此 外 还 可 以 提供 一 个 后 台 重 整 功能 ， 将 乱 序 的 颗 
粒 重 新 整理 成 按照 原来 顺序 存放 以 保证 后 续 IO 的 性 能 。 








在 同一 个 地 址 池内 同时 支持 Thick 与 Thin LUN 一 一 当 在 Thin 地 址 池 
内 创建 一 个 Thick ”LUN 时， 系统 就 会 直接 在 Bitmap 中 将 对 应 的 空间 占 
住 。 之 后 针对 这 个 Thick LUN 的 所 有 IO 也 都 会 Bypass 掉 映射 表 ， 其 效果 
与 普通 LUN 完 全 一 致 了 。 


18.3.2 LUN Space Reclaiming (Unprovision/Deprovision, 
Get Thin ) 


试想 这 样 一 种 情况 ， 比 如 某 个 存储 系统 只 拥有 1TB 的 物理 存储 空 
间 ， 有 多 台 主 机 客户 端的 LUN 分 布 于 其 上 ， 都 占用 了 一 定 的 空间 ， 当 前 
剩余 物理 空间 只 有 500GB 了 。 而 此 时 ， 某 主机 客户 端 需要 一 个 500GB 的 
LUN 空 间 ， 存 储 系统 管理 员 只 好 将 这 最 后 的 空间 分 配给 了 这 台 主 机 使 
用 。 这 人 台 主 机 其 实 只 是 将 这 个 LUN 设 置 为 某 程序 运行 时 的 tmp 空 间 ， 其 
中 放 一 些 临 时 性 的 文件 ， 不 会 超过 500GB， 此 外 ， 还 存放 一 些 其 他 用 户 
层面 的 文件 。 当 程序 运行 完毕 之 后 ， 临 时 文件 也 会 被 删 掉 ， 但 其 后 果 就 
是 ， 这 些 文件 曾经 占用 的 空间 会 永远 地 占用 存储 系统 中 物理 硬盘 的 空 
间 ， 也 就 是 说 这 500GB 的 剩余 空间 ， 眼 看 大 就 白 白 浪费 了 。 而 且 此 时 系 
统 中 剩余 物理 空间 为 0， 存 储 系统 无 法 对 这 500GB 的 空间 进行 
Unprovision 或 者 称 Deprovision。Deprovision 的 过 程 又 可 以 形象 地 被 称 
为 “Get Thin” 过 程 。 








虽然 此 时 可 以 在 存储 系统 端 使 用 缩小 LUN 容 量 的 动作 来 强制 将 这 个 
LUN 的 大 小 降低 到 茶 个 值 ， 但 是 这 样 做 风险 很 大 。LUN 缩 小 都 是 直接 将 
LUN 空 间 从 尾部 截 掉 对 应 的 长 度 ， 但 是 因为 LUN 中 尚 存 的 文件 不 一 定 是 
顶 看 LUN 头 部 依次 排放 的 ， 很 有 可 能 条 些 文件 Block 被 分 布 到 了 LUN 尾 


部 ， 此 时 强制 缩小 容量 ， 那 么 束 等 于 把 这 些 尾 部 的 数据 都 丢掉 了 。 要 解 
决 这 个 问题 ， 需 要 文件 系统 的 配合 ， 将 LUN 中 的 文件 全 部 迁移 到 LUN 首 
部 依次 排 布 ， 空 出 尾部 的 连续 空间 。 有 些 文件 系统 可 以 做 到 ， 比 如 
VxFS， 其 自身 就 提供 了 命令 来 实现 这 种 操作 ， 诸 如 NTFS 等 文件 系统 ， 
其 自身 并 不 提供 这 种 操作 接口 ， 但 是 可 以 通过 一 些 第 三 方 的 NTFS 
Aware 工 具 来 强制 操作 LUN 中 的 文件 将 它们 迁移 。 





虽然 缩小 LUN 可 以 解决 这 个 问题 ， 但 是 会 耗费 太 多 的 资源 和 步骤 ， 
并 且 LUN 一 旦 缩小 ， 如 果 将 来 需要 扩大 的 话 ， 又 是 一 番 折 腾 ， 划 不 来 。 
有 没有 办 法 即 不 缩小 LUN， 又 可 以 回收 被 溪 费 的 空间 呢 ? 办 法 是 有 很 多 
的 ， 总 结 起 来 共有 3 种 。 





1. 存储 端 识别 对 应 的 文件 系统 


存储 系统 可 以 自行 识别 当前 LUN 中 的 文件 系统 并 且 感 知 到 文件 系统 
中 的 剩余 空间 ， 将 这 些 剩余 空间 与 物理 空间 做 对 应 ， 然 后 在 LUN 管 理 层 
中 将 这 些 剩余 空间 做 废 回收 。 











然而 ， 目 前 这 种 方式 尚未 有 产品 尝试 ， 原 因 是 因为 主机 端的 文件 系 
统 多 种 多 样 ， 不 用 说 全 部 支持 ， 残 算是 仅 文 持 主流 的 几 种 ， 那 将 这 些 文 
件 系 统 逻 辑 陪 入 存储 系统 中 ， 也 是 一 笔 不 小 的 工程 ， 并 且 ， 束 算是 同一 
种 文件 系统 ， 配 置 参数 不 同 ，OS 内 核 版 本 不 同 ， 也 会 导致 确 层 逻辑 的 
些许 不 同 。 而 这 些 区 别 ， 不 可 能 在 存储 端 内 部 一 一 去 对 应 。 而 且 ， 存 储 
端 看 到 的 LUN 中 当前 的 数据 并 不 一 定 反 映 主机 端 当 前 所 看 到 的 数据 ， 因 
为 主机 端的 文件 系统 是 有 绥 存 的 ， 包 括 metadata 和 实体 数据 ， 存 储 剖 擅 
目 操 作 的 结果 可 能 是 造成 数据 不 一 致 。 


2. 存储 病 识 别 0x00 并 做 消除 


文件 系统 在 删除 文件 时 ， 只 是 将 文件 从 metadata 中 抹 掉 ， 文 件 的 实 
体 依 然 存 在 于 原来 的 位 置 ， 如 果 主 机 客户 端的 文件 系统 能 够 做 到 在 每 次 
删除 文件 或 者 改变 文件 大 小 之 后 ， 将 原本 所 占用 的 Block 写 入 0x00 的 
话 ， 而 且 存 储 端 定期 地 扫描 对 应 的 LUN， 如 果 发 现 大 片 连续 的 0x00， 则 
将 对 应 的 Block 空 间 回 收 。NTEFS 文 件 系统 的 确 有 这 种 功能 ， 使 用 
DeviceIoCtl 中 的 FSCTL_SET_ZERO_ON_DEALLOCATION 功 能 即 可 实 
现 。 








但 是 这 确实 不 是 一 个 好 方法 。 如 果 每 次 删除 文件 都 清扫 战场 ， 那 么 
所 耗费 的 资源 是 极其 划 不 来 的 。 比 如 删除 茶 个 1GB 的 文件 ， 正 常情 况 下 
应 当 是 飞快 完成 ， 但 是 如 条 使 用 了 这 种 方法 ， 则 需要 引发 主机 到 存储 系 
统 的 1GB 的 数据 流量 ， 完 全 划 不 来 。 


这 种 技术 目前 被 称 为 “Zero _ Detection”， 在 少数 情况 下 ， 这 种 技术 可 
以 融 来 一 定 的 效果 ， 比 如 某 些 文件 的 实体 数据 存 有 大 片 的 0x00， 对 于 这 
种 情况 ，Zero ” Detection 技术 可 以 回收 对 应 的 LUN 空 间 。 但 是 多 数 情况 
下 ， 文 件 中 并 非 全 0， 此 时 这 种 技术 发 挥 不 了 任何 效果 。 目 前 3PAR 在 其 
TI 系列 存储 产品 中 已 经 实现 了 Zero Detection 技 术 ， 不 过 作者 个 人 感觉 这 
种 技术 只 是 个 嗪 头 。 





3. 主机 端 利用 特殊 的 API 通 知 存储 系统 


还 记得 SSD 中 的 Trim 技 术 么 ? SSD 所 面 对 的 问题 一 定 程度 上 与 Space 
Reclaiming 相 同 。 几 乎 所 有 SSD 广 商都 提供 了 空间 回收 的 专用 程序 ， 运 
行 这 个 程序 ， 程 序 便 会 根据 当前 文件 系统 的 情况 ， 将 垃圾 空间 对 应 的 地 
址 通告 给 SSD 控 制 器 ， 从 而 进行 对 这 些 Block 的 擦 除 过 程 。 既 然 这 样 ， 
存储 系统 厂商 是 否 也 可 以 提供 一 种 在 主机 端 运 行 的 程序 来 定期 扫描 主机 
端 文件 系统 剩余 空间 并 且 将 对 应 的 信息 传送 给 存储 系统 控制 器 然后 将 空 








闻 回 收 呢 ? 当然 可 以 。 


NetApp 的 Snapdrive 软 件 可 以 实现 这 个 功能 ， 只 不 过 它 只 支持 NTFS 
文件 系统 和 NetApp 自 己 的 存储 产品 。NetApp 将 这 种 方法 称 为 “Hole 
Punching”， 意 即将 浪费 的 空间 打 成 洞 让 其 不 占用 空间 。 其 实在 WAFL 内 
部 处 理 文 件 删除 或 者 LUN 删 除 时 也 用 到 了 Hole “Punching， 由 于 LUN 是 
Vol 下 的 文件 ， 而 Vol 是 WAFL 下 的 一 级 文件 ， 文 件 中 的 文件 (LUN 或 者 
其 他 文件 ) 被 删除 之 后 ， 二 级 空间 会 立即 感知 ， 但 是 一 级 WAFL 空 间 不 
可 能 立即 感知 ， 也 需要 通过 Hole Punching 过 程 来 进行 二 次 映射 从 而 回收 
一 级 空间 。 这 种 过 程 的 本 质 与 回收 LUN 中 的 文件 占用 的 空间 是 相同 的 。 


Symantec 公司 针对 这 一 问题 及 布 了 上 自己 的 解决 方案 ， 在 其 Storage 
Foundation 5.0 产 品 中 ， 提 供 了 针对 NTFS 文 件 系 统 和 VxFS 文 件 系统 的 文 
持 ， 并 且 提 供 ThinReclaim API 来 让 存储 系统 厂商 开发 对 应 的 处 理 模块 。 
Storage Foundation 产 品 包含 两 个 最 基本 的 模块 : VxFS 和 VxVM， 一 个 是 
文件 系统 模块 ， 一 个 是 卷 管理 模块 。 当 运行 于 VxVM 之 上 的 VxFS 或 者 
NTFS 文 件 系 统 删除 文件 时 ，VxVM 会 通过 一 些 方法 〈 比 如 用 过 滤 驱 动 
Hook) 感知 到 ， 之 后 VXVM 便 会 将 这 些 删除 文件 对 应 的 僵尸 空间 地 址 信 
上 县 用 ThinReclaim API 规 定 的 结构 传送 给 存储 系统 控制 器 ， 存 储 系统 控制 
器 同样 使 用 ThinReclaim API 来 进行 对 这 些 信息 的 解析 和 处 理 ， 最 后 将 对 
LUN 中 的 这 些 僵尸 空间 实时 回收 。 另 外 ， 由 于 实时 回收 需要 耗费 一 定 
的 处 理 资源 ， 所 以 VxVM 还 提供 了 定期 手动 回收 的 命令 (vxdisk reclaim 
或 者 fsadm -R) ， 用 户 只 要 将 对 应 命令 做 成 脚本 定期 执行 即 可 。 








下 面 显 示 的 是 在 一 人 台 Linux 机 器 上 ， 安 装 Storage Foundation 5.0 之 
后 ， 利 用 VxVM 来 管理 的 三 个 LUN: encl0 .0、encll1 .0、encl1_1。 其 
中 ，encll 0 和 encll_1 支 持 通 过 Thin API 进行 空间 回收 ， 可 以 看 到 其 
STATUS 一 栏 对 应 的 状态 描述 ， 证 明 这 两 个 LUN 所 在 的 存储 系统 是 文 持 





ThinReclaim API 的 。encl0_0 是 一 个 Thin LUN， 但 是 它 所 在 的 存储 系统 
针对 这 个 LUN 禁 止 了 Thin Reclaiming， 所 以 STATUS 一 栏 中 只 显示 了 其 


是 个 Thin LUN。 


# vxdisk list 


DEVICE TYPE 
encl0_0 auto 
encl1_0 auto 
encl1 1 auto 


DISK 
enc10 0 
encl1 0 


ecnl1 1 


GROUP 
mydg online 
mydg online 


mydg online 


STATUS 
thin 
thinrclm 


thinrclm 


下 面 的 命令 输出 显示 的 是 LUN 标 称 大 小 与 实际 物理 占用 大 小 的 信 
息 ， 实 际 物理 占用 空间 是 SF 通过 ThinReclaim API 向 存储 系统 进行 查询 而 


得 到 的 。 


# Vxdisk -o thin 1 Ist 


DANAME DISK SIZE(Mb) 


enc10 0 2000 
encl1 0 200 
encl1 1 500 


PHYS_ALLOC(Mb) 
50 mydg 
50 mydg 
500 mydg 


DISK GROU 


thin 
thinr 


thinr 


目前 ，3PAR、HDS、HP 已 经 相继 表示 将 支持 这 种 API。 不 过 依然 
遗憾 的 是 ，Symantec 的 ThinReclaim API 是 集成 到 其 Storage Foundation 产 
品 中 的 ， 如 果 不 使 用 Symantec 的 主机 端 虚拟 化 产品 Storage Foundation， 
则 无 法 使 用 这 种 API。 如 果 不 将 这 种 API 作 为 一 种 全 面 开 放 模 式 可 以 给 
将 是 上 暗淡 的 。 凡 是 与 Thin 能 够 良好 配合 的 
文件 系统 ， 不 管 是 清扫 战场 型 还 是 智能 API 型 ， 都 属于 Thin-Friendly 型 
文件 系统 ， 比 如 NTFS、ZFS、VxFS 都 属于 Thin 友 好 型 ， 但 是 Solaris 下 的 


任何 厂商 使 用 的 话 ， 其 前 景 


UFS 束 不 友好 了 。 


另外 ，Symantec 公 司 在 其 Storage Foundation 5.0 中 还 引入 了 一 个 新 
功能 ， 即 SmartMove。 不 是 所 有 存储 系统 都 文 持 ThinReclaim API 的 ， 对 
于 那些 不 文 持 Thin API 的 存储 系统 上 的 LUN， 要 将 其 减肥 ， 融 必须 将 整 
个 的 LUN 中 的 文件 所 实际 占用 的 数据 读 出 ， 然 后 再 号 入 一 个 与 原先 的 
LUN 的 标 称 空间 相同 大 小 的 新 的 Thin LUN 中 ， 而 新 的 Thin LUN 所 占用 
的 实际 物理 空间 ， 与 原先 LUN 中 的 文件 所 占用 的 空间 相同 。SmartMove 
就 是 执行 这 个 工作 的 功能 模块 ， 它 扫描 目标 LUN 中 的 文件 系统 空间 ， 然 
后 执行 读 出 写 入 过 程 。 只 要 外 部 存储 系统 文 持 Thin LUN， 不 管 是 否 文 持 
ThinReclaim API，SmartMove 都 可 以 实现 对 LUN 的 减肥 操作 。 


Symantec 的 ThinReclaim API 毕 竟 未 形成 一 个 被 广泛 接受 并 使 用 的 标 
准 ， 不 过 ，Flash 存 储 领 域 使 用 的 Trim 倒 是 一 个 标准 协议 ， 我 想 ， 
Deprovision 是 不 是 可 以 干脆 考虑 在 Trim 之 上 做 一 些 增 减 ， 使 Trim 成 为 一 
个 更 完善 的 业界 标准 呢 ? 





提示 :” 几 是 能 够 实现 Thin Provision 或 者 De-Provision 的 设备 ， 
其 对 LUN 的 分 布 必须 转变 为 灵活 方式 ， 即 LUN 在 RAID 组 内 的 
分 布 不 是 定 死 的 ， 而 是 可 以 随时 重新 指 问 新 地 址 的 。Thin- 
Provision 模 式 的 LUN 会 随 着 使 用 而 逐渐 占据 空间 ， 但 是 占据 的 
这 些 空间 不 一 定 连 续 ， 因 为 随时 可 能 有 其 他 的 Thin LUN 也 在 逐 
渐 占 据 空 间 。 对 于 使 用 De-Provision 进 行 空间 回收 之 后 的 

LUN， 其 原本 占据 的 空间 内 就 可 能 会 生成 很 多 “空洞 ”， 这 些 衬 
洞 被 算 在 剩余 可 用 空间 之 内 ， 那 么 这 些 空洞 便 可 以 被 原 有 LUN 
或 者 其 他 LUN 再 次 占据 ， 这 样 ， 就 需要 更 加 灵活 的 LUN 分 布 方 
式 了 。 如 果 是 类 文件 系统 的 分 布 方式 ， 对 于 空洞 可 以 直接 分 配 
给 LUN 使 用 ， 不 过 太 多 太 乱 的 空洞 毕竟 是 不 连续 的 ， 类 似 于 文 
件 系 统 雁 户 。 所 以 为 了 保证 连续 地 址 IO 时 的 性 能 ， 一 些 设计 会 











将 有 衬 洞 的 LUN 进 行 碎片 整理 ， 重 新 排 布 ， 每 次 De-Provision 
之 后 都 会 计算 碎片 程度 ， 根 据 程度 来 决定 是 否 触发 整理 。 
关于 LUN 的 分 布 形式 请 参考 本 书 其 他 章节 





18.3.3 ”Tier (分级) /Migrating (迁移 ) 


ILM (Information Lifecycle Management) ， 信 息 生 命 周 期 管理 ; 
HSM (Hierarchical Storage Management) ， 分 层 存 储 管理 。 这 两 个 名 
词 ， 表 面 上 看 来 好 像 差 不 多 ， 是 同一 种 思想 的 两 种 叫 法 。 但 是 细 究 起 
来 ， 却 是 不 同 的 层次 。 








信息 生命 周期 管理 ， 顾 名 思 义 ， 是 对 整个 IT 系统 或 者 其 他 数据 系统 
中 数据 生态 链 的 一 种 思想 认识 以 及 管理 方法 。 


如 图 18-2 所 示 为 开 系 统 数据 生态 。 图 18.2 IT 系统 数据 生态 运动 图 
运动 图 。 数 据 之 初 由 程序 的 运行 而 在 
CPU Cache 内 生成 ， 之 后 被 移出 至 RAM 中 和 暂 存 ， 随 后 被 长 存 入 磁盘 ， 然 
后 再 一 层 层 地 转 存 和 回调 ， 最 后 被 存 入 离线 存储 介质 比如 磁带 作为 归档 
保存 ， 在 需要 时 也 可 以 从 归档 中 提取 出 来 访问 。 当 数据 已 经 衰老 到 没有 
任何 价值 之 后 ， 便 被 销毁 。 程 序 的 运行 使 得 物质 不 断 地 流动 ， 而 程序 的 
运行 本 身 也 需要 物质 来 支撑 。 在 这 个 运动 过 程 中 ， 数 据 本 身 的 流动 速 
度 、 所 处 能 级 以 及 价值 也 在 不 断 地 变化 。 当 然 ， 对 于 一 些 归 档 之 后 的 数 
据 ， 虽 然 其 对 当前 系统 的 运行 没有 表现 出 太 多 价值 ， 但 是 将 来 某 时 段 可 
能 表现 出 价值 。 











数据 带 老 的 过 程 是 不 可 避免 的 ， 其 趋势 总 是 癌 下 的 ， 但 是 在 衰老 的 
过 程 中 可 能 经 历 多 次 的 反复 ， 即 便 这 样 ， 也 挡 不 住 其 袁 老 过 程 。 信 息 生 
命 周 期 管理 就 是 在 整个 数据 生存 周期 中 ， 对 各 个 时 期 数据 在 系统 中 所 出 





现 的 位 置 进行 管理 和 调配 的 一 种 思想 方法 。 











既然 数据 是 由 程序 运行 而 生成 的 ， 那 么 程序 本 身 也 是 数据 ， 程 序 是 
谁 生成 的 呢 ? 是 用 编译 器 编译 出 来 的 ， 但 是 源 代 码 也 是 数据 ， 谁 生成 的 
呢 ? 是 用 编程 工具 生成 ， 编 程 工具 也 是 程序 ， 它 又 是 由 谁 生成 的 呢 ? 这 
个 问题 看 似 无 聊 透 项 ， 但 是 你 如 果 穷 根 完 底 ， 束 会 发 现 ， 其 实 整个 IT 系 
统 的 数据 本 源 ， 也 就 是 物质 本 源 ， 其 实 就 是 由 人 来 生成 的 ， 也 就 是 由 那 
些 CPU 中 的 物理 电路 矩阵 来 生成 的 ，CPU 中 的 电路 是 现代 计算 机 数据 生 
成 的 源 果 。 电 子 计算 机 的 锥 形 束 是 最 简单 的 开关 电路 ， 自 从 布尔 将 开关 
电路 用 于 化 辑 运算 的 那 一 刻 起 ， 数 据 束 生成 了 ， 以 后 的 发 展 其 实 就 是 数 
据 不 断 地 生成 数据 的 目 举 过 程 。 所 以 说 ， 计 算 机 古 个 从 无 到 有 的 过 程 ， 
从 无 极 分 化 为 两 极 ， 两 极 又 生成 更 多 状态 、 更 多 逻辑 的 过 程 。 


























纵 观 图 18-2， 笔 者 将 其 分 为 了 3 条 链 ， 即 物质 链 、 运 动 链 、 价 值 
链 。 这 3 条 链 是 互相 联系 的 ， 物 质 链 作为 阴 实 ， 运 动 链 则 是 阳 气 的 游 走 
过 程 ， 而 价值 链 则 是 阳 气 所 派生 出 来 的 表象 ， 即 阴 生 化 了 阳 ， 阳 外 发 为 
表 。ILM 便 是 研究 这 种 数据 生态 关系 以 及 如 何 调理 其 阴阳 平衡 发 展 的 一 
种 思想 。 





同时 ， 数 据 的 需求 度 也 是 不 同 的， 一 个 企业 IT 系统 中 的 数据 是 一 直 
在 流动 的 ， 从 一 份 数据 的 生成 到 销毁 ， 这 份 数 据 的 需求 度 会 逐渐 降低 ， 
其 所 处 的 能 级 也 越 来 越 低 。 能 级 越 遍 的 数据 ， 惑 越 微观 ， 其 流动 和 处 理 
速度 也 越 快 。 在 这 个 过 程 中 ， 不 同 容量 性 能 的 存储 介质 就 要 与 数据 的 这 
种 生命 周期 进行 适 配 ， 让 对 应 需求 度 的 数据 存放 在 对 应 性 能 的 存储 介质 
中 。 大 家 撕 摩 一 下 这 张 图 : 物质 链 ， 代 表 各 种 存储 介质 ， 是 存放 数据 的 
物质 本 源 ;， 运 动 链 ， 是 驱动 数据 流动 的 动力 源 果 ; 价值 链 ， 表 示 数 据 在 
生命 周期 中 不 同时 期 所 表现 出 来 的 需求 度 与 价值 。 我 们 要 做 的 工作 就 是 
在 动力 泵 中 引入 一 个 调度 员 的 角色 ， 让 高 需求 度 的 数据 得 到 更 优良 的 存 














储 资源 。 


有 具体 如 何 实 现 呢 ? 请 看 网 18-3。 在 价值 链 中 ， 会 有 各 种 不 同 的 需求 
度 与 价值 ， 比 如 有 些 应 用 系统 总 是 产生 一 些 高 随机 度 的 IO， 而 有 些 则 要 
求 高 并 发 度 ， 有 些 则 只 是 单线 程 访问 同时 还 要 求 较 稳定 的 带宽 。 面 对 各 
式 各 样 的 需求 ， 可 以 做 一 次 抽象 过 滤 ， 生 成 一 些 固定 模式 的 对 象 ， 叫 做 
Service Level Objects， 这 些 对 象 作 为 一 种 输入 ， 输 入 到 一 个 引擎 当中 ， 
这 个 引擎 就 是 我 们 刚才 讲 的 调度 员 角 色 ， 这 个 调度 员 通过 这 些 SLO， 将 
合适 的 存储 资源 适 配 到 对 应 需求 的 应 用 系统 。 当 然 ， 这 其 中 牵扯 到 的 数 
据 迁 移 回 迁 等 ， 都 必须 是 对 上 层 透 明 的 。 这 是 对 存储 资源 的 调度 ， 那 么 
如 果 有 某 种 调度 器 可 以 对 整 条 IO 路 径 上 的 所 有 资源 做 到 合理 调配 ， 那 么 
这 束 属 于 QoS 这 个 更 大 的 范畴 了 ， 包 括 各 级 缓存 、 队 列 、 线 程 优 先 级 、 
存储 等 。 











图 18-3 ”HSM 的 作用 方式 


而 HSM (分 层 存储 管理 ) ， 则 是 作为 实现 ILM 的 一 种 技术 手段 而 存 
在 的 。 也 就 是 说 ，ILM 为 指导 思想 ，HSM 为 实现 手段 。HSM 在 不 同 的 物 
质 层次 之 间 ， 将 不 同 的 需求 与 不 同 的 物质 层次 一 一 对 应 ， 并 且 维 持 这 种 
对 应 关系 。HSM 以 最 终 的 表象 ， 即 价值 ， 为 导 同 ， 将 价值 链 与 运动 链 和 
物质 链 做 对 应 ， 并 且 通 过 作用 于 物质 链 和 运动 链 来 影响 价值 链 。 比 如 将 
IO 性 能 要 求 较 高 的 数据 放置 在 SSD 上 ， 而 要 求 较 低 的 数据 则 可 以 放 入 
SATA 人 硬盘 中 存放 ， 这 就 是 以 价值 特征 为 导向 ， 强 制 将 数据 在 运动 链 中 
进行 移动 ， 从 而 将 数据 放 入 物质 链 中 不 同 的 层次 ， 最 后 也 就 显现 出 了 不 
同 的 价值 表象 。HSM 就 是 一 个 数据 运动 采 。 如 图 18-3 所 示 ，HSM 以 不 同 
价值 需求 为 导向 (不 同 的 价值 需求 被 抽象 为 不 同 的 Service Level 
Objectives ”描述 对 象 ) ， 根 据 设 定 的 策略 将 底层 的 数据 从 不 匹配 价值 需 
求 的 地 方 移动 到 符合 价值 需求 的 地 方 。 














1. HSM 分 级 管理 的 意义 和 目标 


在 整个 计算 机 系统 中 ， 数 据 存储 介质 包括 CPU Ll1 Cache、L2 
Cache、L3 Cache、 RAM SSD/Flash、 FC/SAS Disk、 SCSI Disk、 
SATA Disk、Virtual Tape、Tape、BlueRaywDVD/CD 等 。 这 些 存储 介质 
各 自 有 不 同 的 速度 、 容 量 、 价 格 ， 图 18-4 显 示 了 这 些 存储 介质 的 生态 层 
次 图 。 


图 18-4 各 种 存储 介质 生态 图 





可 以 看 到 ， 访 问 速度 越 快 的 存储 介质 ， 其 容量 也 越 小 ， 价 格 越 贵 。 
如 果 所 有 数据 都 能 够 存储 在 CPU Cache 中 ， 那 么 代码 执行 的 速度 将 会 达 
到 最 快 ， 计 算 结 果 的 存储 也 会 达到 最 快 ， 但 是 这 是 不 可 能 的 ， 外 部 庞大 
的 数据 量 面 对 容量 只 有 几 兆 字 节 的 CPU Cache 是 不 可 能 容 得 下 的 ， 只 能 
再 增加 一 层 外 部 存储 介质 ， 即 RAM， 比 如 8GB 容 量 的 RAM。CPU Cache 
以 及 RAM 都 是 作为 一 种 绥 存 形式 而 存在 的 ， 处 于 绥 存 中 的 数据 是 暂时 
存在 的 ， 一 旦 掉 电 ， 其 中 数据 将 会 丢失 ， 所 以 需要 将 其 写 入 一 个 在 没有 
外 部 供电 的 情况 下 也 可 以 永久 保存 数据 的 存储 介质 中 。 而 且 RAM 的 容 
量 相对 于 日 益 庞 大 的 数据 也 是 杯水车薪 。 介 质 链 到 了 RAM 这 一 层 ， 是 
一 个 质变 点 ，RAM 是 易 失 性 存储 介质 ， 而 位 于 其 下 层 的 磁盘 则 是 非 易 
失 性 存储 介质 。 到 了 硬盘 这 一 层 ， 数 据 就 像 是 从 小 河流 到 了 入 海口 一 
样 ， 完 全 被 包 没 在 庞大 的 数据 海洋 中 ， 再 也 无 法 掀起 任何 波澜 。 当 然 ， 
大 海 有 时 候 也 会 干枯 ， 单 块 硬盘 的 容量 有 时 候 也 不 太 够 ， 此 时 便 可 以 使 
用 多 块 硬 盘 装 加 起 来 形成 RAID 组 ， 一 个 RAID 组 如 果 还 不 够 ， 那 就 多 个 
RAID 组 ， 多 个 RAID 组 还 不 够 的 话 ， 那 就 使 用 集群 存储 系统 。 和 集群 可 以 
无 限 扩展 。 




















存储 介质 链 到 了 磁盘 这 一 层 ， 便 又 会 产生 一 个 质变 把 ， 从 CPU 


Cache 到 磁盘 ， 它 们 都 是 可 以 随机 针对 任何 地 址 进行 数据 存 取 的 ， 而 且 
对 于 随机 存 取 ，CPU Cache 一 直到 磁盘 这 条 介质 链 上 的 访问 速度 数量 级 
是 连续 降低 的 ， 没 有 很 大 跳跃 。 但 是 从 磁盘 往 下 走 ， 介 质 链 下 方 是 磁 

带 ， 如 果 要 做 到 随机 存 取 磁带 中 的 数据 的 话 ， 其 访问 速度 的 数量 级 就 会 
与 磁盘 处 于 完全 两 个 级 别 ， 所 以 ， 介 质 链 到 了 磁带 以 及 光盘 这 一 层 ， 只 
能 够 作为 离线 存储 来 使 用 。 





图 18-4 中 还 有 一 层 称 为 近 线 存储 ， 这 一 层 其 实 是 作为 物理 磁盘 /光盘 
与 在 线 磁盘 的 一 个 缓冲 ， 因 为 磁盘 与 磁 市 在 随机 存储 速度 上 有 天 壤 之 
列 ， 所 以 介质 链 中 增加 了 这 样 一 个 缓冲 来 在 二 者 之 间 进 行 速度 适 配 。 清 
稿 的 是 ， 目 前 并 没有 找到 某 种 速度 介 于 二 者 之 间 的 存储 介质 或 者 方法 / 
设备 ， 所 以 也 不 知道 哪 位 干脆 想 出 了 这 样 一 种 办 法 ， 即 发 明 一 种 存储 介 
质 /设备 /方法 ， 其 存储 介质 就 是 用 磁盘 ， 但 是 其 表现 出 来 的 性 质 相 当 于 
磁带 ， 于 是 这 么 一 个 东西 便 产 生 了 ， 叫 做 Virtual Tape。 实 现 Virtual Tape 
的 设备 称 为 Virtual Tape Library， 即 VIL， 而 且 ，VTL 也 不 能 做 到 随机 
存 取 。 














仔细 想来 ， 磁 盘 和 人 磁带， 一 在 天 ， 一 在 地 ， 二 者 本 为 对 立 ， 但 是 万 
物 阴 阳 缘 变化 ， 二 者 阴阳 和 合 而 生成 了 另 一 种 物质 ， 这 种 物质 以 磁盘 为 
阴 实 做 文 撑 ， 以 磁带 的 习性 为 阳 表 ，VTL 内 部 的 虚拟 化 引擎 负责 将 阴 实 
生化 为 阳 。VTL 之 所 以 被 称 为 近 线 存储 ， 残 是 因为 从 在 线 存 储 中 将 数据 
迁移 到 离线 存储 之 后 ， 一 旦 短 时 间 内 需要 再 次 访问 这 些 数 据 ， 那 么 就 需 
要 忍受 非常 低 的 速度 ， 而 VTL 则 可 以 快速 将 数据 提取 出 来 供 访问 ， 而 当 
VTL 上 的 数据 经 过 相当 长 一 段 时 间 没 有 被 访问 之 后 ， 这 些 数 据 就 可 以 认 
为 是 陈 年 烂 谷子 了 ， 束 可 以 被 迁移 到 离线 存储 介质 中 了 。 








提示 : ” 随 着 LTO 人 磁带 及 驱动 器 技术 的 飞速 提高 ，LTO5 人 磁带 和 
驱动 器 已 经 可 以 达到 非常 高 的 顺序 传输 速度 了 ， 而 且 其 单 流速 














度 甚至 可 以 高 于 若干 SATA 盘 组 成 的 RAID 组 所 能 提供 的 吞吐 
量 。 在 这 种 趋势 下 ，VTIL 的 优势 将 会 丧失 列 尽 。VTL 现 在 如 采 
不 开始 考虑 向 其 他 方面 转型 ， 比 如 提供 更 多 的 附加 功能 ， 那 么 
迟早 会 被 市 场所 淘汰 。 





从 图 18-4 中 可 以 看 到 ， 磁 盘 既 属于 非 易 失 性 存储 介质 ， 叉 属于 在 线 
存储 介质 ， 同 时 还 属于 高 速 随机 存 取 介 质 ， 所 以 ， 磁 盘 在 存储 介质 生态 
链 中 的 地 位 首屈一指， 磁盘 的 性 能 也 是 影响 整个 系统 IO 性 能 的 关键 所 
在 。 作 为 在 线 存储 介质 的 最 后 一 层 ， 磁 盘 起 到 了 支撑 作用 ， 不 参与 计算 
的 数据 尽 可 能 放置 在 磁盘 上 而 不 是 将 其 放 到 磁带 等 离线 介质 中 。 但 是 磁 
盘 这 层 文 撑 也 有 破位 的 时 候 ， 比 如 ， 数 据 量 过 大 导致 磁盘 空间 不 够 ， 那 
么 此 时 可 以 选择 添置 更 多 的 硬盘 到 系统 中 。 但 是 为 了 降低 成 本 ， 降 低 耗 
电量 ， 打 算 精 兵 简 政 ， 把 当前 系统 中 不 癌 访 问 的 数据 迁移 到 磁带 中 或 者 
VTIL 中 存放 ， 腾 出 空间 以 容纳 新 数据 。 











磁盘 也 有 多 种 类 型 ， 每 种 类 型 的 磁盘 其 性 能 也 不 同 ， 而 如 果 在 进行 
数据 管理 时 完全 不 考虑 性 能 ， 而 只 考虑 容量 ， 那 么 就 会 埋没 很 多 才华 。 
如 果 能 够 将 访问 频繁 并 且 性 能 要 求 又 较 高 的 数据 放置 在 性 能 高 的 磁盘 或 
者 RAID 组 中 ， 而 原先 占 着 高 性 能 磁盘 或 者 RAID 组 的 那些 不 被 经 常 访问 
或 者 性 能 要 求 也 不 高 的 数据 都 移动 到 它们 该 去 的 地 方 ， 比 如 低 端 硬盘 
中 ， 那 么 束 可 以 做 到 物 尽 其 用 了 ， 能 者 上 ， 庸 者 下 。 





这 也 就 是 数据 分 级 管理 的 意义 和 目标 。 图 18-5 为 存储 介质 生态 链 分 
级 示意 图 。Tier 对 应 的 数值 越 低 ， 表 明 级 别 越 高 ， 性 能 越 高 。 


图 18-5 ”存储 介质 生态 链 分 级 示意 图 


上 图 中 所 标识 的 Tier 级 别 只 是 基于 一 种 判断 因子 ， 即 磁盘 类 型 ， 认 


为 FC/SAS 磁 盘 一 定 比 SATA 和 磁盘 速度 快 ， 所 以 其 级 别 也 惑 越 高 。 但 是 实 
际 情 况 下 ， 低 速 硬盘 组 成 的 RAID 组 的 性 能 不 见得 一 定 比 高 速 硬 盘 性 能 
低 。 比 如 相同 磁盘 类 型 和 数量 下 ， 不 同 的 RAID Group，RAID 0 一 定 是 
性 能 最 高 的 ，RAID 10 其 次 ，RAID 5 再 次 。 所 以 ， 根 据 不 同 磁盘 、 不 同 
RAID 类 型 、 不 同 的 RAID 组 磁盘 的 数量 组 合 、 加 权 之 后 ， 不 同 厂 商 在 进 
行 分 级 管理 时 会 给 不 同 的 组 合 以 不 同 的 Tier 级 别 ， 比 如 10 块 SATA 磁 盘 
组 成 的 RAID 0 其 性 能 大 多 数 情况 下 都 比 4 块 FC 磁 盘 组 成 的 RAID 5 要 高 ， 
那么 其 级 别 也 就 相应 地 高 。Tier 级 别 的 高 低 完全 取决 于 最 终 组 合 之 后 的 
子 系统 的 理论 性 能 。 








2. 数据 分 级 的 具体 形式 
数据 分 级 迁移 可 以 分 为 多 种 大 类 ， 下 面 分 类 进行 介绍 。 


1) 手动 分 级 、 目 动 分 级 以 及 实时 目 动 分 级 





手动 分 级 就 是 用 户 自 行 迁移 对 应 的 数据 到 对 应 的 目标 。 比 如 在 一 个 
由 8 块 FC 磁 盘 组 成 的 RAID 组 中 有 一 个 LUN， 被 映射 为 Windows 下 的 F 
盘 ， 其 上 有 一 批 不 太 经 常 被 访问 的 文件 存在 于 一 个 目录 中 ， 而 整个 F 盘 
文件 系统 已 经 近 满 ， 同 时 在 一 个 由 8 块 SATA 磁 盘 组 成 的 RAID 组 中 有 一 
个 LUN， 被 映射 为 同一 操作 系统 下 的 H 盘 。 此 时 ， 某 个 程序 需要 一 个 IO 
性 能 比较 高 的 环境 来 存放 其 数据 文件 ， 那 么 管理 员 就 可 以 将 F 盘 上 的 整 
个 目录 手动 移动 到 H 盘 存放 ， 而 F 盘 的 剩余 空间 可 以 给 这 个 程序 用 来 存 
放 它 的 文件 。 





目 动 分 级 则 很 大 程度 上 蔡 代 了 用 户 自身 ， 用 户 只 要 设 定好 所 有 规 
则 ， 然 后 分 级 引擎 束 会 根据 这 些 规则 来 扫描 对 应 的 Metadata， 一 旦 符合 
条 件 ， 则 触发 迁移 任务 。 比 如 ， 还 是 上 面 的 例子 ， 用 户 创 建 了 两 个 


Tier，Tier1l 为 F 航 ，Tier2 为 H 航 ， 并 且 增 加 了 一 条 规则 : 知 F 盘 中 任何 文 
件 其 最 后 访问 时 间距 当前 系统 时 间 超 过 15 天 则 将 其 内 容 移动 到 H 盘 存 
放 ， 并 且 为 了 不 影响 用 户 使 用 ， 在 F 盘 保留 这 个 文件 的 壳 子 信息 。 


提示 : ”这 里 不 能 够 使 用 便 链 接 来 作为 这 个 充 子 ， 因 为 硬 链 接 
要 求 源 和 链接 存在 于 同一 个 文件 系统 中 ， 而 F 盘 和 H 盘 十 两 个 
不 同 的 文件 系统 。 所 以 ， 这 种 跨 文 件 系 统 的 占 位 指针 链接 ， 需 
要 使 用 第 三 方 独立 的 程序 模块 来 生成 实现 ， 这 个 模块 就 是 分 级 
数据 管理 引擎 。 分 级 管理 引擎 会 定期 对 目标 数据 进行 扫描 ， 一 
旦 发 现 符合 迁移 条 件 ， 则 立即 触发 迁移 动作 。 








实时 自动 分 级 迁移 ， 指 的 是 当 数 据 被 号 入 时 ， 分 级 引擎 实时 地 根据 
策略 将 数据 重 定向 写 入 对 应 的 目标 。 比 如 ， 用 户 设 定 了 一 条 策略 : 当 任 
何 针 对 F 盘 的 IO 进入 时 ， 将 IO 重 定向 到 H 盘 ， 但 是 F 盘 依然 保持 对 应 文件 
的 壳 。 这 样 的 话 ， 任 何 时 候 针对 F 盘 文件 的 写 入 动作 都 会 被 分 级 引擎 重 
定 问 到 H 盘 。 











2) 文件 级 分 级 和 块 级 分 级 


文件 级 的 分 级 可 以 做 到 更 细 化 的 策略 ， 比 如 根据 文件 的 关联 应 用 程 
序 扩展 名 ) 、 目 录 、 用 户 、 组 、 调 用 方式 、 大 小 、 访 问 频 度 等 各 种 五 
人 花 八 门 的 属性 来 作为 分 类 条 件 和 触发 条 件 ， 以 任何 卷 或 者 目录 为 迁移 目 
标 进 行 迁 移 。 文 件 从 原始 Tier 被 迁移 到 其 他 Tier 之 后 ， 在 原始 Tier 上 对 应 
的 位 置 必 须 保持 一 个 类 似 人 硬 链 接 的 占 位 指针 。 但 是 与 便 链 接 不 同 的 是 ， 
这 个 占 位 符 所 表现 出 来 的 一 切 属性 以 及 操作 方法 ， 与 源 文件 完全 一 致 ， 
只 不 过 其 实体 内 容 不 在 对 应 位 置 而 已 ， 并 且 这 个 占 位 符 允 许 其 对 应 的 实 
体内 容 位 于 其 他 文件 系统 空间 。 这 么 做 的 原因 是 为 了 保持 用 户 层面 的 透 
明 性 ， 用 户 程 友 不 可 能 感知 到 其 文件 实体 内 容 被 放 在 哪里 ， 但 是 却 必须 


























知道 文件 存在 于 哪个 路 径 以 便 发 起 访问 ， 而 且 这 个 路 径 不 能 被 底 层 擅 目 
改变 。 文 件 级 的 数据 分 级 管理 只 能 够 在 主机 端 或 者 NAS 存 储 端 来 实现 。 


在 主机 端 实现 文件 级 分 级 管理 ， 几 乎 所 有 产品 都 是 使 用 过 涯 驱动 来 
实现 的 ， 在 FS Driver 之 上 插入 过 滤 驱 动 程序 来 监测 用 户 程 序 友 起 的 文件 
IO 操作 ， 并 根据 策略 来 将 这 些 IO 进行 重 定 加 迁移 等 操作 ， 如 果 IO 未 匹配 
任何 策略 ， 那 么 过 小 驱动 会 名 下 咀 明 地 转发 IO 请 求 。 


而 块 级 别 的 数据 分 级 ， 所 能 够 作为 触发 或 者 分 类 的 条 件 则 很 少 ， 比 
如 根据 整个 LUN 或 者 LUN 中 某 个 或 者 某 些 Block 的 访问 频繁 度 进 行 整 个 
LUN 或 者 其 中 部 分 Block 的 迁移 。 基 本 上 基于 块 级 别 的 数据 迁移 也 只 有 
根据 访问 频繁 度 来 作为 判断 条 件 才 有 意义 ，Block 级 别 无 法 感知 上 层 文 
件 逻 辑 ， 所 以 也 就 无 法 使 用 更 多 的 条 件 作为 分 类 依据 了 。 分 级 管理 引擎 
会 为 整个 LUN 或 者 每 个 Block 维 护 Metadata 用 来 表征 这 个 LUN 或 者 Block 
的 访问 频繁 度 等 ， 在 做 迁移 时 ， 会 参考 对 应 的 Metadata 以 便 判 断 是 否 进 
行 迁移 以 及 迁移 到 何 处 。 








3) 主机 问 分 级 和 存储 端 分 级 


由 于 主机 可 以 同时 连接 多 个 独立 的 外 部 存储 系统 ， 所 以 在 主机 端 实 
现 分 级 也 就 可 以 实现 数据 在 不 同 的 外 部 存储 系统 间 的 互相 移动 ， 比 如 可 
以 将 外 部 高 端 存 储 A 上 的 LUN 设 置 为 Tier1， 外 部 低 站 存储 B 上 的 LUN 设 
置 为 Tier2， 而 这 是 存储 端 分 级 迁移 所 无 法 做 到 的 ， 存 储 端 只 能 将 自身 的 
数据 在 上 自身 的 不 同 Tier 中 迁移 。 主 机 端的 分 级 迁移 几乎 都 是 基于 文件 
的 ， 因 为 主机 需要 同时 运行 用 尸 应 用 程序 ， 所 以 不 能 够 耗费 太 多 的 资源 
来 运行 这 些 数据 迁移 功能 ， 而 块 级 别 的 分 级 迁移 往往 需要 耗费 更 多 的 资 
源 ， 除 非 迁 移 的 目标 是 整个 LUN。 目 前 来 看 ， 尚 未 有 广 商 在 主机 端 来 实 
现 针对 Block 的 分 级 迁移 。 














在 主机 站 实现 数据 分 级 省 理 ， 就 需要 在 主机 端 来 安装 对 应 的 数据 动 
态 迁 移 引 擎 以 便 监 视 和 管理 文件 系统 或 者 卷 级 别 的 数据 信息 。 如 宁 整 个 
系统 内 有 多 人 台 主 机 客户 端 需要 实现 数据 分 级 管理 ， 那 么 就 可 以 使 用 一 人 台 
独立 的 服务 器 来 运行 一 个 管理 端 程 序 ， 通 过 这 个 程序 来 统一 监控 并 且 制 
定 策略 并 下 发 给 需要 实现 分 级 的 主机 端 上 运行 的 分 级 引擎 ， 这 些 引 擎 再 
根据 这 些 人 策略 来 实现 数据 迁移 动作 。 主 机 端的 分 级 引擎 可 以 与 各 种 主流 
应 用 程序 结合 以 实现 更 多 功能 。 











对 于 存储 系统 端的 数据 分 级 操作 ， 不 需要 在 主机 端 安装 任何 程序 ， 
完全 对 主机 端 透 明 。 存 储 系统 又 分 为 NAS 存 储 和 Block 存 储 。 在 NAS 存 
储 系统 上 做 分 级 管理 的 话 ， 可 以 针对 其 上 的 文件 作 分 级 迁移 ， 也 可 以 对 
其 底层 的 卷 来 做 块 级 别 的 分 级 管理 (NAS 存 储 系统 也 有 自己 的 卷 ) 。 而 
对 于 Block 存 储 系统 自身 的 分 级 管理 ， 则 只 能 够 实现 针对 自身 的 LUN 或 
者 LUN 中 的 Block 的 分 级 迁移 操作 。 在 存储 端 进行 分 级 管理 ， 是 完全 对 
主机 端 透 明 的 ， 而 且 不 会 影响 主机 端的 性 能 ， 但 是 存储 端 只 能 够 在 自身 
的 不 同 Tier 之 间 做 迁移 。 


4) 应 用 级 分 级 和 底层 级 分 级 





各 种 主流 应 用 程序 比如 Oracle、DB2、SAP、Exchange Server、 
SharePoint 等 ， 这 些 对 于 企业 生产 都 是 极为 重要 的 应 用 系统 ， 它 们 稳定 
运行 了 多 年 ， 也 产生 了 大 量 的 数据 ， 而 这 些 数据 并 不 一 定 都 是 时 刻 需要 
被 访问 的 ， 所 以 ， 针 对 这 些 应 用 系统 ， 众 生 了 一 批 专 门 针 对 这 些 应 用 系 
统 的 数据 管理 工具 ， 比 如 实现 对 它们 的 数据 进行 分 析 、 容 灾 、 分 级 迁 
移 、 归 档 等 。 这 些 数 据 分 级 管理 程序 依附 于 这 些 应 用 系统 ， 其 中 有 些 对 
于 其 他 普通 文件 也 能 够 达到 一 些 基 本 的 分 级 动态 迁移 功能 ， 但 是 只 是 作 
为 附属 品 来 使 用 。 


运行 在 主机 问 的 相对 底层 的 数据 分 级 管理 程序 ， 则 是 以 普 适 为 原 
则 ， 可 以 针对 任何 文件 或 者 LUN、 卷 等 来 做 分 级 的 迁移 ， 而 把 针对 某 些 
应 用 程序 的 特殊 文 持 来 作为 一 种 插件 或 者 选 件 来 独立 开发 。 








对 于 运行 在 外 部 存储 系统 上 的 分 级 管理 引擎 ， 对 于 主机 本 里 来 讲 就 
是 彻 懈 的 底层 的 分 级 管理 了 。 


5) 简单 迁移 和 复杂 分 级 


数据 分 级 管理 工具 可 以 被 分 为 两 大 类 : 简单 迁移 工具 和 复杂 分 级 工 
具 。 所 谓 简单 迁移 工具 是 指 一 类 只 能 实现 简单 生 略 的 文件 级 别 迁 移 工 
共 ， 比 如 只 根据 文件 最 后 访问 时 间 来 判断 文件 的 访问 热度 ， 然 后 将 其 实 
体内 容 迁 移 到 指定 的 地 点 存放 ， 一 般 不 能 做 到 实时 IO 重 定 癌 ， 只 能 定期 
地 扫描 并 做 迁移 。 而 复杂 分 级 工具 则 是 可 以 提供 大 量 复杂 策略 以 及 可 以 
制定 复杂 Tier 组 合 的 而 且 可 以 动态 实时 IO 重 定 同 的 分 级 管理 工具 ， 这 种 
工具 其 实 也 可 以 称 为 “基于 复杂 策略 的 IO 实时 重 定 癌 工 具 ”。 一 些 现 有 的 
数据 分 级 迁移 产品 基本 上 可 以 说 是 一 种 数据 归档 产品 ， 它 们 不 会 对 不 同 
的 存储 介质 进行 性 能 等 属性 区 分 ， 而 只 是 简单 地 将 长 时 间 不 访问 的 数据 
迁移 到 其 他 位 置 或 者 离线 介质 等 ， 这 种 产品 没有 “分 级 ?而 只 有 “迁移 ”。 

















6) 基于 纯 性 能 需求 的 分 级 和 基于 人 为 因 系 需求 的 分 级 


这 两 种 需求 有 着 本 质 不 同 ， 有 时 甚至 是 相 了 矛盾 的 。 比 如 茶 份 文件 ， 
两 周 内 只 有 几 次 访问 ， 它 被 迁移 到 了 SATA 近 线 存 储 中 ， 又 过 了 两 周 ， 
无 人 访问 了 ， 它 被 迁移 到 了 磁带 中 。 一 周 之 后 ， 某 领导 突然 需要 访问 这 
份 文件 ， 络 果 他 等 了 5 分 钟 才 访问 到 ， 结 果 大 发 雷 姓 。 这 种 情况 相信 很 
多 人 都 见 过 。 











那么 在 面 对 人 为 因素 介入 的 时 候 ，HSM 太 商 到 撒 应 该 怎么 做 呢 ? 笔 


者 在 此 设想 一 种 方案 ， 此 时 三 商 可 以 在 条 件 里 加 入 一 个 复 选 框 一 一 “有 
人 为 因 系 介入 ”， 用 户 在 设置 策略 条 件 的 时 候 ， 如 果 判 断 目标 数 据 可 能 
会 卷 入 政治 因 系 ， 那 么 他 只 需要 勾 选 这 个 复 选 框 就 可 以 ， 迁 移 引 擎 不 会 
再 迁移 目标 数据 到 磁 市 ， 除 非 操 作 员 手 动 通 知 引 擎 人 为 因素 已 消除 。 





浮想 : ”其 实在 很 多 时 候 ， 人 为 因素 始终 都 是 软件 程序 所 面 对 
的 最 大 的 有 暴 烦 。 计 算 机 目前 还 做 不 到 像 人 一 样 的 性 格 ， 比 如 可 
以 预测 到 东 份 文件 可 能 某 个 领导 将 来 东 个 时 候 一 定 要 奉 看 ， 所 
以 本 着 领导 第 一 的 思想 ， 如 果 让 人 来 控制 的 话 ， 这 份 文 件 一 定 
古 被 放 在 高 性 能 存储 中 的 ， 即 便 是 其 他 更 重要 的 数据 有 强烈 需 
求 ， 但 是 在 面 对 人 为 因 系 的 时 候 ， 其 他 一 切 都 可 以 牺牲 。 这 正 
是 政治 的 特征 ， 计 算 机 也 逃 不 掉 。 

计算 机 目前 既 做 不 到 人 的 正义 刚直 ， 也 同样 做 不 到 人 的 虚伪 阴 
仿 。 曾经 看 过 一 部 电影 叫做 《 鹰 眼 》， 整 个 城市 的 秩序 和 规则 
都 有 计算 机 来 控制 ， 可 是 最 后 依然 没 能 逃脱 被 人 所 控制 的 命 
运 : 

然而 ， 我 坚信 计算 机 一 定 会 进化 ， 最 后 产生 自己 的 智能 和 规 
则 ， 就 像 人 一 样 ， 由 原生 单 细胞 进化 为 多 细胞 复杂 系统 。 计 算 
机 也 会 经 过 这 种 进化 过 程 。 而 且 我 也 坚信 单 细胞 生物 也 是 被 创 
造 出 来 的 东西 。 











7) 数据 分 级 迁移 粒度 


对 于 文件 级 的 分 级 迁移 ， 其 粒度 一 般 束 为 整个 文件 。 如 果 要 达到 更 
小 的 粒度 ， 比 如 将 文件 分 为 多 个 逻辑 部 分 ， 针 对 每 个 部 分 都 维护 一 个 描 
述 表 用 来 描述 这 个 部 分 的 访问 频 度 、 最 后 访问 时 间 等 信息 ， 那 么 无 疑 是 
一 个 很 大 的 工程 ， 会 对 系统 性 能 有 一 定 影响 ， 其 次 ， 一 个 文件 为 一 个 整 
体 ， 如 果 只 将 文件 中 部 分 数据 进行 迁移 ， 那 么 如 何 维护 迁移 之 后 零散 的 





文件 实体 内 容 之 间 的 链条 关系 ， 也 是 一 个 复杂 的 工程 ， 再 次 ， 文 件 级 的 
迁移 一 般 来 讲 都 是 运行 在 主机 端的 ， 除 非 使 用 NAS 系 统 ， 则 可 以 在 NAS 
存储 系统 目 身 来 实现 迁移 ， 如 果 没 有 使 用 NAS 系 统 ， 在 主机 端 实现 文件 
级 别 的 分 级 ， 是 要 耗费 一 定 的 主机 资源 的 。 


所 以 这 种 情况 下 ， 尽 量 简 化 处 理 过 程 是 有 必要 的 。 但 是 如 果 目 标 文 
件 是 由 某 些 主流 应 用 程序 产生 的 ， 比 如 Exchange Server 以 及 Outlook 的 邮 
箱 文件 等 ， 那 么 不 排除 有 些 分 级 管理 程序 会 与 这 些 应 用 配合 来 分 析 这 些 
文件 中 的 具体 结构 而 针对 不 同 用 户 、 组 、 邮 箱 等 来 将 整个 文件 中 的 各 个 
不 同 区 域 区 别 对 竺 进行 迁移 或 者 归档 。 至 于 NAS 存 储 系 统 对 自 喘 文件 的 
分 级 迁移 ， 则 可 以 相对 于 主机 更 加 灵活 和 强大 。 





对 于 块 级 别 的 数据 分 级 迁移 ， 则 可 以 有 多 种 粒度 ， 比 如 整个 LUN,， 
或 者 各 种 大 小 的 Block/Extent/Chunk/Page/Sub-LUN 〈 叫 法 不 同 ， 本 质 相 
同 ) 。 比 如 ， 可 以 设 定 每 个 Extent 为 64KB、1MB、16MB 等 ， 不 同 厂 商 
的 设计 不 同 ， 选 择 的 Page 尺 寸 也 不 同 。 





一 般 来 讲 ， 迁 移 粒 上 度 越 小 ， 物 尽 其 用 的 程度 就 越 高 ， 但 是 所 需要 维 
护 的 Metadata 以 及 耗费 的 系统 资源 也 就 越 多 。 迁 移 整个 LUN 粒 度 过 大 ， 
难免 以 偏 概 全 ， 或 者 顾此失彼 ， 而 如 果 迁 移 的 目标 Tier 是 SSD， 则 一 旦 
整个 LUN 被 迁移 到 SSD， 而 随后 却 发 现 只 有 LUN 中 的 某 些 区 域 为 频繁 访 
问 的 ， 即 Hot Spot， 那么 其 余部 分 如 果 仍 然 占 用 SSD 的 空间 ， 就 属于 一 
种 浪费 了 ，SSD 毕 竟 还 是 很 贵 的 。 


对 于 存储 端 Block 级 别 的 分 级 管理 ， 其 LUN 分 布 的 粒度 有 多 小 ，Tier 
的 粒度 就 有 多 小 。 比 如 3PAR 在 LUN 分 布 时 是 以 Chunk 为 单位 ， 以 一 定 的 
策略 在 所 有 磁盘 上 分 布 。3PAR 自 称 这 种 分 布 方式 为 Dynamic 
Optimisation， 在 系统 内 所 有 硬盘 中 动态 地 分 布 ， 而 一 旦 系统 内 的 硬盘 





有 了 分 层 ， 比 如 SSD、FC、SATA， 那 么 Dynamic Optimisation 在 动态 分 
布 时 就 需要 多 考虑 一 层 ， 即 分 级 策略 层 ， 根 据 不 同 访问 频率 或 者 根据 其 
他 细 化 的 策略 将 Chunk 迁 移 到 不 同 的 存储 介质 层次 上 ， 所 以 Dynamic 
Optimisation 被 更 名 为 Adaptive Optimisation，Chunk 当 然 也 就 变 成 了 迁移 
最 小 单位 。 











再 比如 XIV， 以 1MB 大 小 的 Block 作 为 LUN 分 布 单位 ， 并 且 Block 可 
以 在 所 有 系统 便 盘 内 任意 移动 ， 那 么 它 完 全 也 可 以 实现 细 粒 度 的 Tier， 
只 需要 增加 一 个 Policy 层 即 可 ， 并 且 是 顺手 牵 羊 的 事情 ， 可 惜 XIV 至 今 
仍 未 有 动作 ，LUN 分 布设 计 与 XIV 类 似 的 3PAR 却 早已 实现 了 数据 分 级 
管理 。EMC 在 FAST ”1.0 版 本 中 只 提供 整个 LUN 级 别 的 迁移 ， 在 FAST 
2.0〈 至 写作 当天 尚未 发 布 ) 中 会 文 持 Sub-LUN 〈 大 小 未 知 ) 级别 的 迁移 
粒度 。 








8) Tier 的 界定 


所 有 分 级 存储 管理 引擎 均 需 要 用 户 自行 设 定 系统 内 的 所 有 Tier。 那 
么 符合 什么 条 件 的 存储 介质 或 者 存储 介质 的 组 合 才能 称 之 为 一 个 Tier 
呢 ? 可 以 灵活 指定 Tier， 比 如 将 系统 中 所 有 由 5 块 FC 盘 或 者 10 块 SATA 盘 
组 成 的 RAID 5 组 设 定 为 Tier1， 而 将 5 块 SATA 盘 组 成 的 RAID 5 组 设 定 为 
Tier2， 将 SSD 磁 盘 组 成 的 任何 类 型 的 RAID 组 设 定 为 Tier0。 人 性 能 方面 ， 
Tier0>Tier1>Tier2。 总 之 ， 用 户 可 以 将 任何 对 象 的 组 合 任意 灵活 地 设 
定 为 一 个 独立 的 Tier， 并 且 给 这 个 Tier 分 配 一 个 性 能 指数 ， 比 如 0/1/2 
全 





注意 : “性 能 的 高 低 确实 是 用 来 界定 一 个 Tier 与 其 他 Tier 的 指标 
之 一 ， 但 是 不 同 的 Tier 之 间 的 区 别 并 不 只 是 性 能 。 有 时 候 ， 茶 
些 上 层 需求 不 仅仅 是 要 求 单个 IO 的 性 能 这 么 简单 ， 比 如 ， 上 层 











要 求 在 访问 某 些 数据 的 时 候 ， 应 当 具 有 较 高 的 并 发 度 ， 而 不 要 
求 高 带宽 ， 那 么 此 时 就 可 以 把 这 些 数据 放置 到 具有 较 高 言 并 发 
度 的 RAID 组 中 ， 比 如 RAID 5， 而 如 果 将 其 放 入 RAID 3 类 型 的 
RAID 组 中 ， 那 么 后 果 是 可 想 而 知 的 。 再 比如 ， 某 个 文件 系统 
的 Block ”Size 为 4KB， 但 是 有 这 么 一 大 批文 件 ， 它 们 的 平均 尺 
寸 只 不 过 1KB， 这 些 文件 有 几 十 万 个 ， 那 么 对 于 这 种 文件 ， 存 
放 在 Block ”Size 二 4KB 的 文件 系统 下 显然 是 浪费 空间 的 ， 所 以 
可 以 将 它们 的 实体 内 容 迁 移 到 一 个 Block ”Size 二 1KB 的 文件 系 
统 (Tier) 下 存放 。 





任何 事物 都 有 其 优 缺 点 ， 划 分 不 同 Tier 的 目的 就 是 将 每 个 细 化 的 不 
同 之 处 〈 不 仅 是 性 能 ) 部 区 分 开 来 ， 然 后 加 以 不 同 的 组 合 ， 组 合成 干 变 
万 化 的 Tier， 然 后 扬长 避 短 ， 用 不 同 的 Tier 去 满足 干 变 万 化 的 上 层 IO 需 
求 。 


9) 数据 在 Tier 间 的 相互 移动 


数据 被 从 一 个 Tier 迁 移 到 另 一 个 Tier 之 后 ， 如 果 需 要 访问 这 些 数 
据 ， 那 么 分 级 管理 引擎 会 根据 这 两 个 Tier 之 间 的 性 能 差距 来 执行 不 同 的 
动作 。 比 如 Tier1 为 10 个 FC 盘 组 成 的 RAID 组 ， 而 Tier2 为 10 个 SATA 盘 组 
成 的 RAID 组 ， 那 么 这 两 个 Tier 之 间 的 性 能 差距 不 是 非常 瞪 殊 ， 所 以 一 旦 
上 层 需 要 访问 从 Tierl 被 迁移 到 Tier2 的 数据 ， 那 么 引擎 会 直接 从 Tier2 对 
应 的 空间 内 读 出 内 容 返 回 给 上 层 。 但 是 如 果 Tier2 为 磁带 的 话 ， 那 么 
Tier1 和 Tier2 之 间 的 性 能 差距 就 是 悬殊 的 ， 不 可 能 实时 地 将 上 层 的 IO 重 
定 问 到 磁带 ， 这 样 做 访问 速度 将 会 非常 慢 ， 那 么 此 时 分 级 引擎 的 动作 就 
是 将 整个 或 者 部 分 之 前 被 迁移 的 数据 集 先 从 磁带 一 次 性 临时 恢复 到 Tier1 
上 ， 从 而 保持 较 快 的 上 层 IO 响应 速度 ， 当 针对 这 些 数据 的 IO 访问 停止 了 
相当 一 段 时 间 之 后 ， 分 级 引擎 便 会 将 之 前 恢复 到 Tierl1 上 的 数据 实体 删 掉 





以 腾 出 空间 给 其 他 需要 的 数据 所 用 。 


如 果 自 从 这 些 数据 被 迁移 之 后 ， 针 对 这 些 数据 的 访问 频率 达到 了 一 
定 的 阔 值 ， 并 且 持 续 了 相当 一 段 时 间 ， 那 么 分 级 引擎 就 可 以 根据 相关 策 
略 〈 如 果 有 的 话 ) 将 这 些 数据 从 Tier2 永 久 迁 移 回 至 Tier1， 释 放 Tier2 上 
对 应 的 空间 。 


根据 已 经 制定 的 集 略 ， 分 级 省 理 引 擎 会 在 倘 上 略 导 癌 下 不 断 地 实现 整 
体系 统 内 部 的 数据 分 级 迁移 动作 ， 整 体 就 表现 为 物 尽 其 用 ， 性 能 得 到 元 
分 发 挥 。 


3. 如 何 判 断 热点 数据 


在 判断 热点 数据 之 前 肯定 要 清晰 地 定义 什么 才 是 热点 数据 。 当 然 ， 
不 同上 商 有 不 同 的 理解 和 对 应 的 判断 依据 。 冷 和 热 之 间 本 来 就 没有 一 个 
严格 的 分 界 ， 所 以 都 是 相对 而 言 的 。 一 般 是 利用 二 八 原则 ， 即 10 分 数 
据 ， 如 果 把 每 1 分 数据 按照 单位 时 间 内 所 被 IO 的 次 数 来 进行 排序 ， 取 被 
访问 次 数 最 多 的 2 分 数据 ， 那 么 束 可 以 说 这 2 分 为 热 数 据 。 





然而 ， 这 样 做 一 定 是 鲁莽 的 。 比 如 如 果菜 数据 块 近期 内 被 频繁 访 
问 ， 但 是 每 次 访问 都 命中 了 Cache， 那 么 这 种 算 不 算 热 数据 ? 当然 算 。 
应 不 应 当 被 迁移 到 高 速 SSD 介 质 ? 当然 不 需要 。 再 者 ， 如 果 某 个 块 确实 
也 被 频繁 读 访 问 ， 而 且 每 次 都 不 命中 Cache， 但 是 这 个 块 属 于 一 次 长 时 
间 连 续 地 址 IO 中 的 某 个 块 ， 每 隔 一 分 钟 就 有 一 次 吞吐 量 非常 大 的 连续 IO 
发 生 ， 那 么 这 些 连续 IO 的 数据 块 ， 肯 定 是 热 数 据 ， 但 是 是 否 有 必要 被 迁 
移 到 SSD? 也 没有 必要 。 【多 次 被 连续 IO 访问 到 的 块 不 一 定常 驻 
Cache， 可 能 会 随时 被 其 他 地 址 范围 的 大 吞 叶 量 数据 给 挤 出 Cache) 还 
有 ， 如 果 某 段 数 据 在 近 一 周 内 都 被 频繁 访问 ， 而 唯 独 今天 访问 频率 又 








降 。 相 反 ， 某 段 数据 近 一 周 都 没有 被 访问 过 而 今天 突然 被 高 频 访 问 ， 那 
么 此 时 是 继续 维护 原 有 的 策略 ， 认 为 新 进 的 疑似 热 数据 有 待考 验 么 ? 不 


见得 。 


所 以 ， 在 鲁 三 的 大 棒 之 下 ， 还 需要 有 众多 的 细节 辅佐 。 综 合 来 讲 ， 
ReadMiss、 随 机 IO、 当 前 的 访问 频 度 更 加 受到 重视 。 





4.， 块 级 自动 分 级 的 具体 底层 数据 结构 与 架构 


理论 上 有 两 种 可 用 的 方法 : 筒 内 元 数据 与 带 外 元 数据 法 。 这 两 个 名 
词 很 抽象 ， 下 面 进行 解释 。 试 想 ， 自 动 分 级 存储 必须 要 退 踪 每 个 块 的 属 
性 ， 包 括 最 后 访问 时 间 、 茶 段 时 间 内 被 访问 了 多 少 次 、 读 还 是 写 、 绥 存 
命中 率 统计 等 数据 。 保 存 这 些 数 据 可 以 有 两 种 方法 : 第 一 种 方法 器 是 在 
每 个 块 的 尾部 /首部 追加 一 小 部 分 空间 来 存放 对 应 这 个 块 的 所 有 这 些 元 
数据 ， 也 就 是 所 谓 带 内 元 数据 法 ， 第 二 种 方法 则 是 单独 构建 一 个 小 型 数 
据 库 来 存放 所 有 块 的 元 数据 ， 数 据 库 的 数据 存放 在 一 个 单独 的 固定 空间 
内 ， 也 就 是 所 谓 的 带 外 元 数据 法 。 











我 们 来 演绎 一 下 这 两 个 模型 ， 首 移 看 第 一 个 模型 。 如 有 果 按 照 这 个 模 
型 来 设计 ， 那 么 系统 即便 是 在 读 〈( 由 用 户 发 起 的 读 ， 而 不 是 系统 内 部 目 
映 发 起 。 对 于 系统 自身 发 起 的 操作 ， 比 如 动态 的 LUN 块 分 布 机 制 、 手 动 
的 数据 迁移 、RAID 级 别 /类 型 改变 等 各 种 其 他 原因 导致 的 数据 块 移动 ， 
由 于 这 种 移动 是 由 于 系统 内 部 原因 所 致 而 不 是 由 于 用 户 访问 所 致 ， 所 以 
这 种 情况 下 不 会 去 更 新 尾部 元 数据 ， 元 数据 会 随 帮 块 一 同 走 ) 东 个 块 或 
者 茶 个 块 的 一 部 分 时 ， 也 要 顺便 更 新 一 下 这 个 块 尾部 的 元 数据 ， 也 就 是 
说 着 读 必 写 ， 这 样 的话 ， 如 果 系 统 分 块 很 小 ， 比 如 512KB 级 ， 那 么 势必 
导致 元 数据 数量 增多 ， 而 且 分 布 在 磁盘 的 各 处 (每 512KB 就 有 一 份 元 数 
据 ) ， 这 样 的 话 会 导致 严重 的 性 能 问题 。 一 个 解决 办 法 就 是 使 用 日 志方 














式 来 避免 对 性 能 的 影响 ， 比 如 先 将 要 更 新 的 东西 记录 到 一 个 日 志 中 存 

放 ， 在 系统 不 繁忙 的 时 候 在 后 台 将 日 志 重 放 ， 更 新 到 对 应 块 尾部 的 元 数 
据 区 中 。 同 理 可 推 ， 这 种 架构 下 ， 系 统 也 必须 在 后 台 对 所 有 的 元 数据 进 
行 控 掘 、 分 析 ， 之 后 匹配 策略 并 进行 迁移 ， 这 就 要 求 系统 扫描 每 一 个 块 
并 作 分 析 之 后 立即 决策 将 块 移动 到 哪个 对 应 的 层级 ， 或 者 不 移动 ， 如 果 
要 移动 ， 就 立即 将 其 推送 到 迁移 队列 中 等 竺 迁移 。 这 种 方法 注定 需要 频 
繁 的 IO 操 作 ， 并 且 极 其 耗 绩 系统 资源 。 还 别 说 ， 真 有 这 么 干 的 厂商 ， 那 
就 是 Compellent， 其 分 块 粒度 可 以 配置 为 512KB、2MB 或 者 4MB， 是 否 
这 种 做 法 真 的 对 其 性 能 有 严重 影响 这 个 实在 不 得 而 知 ， 和 希望 知情 的 读者 
能 够 与 笔者 联系 探讨 〈 联 系 方式 在 前 言 中 ) 。 

















现在 再 来 看 看 第 二 个 模型 。 第 二 个 模型 相对 于 第 一 个 模型 来 讲 更 好 
接受 ， 也 符合 常理 。 首 先 它 根本 不 需要 对 磁盘 上 的 数据 块 做 任何 结构 改 
变 ， 一切 都 是 在 带 外 发 生 作 用 。 这 束 使 得 这 种 设计 可 以 以 一 种 独立 软件 
模式 来 交付 ， 可 以 和 加 开发 安装 在 各 种 磁盘 阵列 中 ， 甚 至 主机 中 。 这 里 
就 不 做 过 多 介绍 了 ， 读 者 可 以 目 行 构想 。IBM 的 Easy Tier 采 用 的 是 第 二 
种 设计 模式 。 








提示 : ”集群 /分 布 式 文件 系统 也 是 一 个 可 以 天 然 束 实现 数据 目 
动 分 级 的 坏 子 ， 为 何 这 么 说 呢 ? 只 要 看 它 的 名 字 即 可 , “分 布 
式 ” 文 件 系 统 ， 同 一 个 文件 或 者 同一 个 LUN 的 不 同 部 分 可 以 被 
放置 到 不 同 的 位 置 ， 注 意 “ 不 同 的 位 置 "， 这 几 个 名 词 决定 了 分 
布 式 文 件 系统 的 天 然 数据 分 级 潜质 ， 只 需要 在 其 上 进行 再 开 

发 ， 很 容易 地 可 以 实现 数据 目 动 分 级 。 





5. 数据 上 自动 分 级 对 性 能 的 影响 


自动 分 级 所 面临 的 技术 问题 ， 与 Thin Provision 粒 度 问 题 带 来 的 性 能 


降低 一 样 ， 分 块 粒度 越 小 ， 所 这 来 的 性 能 降低 就 越 明 显 ， 表 现 为 两 方 

面 : 计算 资源 的 耗费 与 1O 资 源 的 耗费 。 分 块 粒度 降低 必然 导致 元 数据 数 
量 激增 ， 搜 索 和 处 理 效率 降低 ， 同 时 也 导致 经 过 分 级 之 后 的 数据 块 在 物 
理 上 变 得 不 连续 ， 如 果 数 据 块 补 迁移 到 SSD 这 种 不 需要 机 械 寻 道 的 存储 
介质 中 ， 那 么 访问 这 些 块 的 效率 虽然 不 会 打折 ， 但 是 在 原 存 储 层级 会 留 
下 孔洞， 未 被 迁移 的 数据 块 也 会 变 得 不 连续 ， 对 它们 的 访问 势必 会 导致 
磁盘 机 械 寻 道 操 作 增 加 ， 从 而 降低 了 性 能 。 


最 后 ，Thin ”Provision 与 自动 数据 分 级 这 两 种 技术 应 该 说 本 是 同根 
生 ， 上 而 一 节 中 论述 了 Thin Provision， 可 以 回溯 一 下 。 自 动 数 据 分 级 相 
对 于 Thin Provision 在 最 本 质 上 的 不 同 束 是 前 者 可 以 将 分 块 放 到 其 他 不 同 
的 介质 中 ， 在 Thin 上 加 以 改动 就 可 以 变 为 自动 分 级 。 后 面 章节 中 会 介绍 
LUN 在 RAID 组 中 的 分 布 方式 ， 届 时 会 看 到 ，LUN 分 布 、Thin、 自 动 分 
级 其 实 本 质 都 是 相同 的 。 























6. 目前 存储 广 丙 的 数据 分 级 管理 产品 
1) Symantec 


Enterprise Vault 是 Symantec 收购 KVS 公 司 的 产品 ， 这 个 产品 的 作用 
主要 是 邮件 归档 ， 即 与 Exchange Server 等 邮件 程序 配合 来 实现 对 邮件 的 
归档 管理 ， 按 照 一 定 的 规则 策略 将 系统 中 的 竺 归档 数据 进行 迁移 归档 。 


Storage Foundation Dynamic Storage Tiering 则 是 Storage Foundation 中 
的 一 项 高 级 的 数据 分 级 管理 模块 ， 它 基于 VxFS 文 件 系统 下 的 文件 进行 
分 级 ， 可 以 详细 定制 各 种 策略 ， 定 制 各 种 存储 Tier。 


NetBackup Storage Migrator 则 是 一 个 专门 与 Netbackup 备 份 软件 相 结 


合 的 数据 分 级 迁移 模块 ， 它 迁移 的 是 数据 的 备份 而 不 是 当前 在 线 的 数 
据 。 


2) IBM TSM for Space Management 


IBM 的 Tivoli Storage Manager (TSM) 是 一 整套 IT 系统 数据 管理 套 
件 ， 它 包括 很 多 模块 ， 比 如 备份 、 系 统 监控 、CDP、Tier 等 。 其 中 TSM 
for Space Management 束 是 TSM 中 的 数据 分 级 管理 模块 。TSM for Space 
Management 是 一 个 主机 端 文件 级 别 的 迁移 工具 ， 这 个 工具 属于 一 种 极 
其 简单 的 迁移 工具 。 作 为 一 个 客户 端 程序 ， 它 将 主机 端 文件 系统 下 符合 
策略 的 文件 通过 网 络 传输 到 TSM Server 端 保存 ， 在 Server 冰 可 以 创建 不 
同 的 目录 〈 挂 载 不 同 Tier 的 存储 空间 ) 用 于 保存 这 些 数据 ， 当 有 程序 对 
这 些 已 经 被 迁移 的 文件 进行 访问 时 ， 客 户 问 程 序 会 从 TSM Server 端 将 文 
件 取 回 覆盖 到 原 路 径 下 。 如 图 18-6 所 示 为 TSM for Space Management 的 
架构 示意 图 。 





图 18-6 TSM for Space Management 架 构 示 意图 


作为 一 家 同时 涉足 存储 软件 和 硬件 的 厂商 ，IBM 目 前 为 止 并 没有 在 
其 存储 系统 硬件 中 提供 块 级 数据 分 级 功能 。 





下 面 演示 一 下 TSM for Space Management 在 Windows 系 统 下 的 具体 
操作 。 


(1) 如 图 18-7 所 示 ， 打 开 HSM Client 窗 口 ， 然 后 单 击 Job “New Job 
命令 ， 在 弹出 的 窗口 中 填 入 一 个 Job 名 称 ， 然 后 确定 退出 ， 在 主 窗口 中 
束 会 显示 出 新 建 的 Job 名 称 。 本 例 中 为 ITSOJob1。 





图 18-7 TSM for Space Management 架构 示意 图 





(2) 下 一 步 将 要 定义 这 个 Job 的 工作 内 容 ， 双 击 窗 口中 已 创建 的 

Job， 弹 出 如 图 18-8 左 边 所 示 的 对 话 框 。 对 话 框 中 显示 的 Nodename 是 在 
安装 HSM Client 端 时 指定 的 本 机 名 称 ， 而 Server 指 的 是 TSM Server 端 的 
域名 和 端口 号 ， 也 是 在 安装 HSM Client 端 时 指定 的 。 在 File Space 中 ， 我 
们 需要 填 入 一 个 名 称 ， 这 个 名 称 表示 TSM ，Server 端 用 来 保存 这 个 Job 所 
迁移 过 去 的 所 有 文件 的 目录 名 称 ， 也 惑 是 说 给 TSM Server 端 的 目录 起 一 
个 名 字 ， 或 者 使 用 一 个 已 存在 的 目录 ， 用 来 保存 将 要 被 迁移 的 文件 。 图 
18-8 右 侧 的 对 话 框 是 让 用 户 来 选择 将 要 迁移 的 本 地 目录 或 者 文件 的 ， 单 
击 New Directory 按 钮 来 添加 一 个 本 地 的 目录 ， 出 现 如 图 18-9 左 侧 所 示 的 
对 话 框 。 








图 18-8 ”定义 Job 内 容 











图 18-9 ”添加 目录 以 及 定义 策略 


(3) 在 图 18-9 的 左 侧 对 话 框 中 ， 单 击 Browse 按 钮 选择 要 迁移 的 目 
录 ， 下 方 可 以 选择 是 否 包含 子 目 录 。 最 下 方 提供 有 三 个 迁移 选项 : 迁移 
之 后 保存 原 有 文件 不 变 、 迁 移 之 后 保存 占 位 指针 、 迁 移 之 后 删除 源 文 
件 。 一 般 为 了 保证 上 层 的 透明 性 ， 都 应 当选 择 保 存 占 位 指针 。 右 侧 所 示 
的 对 话 框 可 以 定义 更 高 级 的 迁移 触发 策略 ， 可 以 添加 多 条 策略 并 且 对 策 
略 进行 排序 ， 还 可 以 选择 Include 或 Exclude 模 式 做 反 向 排除 。 单 击 
Include 来 增加 一 条 “匹配 便 执 行 ” 的 策略 ， 弹 出 如 图 18-10 所 示 的 对 话 
框 。 





图 18-10 ”定义 迁移 策略 


(4) 这 个 对 话 框 中 可 以 选择 以 文件 大 小 、 创 建 时 间 、 修 改 时 间 、 


最 后 访问 时 间或 者 任意 的 组 合 来 作为 策略 判断 条 件 。 本 例 中 选择 超过 
120 天 未 修改 作为 判断 条 件 。 定 义 完毕 之 后 ， 单 击 确定 数 次 ， 退 出 。 可 
以 看 到 在 如 图 18-11 所 示 的 主 窗 口中 ，Job 内 容 已 经 定义 完毕 。 


图 18-11 Job 内 容 定义 完毕 








(5) 在 Job 上 右 击 ， 然 后 单 击 执行 ， 会 弹出 如 图 18-12 所 示 的 对 话 
框 ， 显 示 任 务 正在 执行 。 


图 18-12 ”任务 正在 执行 





(6) 当 任 务 执行 完毕 之 后 ， 会 出 现 一 个 Summary 窗 口 ， 如 图 18-13 
所 示 。 





加 





图 18-13 ”任务 执行 完毕 的 Summary 窗 














(7) 如 图 18-14 所 示 为 目标 目录 在 迁移 前 和 迁移 之 后 所 占用 空间 的 
变化 。 可 以 看 到 右 侧 中 的 Size on disk 为 1.37MB， 这 些 为 占 位 指针 所 占用 
的 空间 。 


图 18-14 ”TSM for Space Management 架 构 示意 图 





(8) 当 本 地 茶 程 序 访问 被 迁移 的 文件 时 ，HSM Client 会 实时 地 从 
Server 妆 对 应 的 目录 中 将 文件 实体 内 容 拉 回 并 且 宪 盖 到 源 文件 所 在 的 目 
录 中 。 如 图 18-15 所 示 为 某 文 件 在 访问 前 和 访问 后 的 变化 。 

















图 18-15 ”访问 文件 时 会 自动 从 Server 端 拉 回 文件 并 歼 盖 到 本 地 


(9) 当然 也 可 以 手动 将 文件 内 容 拉 回 。 单 击 


Migrate/Retrieve -、Search & Retrieve 命 令 ， 出 现 如 图 18-16 左 侧 所 示 的 对 
话 框 。 选 择 Server 端 的 目录 ， 然 后 填 入 玛 找 的 卷 名 /路 径 名 /文件 名 ， 单 击 
Search 按 钮 。 会 出 现 右 侧 所 示 的 对 话 框 ， 将 所 有 符合 条 件 的 文件 都 列 出 
来 。 





图 18-16 ”手动 拉 回 文件 内 容 











图 18-17 拉 回 文件 对 话 杠 














(10) 选中 图 18-16 右 侧 对 话 框 
中 的 某 个 欲 拉 回 的 文件 ， 单 击 
Retrieve 按 钮 ， 出 现 如 网 18-17 所 示 的 对 话 框 ， 选 择 对 应 的 动作 ， 然 后 单 
击 Retrieve 按 钮 即 可 将 文件 内 容 拉 回 到 原 处 。 


通过 上 面 的 步骤 我 们 可 以 看 到 ，TSM for Space Management 的 操作 
还 是 非常 简单 的 ， 但 是 其 实现 的 功能 也 比较 简单 。 而 且 需 要 通过 与 服务 
站 配合 ， 数 据 通过 网 络 传输 到 服务 端 保 存 ， 相 当 于 一 个 可 以 透明 访问 的 
数据 备份 系统 。 


3) IBM Easy Tier 


IBM 的 Easy Tier 是 用 于 其 DS8700 产 品 中 的 数据 自动 分 级 产品 ， 分 块 
粒度 为 一 个 Extent (IBM 的 叫 法 ， 具 体 参 考 其 红皮书 ) 。 分 为 两 个 层 
级 : 机 械 人 硬盘 与 SSD。 


4) EMC 


DiskXtender 为 EMC 收 购 Legato 而 获得 的 产品 。 其 基本 功能 和 实现 架 
构 与 TSM for Space Management 大 同 小 异 ， 此 处 不 再 详 述 。 


FAST 为 EMC 用 于 其 主流 存储 系统 比如 Clariion/DMX4/V-MAX 上 的 


存储 端 块 级 数据 分 级 管理 软件 。FAST 全 称 为 "Fully Automated Storage 
Tiering”， 即 全 自动 存储 分 层 。FAST 目 前 版 本 为 1.0， 只 支持 整个 LUN 粒 
度 的 迁移 。Symmetrix 系 列 存储 系统 已 经 支持 SSD 了 ， 不 过 FAST 1.0 只 
能 以 LUN 为 单位 进行 迁移 ， 这 多 少 有 点 像 鸡肋 ， 正 如 前 文 所 述 的 情况 一 
样 ， 整 个 LUN 的 全 部 区 域 都 为 Hot ”Spot 的 情况 毕竟 不 多 见 ， 如 果 整 个 
LUN 都 占用 SSD 的 空间 ， 那 么 无 疑 会 产生 浪费 。FAST 2.0 预 计 在 2010 年 
中 旬 发 布 ， 届 时 会 文 持 更 细 镁 上 度 的 迁移 。 














如 图 18-18 一 图 18-20 所 示 为 FAST 提 供 的 用 户 配 置 向 导 界 面 示 意 网 。 
图 18-18 FAST 提 供 的 配置 向 导 (1) 


图 18-19 ” FAST 提供 的 配置 同 导 (2) 








图 18-20 FAST 提供 的 配置 同 导 (3) 


图 18-19 为 FAST 的 迁移 策略 的 制定 窗口 ， 可 以 看 到 FAST 提 供 的 可 
供 配置 的 策略 是 很 简化 的 ， 即 它 只 让 用 户 指定 某 个 逻辑 Storage 
Group “LUN 的 逻辑 组 合 ) 可 以 在 某 个 Tier 上 占用 多 少 比例 的 物理 空 
间 ，FAST 会 自己 根据 自己 的 判断 来 将 LUN 在 不 同 Tier 之 间 进 行 分 级 迁 


移 。 








5) HDS 


HiCommand Tiered Storage Manager 是 HDS 公 司 用 于 USP 系 列 存储 系 
统 中 的 存储 问 块 级 数据 分 级 迁移 软件 。 可 以 在 任何 一 台 Windows 系 统 中 
安装 此 软件 ， 通 过 Web 界 面 来 配置 分 级 操作 ， 软 件 会 与 存储 系统 通信 以 
获取 信息 和 下 发 指令 。 


USP 存 储 系统 后 端 可 以 连接 多 种 其 他 存储 系统 ， 从 而 将 它们 虚拟 化 


整合 。 所 以 ，USP 可 以 将 数据 从 后 端的 一 台 存 储 系统 迁移 到 另 一 台 存 储 
系统 ， 或 者 在 单 台 存储 系统 内 部 不 同 的 Tier 之 间 迁 移 。 目 前 USP 系 统 的 
分 级 迁移 只 能 够 做 到 手动 以 LUN 为 最 小 单位 的 迁移 。 


下 面 我 们 简要 介绍 一 下 HiCommand Tiered Storage Manager 的 迁移 配 
置 过 程 。 以 下 将 HiCommand Tiered Storage Manager 人 简称 为 HITSM。 


(1) 如 图 18-21 所 示 为 HTSM 的 主 界面 ，HTSM 可 以 同时 管理 多 台 
存储 系统 的 Tier 分 级 ， 左 侧 栏 中 只 显示 了 一 台 名 
为 “NY_Production_USP100” 的 存储 系统 ， 下 面 的 Storage ”Tiers 中 列 出 了 
当前 系统 中 的 所 有 已 制定 的 Tier。 在 窗口 右 侧 ， 我 们 单 击 Create Storage 
Tier 命 令 来 创建 一 个 新 的 Tier。 





图 18-21 HTSM 主 界面 





(2) 单 击 Create Storage ” Tier 命令 之 后 出 现 如 图 18-22 所 示 的 对 话 
框 。 在 Name 文 本 框 中 填 入 新 Tier 的 名 称 ， 然 后 单 击 Edit 按 钮 来 选择 符合 
条 件 的 存储 介质 。 








图 18-22 ”创建 新 Tier 





(3) 单 击 Edit 按 钮 之 后 出 现 如 图 18-23 所 示 的 对 话 框 。 在 Condition1 
下 拉 框 中 选择 过 滤 条 件 ， 本 例 中 选择 Capacity， 即 容量 ， 运 算 符 选 择 
>， 即 大 于 ， 数 值 填 入 6， 所 以 ，Condition1 的 过 滤 条 件 为 容量 大 于 6GB 
的 所 有 LUN。 单 击 Show Volume List 按 钮 (Volume 即 LUN ) ， 便 会 显示 
出 当前 系统 中 所 有 符合 条 件 的 LUN， 如 图 18-24 所 示 。 





图 18-23 ”选择 过 滤 条 件 图 18-24 ”符合 条 件 的 所 有 LUN 列 表 





(4) 单 击 Add ”Condition 按 钮 来 增加 男 一 条 过 小 条 件 。 我 们 选择 
RAID Level 为 RAID 5 类 型 并 且 磁 盘 数量 为 3D 十 1P 的 RAID 组 。 然 后 再 增 
加 一 个 条 件 ， 磁 盘 类 型 为 ATA 磁 盘 。 这 三 个 条 件 同 时 作用 ， 单 击 Show 
Volume List 按 钮 即 可 看 到 当前 所 有 We 人 条件 的 LUN 列 表 ， 如 
图 18-25 所 示 。HDS 给 Tier 提 供 了 多 种 条 件 ， 这 一 点 是 目前 其 他 存储 系统 
都 没有 做 到 的 。 as 而 Compllent 和 
3PAR 也 是 如 此 ， 下 文中 即 可 看 到 这 二 者 的 演示 。 











图 18-25 ”同时 符合 三 个 条 件 的 LUN 列 表 





(5) 单 击 OK 按钮 ， 返 回 到 创建 新 Tier 对 话 框 ， 此 时 过 滤 条 件 文本 
框 中 己 经 将 我 们 的 选择 条 件 翻 译 成 了 表达 式 自动 出 现 ， 如 图 18-26 所 
示 。 这 个 Tier 的 属性 就 是 : 容量 大 于 6GB 的 并 且 所 在 的 RAID 组 为 4 盘 
RAID 5 类 型 的 并 且 磁 盘 为 ATA 磁 盘 的 所 有 LUN。 








图 18-26 条件 翻译 为 表达 式 





(6) 单 击 OK 按钮 创建 这 个 Tier， 在 如 图 18-27 的 对 话 框 中 单 击 OK 
按钮 。 











图 18-27 确认 创建 新 Tier 














(7) 此 时 便 返 回 到 了 如 图 18-28 所 示 的 主 界面 。 可 以 看 到 此 时 新 创 
建 的 名 为 Low Cost-SATA Drives 的 Tier 已 经 在 列表 中 显示 了 。 窗 口 右 侧 
可 以 看 到 这 个 Tier 中 共有 两 个 LUN， 其 中 一 个 已 经 被 使 用 ， 另 一 个 未 被 
使 用 ， 可 以 作为 迁移 的 目标 。 








图 18-28 新建 的 Tier 显 示 了 出 来 








(8) 有 了 目标 Tier， 还 需要 选择 要 迁移 的 源 LUN。 单 击 Migration 


Groups 选 项 ， 显 示 出 如 网 18-29 中 窗口 右 侧 的 所 有 当前 已 经 创建 的 
Migration Group， 每 个 Group 中 可 以 包含 一 个 或 者 多 个 LUN。 本 例 中 我 
们 打算 迁移 一 个 已 经 存在 的 Group, “Internal ordering request system”， 
即 内 部 下 单 系统 所 使 用 的 LUN。 单 击 这 个 Migration Group 得 看 其 详细 信 
恩 ， 进 入 如 图 18-30 所 示 的 界面 。 可 以 看 到 这 个 Group 只 有 一 个 LUN， 而 
且 这 个 LUN 当 前 所 处 的 存储 介质 Tier 为 High “Performance 一 Mod 
Availability - RAID 5。LUN 的 容量 为 6.87GB， 与 方才 创建 的 Tier 中 那个 
未 被 使 用 的 LUN 容 量 相同 ， 所 以 可 以 迁移 。 











图 18-29 Migration Group 列表 图 18-30 ”Migration Group 详细 信息 


(9) 单 击 Close 按 钮 退出 到 图 18-29 所 示 的 界面 中 ， 单 击 待 迁移 
Group 左 侧 的 Migrate 按 钮 ， 进 入 如 图 18-31 所 示 的 窗口 。 这 里 列 出 了 所 有 
可 供 迁 移 的 目标 Tier。 其 中 有 两 个 不 能 被 选择 ， 因 为 其 剩余 空间 已 经 不 
能 够 容纳 源 LUN 了。 我 们 选择 方才 创建 的 Low Cost - SATA Drives 的 
Tier， 然 后 单 击 Next 按 钮 ， 进 入 如 图 18-32 所 示 的 窗口 。 


图 18-31 选择 目标 Tier 图 18-32 ”选择 源 和 目标 LUN 


(10) 选择 好 源 和 目标 LUN 之 后 ， 单 击 Next 按 钮 ， 进 入 如 图 18-33 
所 示 的 窗口 。 此 处 可 以 选择 立即 开始 执行 迁移 。 还 有 一 个 Erase 
remaining data on source volumes 的 选项 ， 如 果 义 选 了 这 个 选项 ， 那 么 当 
系统 迁移 完毕 之 后 ， 将 问 源 LUN 中 窗 新 写 入 0 以 消除 源 LUN 中 的 数据 以 
保证 较 高 的 信息 安全 等 级 。 











图 18-33 ”选择 是 否 立即 开始 执行 


(11) 单 击 Next 按 钮 进入 如 图 18-34 所 示 的 窗口 ， 为 一 个 Summary 窗 





口 ， 单 击 Confirm 按 钮 之 后 ， 系 统 便 会 根据 之 前 所 设 定 的 所 有 动作 来 执 
行 这 个 任务 了 。 迁 移 会 自动 在 后 台 执 行 ， 整 个 迁移 过 程 不 会 影响 源 LUN 
的 数据 访问 。 当 LUN 中 的 所 有 内 容 成 功 迁 移 到 目标 LUN 之 后 ， 系 统 会 做 
短暂 的 切换 ， 切 换 之 后 ， 所 有 只 能 对 源 LUN 的 IO 将 会 直接 发 送 给 目标 
LUN 执 行 ， 之 后 系统 根据 策略 可 以 删 把 源 LUN 或 者 履 凋 写 入 0 以 销毁 原 
有 数据 。 





图 18-34 _ Summary 窗口 





《12) 当 迁 移 成 功 完成 之 后 ， 再 次 单 击 对 应 的 Migration Group， 可 
以 发 现 当前 所 处 的 Tier 已 经 变 为 Low Cost ~ SATA Drives 了 ， 对 应 的 LUN 
也 是 目标 LUN， 如 图 18-35 所 示 。 


图 18-35 ”迁移 完成 之 后 的 状态 
6) 3PAR 


Adaptive Optimisation 为 3PAR 公 司 最 近 发 布 的 数据 分 级 管理 模块 ， 
其 实 这 个 模块 之 前 名 为 Dynamic Optimisation， 即 根据 策略 将 Sub- 
LUN (Chunklet，3PAR 的 叫 法 ) 分 布 到 不 同 的 RAID Level、 磁 盘 类 型 等 
存储 介质 中 ， 己 经 具有 了 HSM 的 锥 形 。 而 更 名 为 Adaptive Optimisation 
之 后 ， 变 成 了 正统 的 HSM， 增 加 了 Tier 的 概念 ， 形 成 了 真正 的 层次 。 


3PAR 存 储 产品 已 经 支持 SSD。Adaptive ”Optimisation 为 每 个 迁移 对 
象 提供 3 个 Tier， 每 个 Tier 可 以 赋予 不 同 的 属性 ， 比 如 磁盘 类 型 、RAID 
类 型 、 条 和 带 深度 以 及 磁盘 内 外 圈 等 。 根 据 Sub-LUN 〈1GB 大 小 ) 的 IO 热 
度 〈 每 GB 数 据 每 分 钟 的 IO 数量 ) 以 及 其 他 用 户 制定 的 策略 ， 系 统 可 以 
针对 每 个 Sub-LUN 在 策略 的 触发 下 在 这 3 个 Tier 之 间 动 态 迁 移 。 


7) Compellent 


Data Progression 是 Compellent 公 司 的 数据 分 级 迁移 软件 。Data 
Progression 可 以 在 存储 端 以 Block 为 粒度 进行 分 级 迁移 。 至 于 Block 有 具体 
为 多 大 尚 无 从 考证 。 下 面 对 Compellent 的 分 级 管理 进行 简要 演示 。 


(1) 如 图 18-36 所 示 ，Storage Profile 是 一 种 策略 定义 ， 每 个 Profile 
中 会 让 用 户 定义 3 个 Tier， 这 3 个 Tier 性 能 由 高 到 低 。 如 果 将 某 Profile 映 射 
给 某 个 LUN， 那 么 系统 会 自动 将 LUN 中 的 数据 根据 访问 热度 向 Profile 中 
定义 的 高 级 别 的 Tier 迁 移 。 











图 18-36 ”Profile 列 表 


(2) 在 Storage Profile 上 右 击 ， 从 弹出 的 快捷 菜单 中 选择 Create 
Storage Profile 命 令 ， 创 建 一 个 新 的 Profile， 如 图 18-37 所 示 。 


图 18-37 ”创建 新 Profile 








(3) 如 图 18-38 和 图 18-39 所 示 ， 每 个 Profile 包 含 3 层 Tier，Tier1 的 
性 能 需要 比 Tier2 高 ，Tier2 需 要 比 Tier3 高 。 可 以 看 到 “Compllent 在 每 个 
Tier 的 条 件 中 只 有 一 种 可 选 ， 即 RAID 类 型 和 磁盘 数量 。 


图 18-38” 设 定 Profile 中 的 3 层 Tier (1) 图 18-39” 设 定 Profile 中 的 3 层 Tier (2) 


(4) 选择 了 每 层 Tier 的 条 件 之 后 ， 出 现 如 图 18-40 所 示 的 对 话 框 ， 
为 这 个 Profile 起 一 个 名 字 。 








图 18-40 ”为 新 建 的 Profile 起 名 








(5) 名 字 填 好 之 后 单 击 OK 按 钮 ， 进 入 如 图 18-41 所 示 的 界面 中 。 


选中 待 迁移 的 LUN 〈 图 中 Volume 即 LUN ) ， 右 侧 显示 出 了 这 个 LUN 的 
详细 信息 。 











图 18-41 ” 待 迁 移 的 LUN 详 细 信 息 


(6) 如 图 18-42 所 示 ， 在 新 建 的 Profile 上 右 击 ， 从 弹出 的 快捷 菜单 
中 选择 Apply to Volumes 命 令 ， 出 现 如 图 18-43 所 示 的 对 话 框 。 


图 18-42 ”将 Profile 赋 予 给 LUN 图 18-43 ”选择 对 应 的 LUN 


(7) 在 图 18-43 所 示 的 对 话 杠 中， 选择 需要 对 应 这 个 Profile 的 
LUN， 单 击 OK 按 钮 之 后 ， 系 统 便 会 自动 根据 Profile 中 所 设 定 的 3 层 
Tier， 根 据 策略 及 IO 访问 热度 ， 在 这 3 个 Tier 之 间 自 动 的 动态 地 迁移 数据 
证 训 











此 外 ，Compellent 还 提供 Fast Track 技术 ， 即 系统 不 仅 可 以 将 数据 放 
到 对 应 介质 的 磁盘 驱动 器 中 ， 甚 至 还 可 以 将 数据 放 到 对 应 驱动 堪 中 的 不 
同 磁 道中 《外 圈 、 中 国 、 内 疾 ) 以 实现 更 细 粒 度 的 分 级 ， 非 常 牛 ! 


8) NetApp 








NetApp 对 分 级 存储 的 理解 似乎 与 其 他 厂商 不 尽 相 同 。 早 些 时 间 
NetApp 曾 宣称 分 级 存储 将 会 被 缓存 管理 所 取代 。NetApp 并 未 实现 传统 
意义 的 分 级 存储 。NetApp 的 “替代 ”做 法 是 在 存储 系统 控制 器 内 插 一 块 或 
几 块 PCIE 接 口 的 内 存 卡 ， 卡 上 插 多 条 SDRAM， 作 为 一 个 更 大 的 Cache 
而 存在 ， 内 部 使 用 软件 来 将 合适 的 数据 预 读 入 以 便 增加 命中 率 。 但 是 这 
个 附加 Cache 不 能 用 来 作为 写 缓存 ， 而 且 也 不 能 永久 保存 数据 ， 所 以 只 
能 够 用 来 作为 恋 绥 存 。 











这 种 技术 手段 虽说 可 以 增加 读 命中 率 ， 但 是 它 终 完 还 是 作用 在 
Cache 层 ， 并 非 作 为 一 块 硬盘 存在 ， 不 能 永久 保存 数据 ， 不 能 作为 写 组 
存 ， 容 量 有 限 ， 局 限 性 还 是 很 大 的 。 这 种 增加 Cache 的 方法 也 并 不 能 做 
到 物 尽 其 用 ， 比 如 ， 访 问 频 度 高 的 数据 可 能 依然 被 存放 在 低 性 能 的 
SATA 盘 中 而 同时 高 性 能 的 FC 盘 中 尚 有 大 量 的 剩余 空间 。 靠 增加 Cache 
来 提高 命中 率 ， 就 像 是 在 一 个 内 部 并 不 平衡 的 系统 中 强行 运 化 出 阳 气 ， 
入 而 久之 必 伤 元 气 。 比 如 ， 读 命中 率 增加 ， 读 速度 加 快 ， 那 么 主机 客户 
端 程序 在 处 理 完 数据 之 后 ， 需 要 写 回 保存 的 数据 生成 速度 也 惑 相 应 加 
快 ， 而 这 个 Cache 并 不 能 用 于 写 ， 那 么 写 数据 就 会 积压 在 系统 原本 的 
Cache 中 ， 造 成 后 并 更 加 繁忙 。 也 就 是 说 ， 一 开始 就 顾此失彼 失去 了 平 
衡 ， 那 么 后 来 也 必然 导致 不 平衡 ， 从 而 大 伤 元 气 。 然 而 笔者 相信 NetApp 
当前 的 做 法 只 是 一 种 不 得 已 ， 将 来 或 许 也 会 开发 真正 的 分 级 管理 模块 ， 
但 是 至 少 目前 来 讲 ，NetApp 在 数据 分 级 管理 领域 己 经 落后 了 。 























总 评 : ”目前 看 来 ， 各 个 厂商 所 实现 的 分 级 迁移 ， 远 远 没 有 达 
到 理想 目标 ， 所 能 够 设 定 的 条 件 过 少 ， 目 动 化 程度 不 够 高 ， 不 
够 智能 ， 提 供 开 发 接口 的 产品 很 少 。 要 想 达 到 ILM 的 最 终 目 
标 ， 还 有 很 长 一 段 路 要 走 。 





7. HSM 数据 分 级 产品 设计 样 例 


本 节 介 绍 一 个 作者 个 人 演绎 出 来 的 主机 端 HSM 软 件 设 计 。 国 内 存储 
软件 行业 在 智能 数据 分 级 管理 领域 基本 上 无 人 问津 ， 但 是 鉴于 最 近 SSD 
市 场 逐 渐 趋 于 成 熟 ， 作 者 个 人 预测 HSM 将 被 像 CDP、DR 一 样 被 火爆 的 
炒作 一 把 ， 其 价值 将 会 在 几 年 之 内 完全 榨取 出 来 。 在 存储 硬件 方面 ， 国 
内 存储 行业 基本 上 没有 掌握 底层 高 端 主流 技术 ， 但 是 在 存储 软件 市 场 
上 ， 国 内 的 广 商 还 是 比较 有 作为 的 ， 虽 然 有 不 少 也 是 在 OEM， 但 是 自 











研 的 也 有 很 多 。 所 以 ,希望 国 产 的 存储 硬件 和 软件 早日 脱 刹 而 出 占领 市 
场 。 


SSD 是 近年 来 存储 市 场 比较 热门 的 主题 ， 但 是 企业 对 SSD 的 兴趣 好 
像 一 直 不 如 个 人 浓烈 ， 一 方面 由 于 成 本 的 原因 ， 企 业 如 果 选 择 使 用 
SSD， 则 需要 至 少 购买 能 做 成 一 个 RAID Group 数量 的 SSD 硬 盘 ， 这 是 一 
笔 不 少 的 开销 ; 另 一 方面 ， 由 于 SSD 设 计 原 因 导 致 其 寿命 远 低 于 机 械 硬 
盘 ， 而 企业 环境 下 的 数据 IO 很 频繁 ， 无 疑 会 更 快 地 让 一 块 SSD 寿 终 正 
寝 ; 再 一 方面 ， 即 便 真 的 使 用 上 了 SSD， 要 将 哪些 数据 迁移 到 SSD 上 
呢 ? 用 什么 方法 和 标准 来 判断 哪些 数据 需要 放 到 SSD 上 呢 ? 如 果 今 天 将 
某 份 数据 迁移 到 了 SSD， 而 过 一 段 时 间 之 后 这 份 数 据 变 得 不 再 重要 了 ， 
那么 又 得 迁移 走 ， 换 其 他 重要 的 数据 迁移 到 SSD， 这 样 维护 成 本 是 不 是 
太 高 了 呢 ? 面 对 这 一 系列 的 问题 ， 使 得 企业 在 选择 和 使 用 SSD 的 问题 上 
犹豫 不 定 。 














有 了 这 种 市 场 需求 ， 就 可 以 针对 需求 ， 依 附 SSD 和 已 有 的 ILM、 
HSM 理 论 基础 ， 来 设计 一 球 数 据 分 级 迁移 管理 软件 。 这 个 软件 模块 运行 
于 主机 端 ， 在 所 有 主机 端的 LUN 或 者 文件 系统 之 间 做 基于 块 或 者 文件 级 
别 的 数据 分 级 管理 。 现 在 的 服务 器 一 般 自 喘 都 有 具有 8 个 以 上 的 SAS 槽 
位 ， 兼 窑 SATA 人 硬盘 和 SATA 口 SSD 硬 盘 ， 所 以 ，SSD 硬 盘 只 要 插 在 主机 
本 地 即 可 ， 这 样 就 不 需要 任何 额外 的 投入 。 不 管 这 台 主 机 在 使 用 何 种 类 
型 的 、 何 种 厂商 的 、 何 种 规模 的 外 部 存储 设备 ， 这 些 设备 到 了 主机 一 层 
都 作为 LUN 存 在 ， 而 这 个 HSM 软 件 模块 就 在 这 些 外 部 LUN 和 本 地 SSD 生 
成 的 LUN 或 者 Space Pool 之 间 做 文章 。 比 如 根据 IO 热度 将 外 部 某 个 LUN 
中 的 某 个 区 域 迁 移 到 SSD 的 空间 内 ， 当 热度 降低 之 后 ， 再 迁移 回来 。 这 
个 模块 可 以 做 到 文件 级 和 块 级 的 迁移 管理 ， 底 层 使 用 文件 层 和 卷 层 的 过 
滤 驱 动 设计 。 








另外 ， 使 用 SSD 做 RAID， 由 于 RAID 的 Parity 分 布 很 均匀 ， 导 致 
RAID 组 中 每 个 硬盘 在 一 个 相当 长 的 时 间 内 接受 的 IO 也 是 大 致 相等 的 ， 
而 SSD 并 非 机 械 硬盘 ， 所 以 其 不 会 出 现 因为 机 械 问 题 导致 的 故障 。 其 主 
要 故障 原因 就 是 在 于 写 IO 次 数 导致 的 寿命 耗 尽 ， 如 果 一 个 RAID 组 内 的 
所 有 SSD 都 差不多 接受 相同 数量 的 IO， 那 么 它们 的 寿命 也 会 差不多 ， 一 
旦 某 个 时 间 段 内 某 RAID 组 相继 损坏 两 块 或 者 多 块 SSD， 那 么 其 上 数据 
就 丢失 了 。 





为 了 避免 这 个 问题 ， 在 设计 SSD 的 RAID 算 法 时 要 引入 一 些 额 外 考 
虑 ， 需 要 将 Parity 不 均匀 地 分 布 ， 要 让 某 块 SSD 先 坏 掉 ， 所 以 在 这 块 盘 
上 应 放置 更 多 的 Pairty。 坏 掉 更 换 新 盘 之 后 ， 还 要 将 其 上 多 放置 的 Pairty 
迁移 到 另 一 块 SSD， 因 为 如 果 新 盘 有 更 多 的 IO 负载 ， 那 么 其 很 有 可 能 加 
速 衰老 ， 赶 上 其 他 盘 ， 可 能 与 其 他 盘 同时 坏 挤 ， 所 以 需要 将 额外 的 负载 
迁移 到 另外 一 块 盘 ， 而 这 块 SSD 会 是 下 一 块 将 要 坏 掉 的 ， 然 后 依 此 类 
推 。 主 机 端 运 行 的 这 个 HSM 软 件 模块 可 以 考虑 这 一 点 ， 实 现 软 RAID 而 
不 使 用 主机 端的 RAID 功 能 ， 也 就 是 让 主机 问 将 本 地 插 的 SSD 透 传 上 
来 。 


这 个 软件 可 以 开发 针对 个 人 、 人 企业、 数据 中 心 的 版 本 。 不 同 版 本 包 
含 不 同 的 功能 模块 。 


说 明 :; ”以 上 仅 为 个 人 拙 见 ， 希望 国产 存储 软件 越 做 越 剖 ， 赶 
超 西 方 ! 








8. 判断 你 是 否 需要 部 着 HSM 





忆 的 来 讲 ， 如 果 你 公司 的 存储 系统 正在 面临 如 下 间 题 ， 那 么 恐 避 你 
真 的 需要 对 数据 进行 分 级 了 


O 





a 数据 量 庞大 ， 存 储 设 备 众 多 。 

a 性 能 分 布 不 均衡 ， 有 些 设 备 长 期 满 负 蓓 运行 ， 性 能 低下 ， 而 有 些 
则 长 期 处 于 空 亲 状态。 或 者 同一 台 设 备 上 的 LUN 负 载 极 度 不 均衡 
等 情况 。 

ms 有 不 同 种 类 的 存储 介质 ， 比 如 SATA、EFC、SAS、 磁 带 库 等 。 








对 于 一 个 大 企业 来 讲 ， 数 据 总 是 不 断 增 长 的 ， 而 在 应 对 数据 增长 的 
时 候 ， 相 关 人 员 不 可 能 做 到 非常 准确 地 预测 ， 从 而 做 出 准确 的 采购 计 
划 ， 而 这 就 使 得 企业 IT 存储 系统 内 的 资源 不 可 能 做 到 与 企业 的 需求 准确 
地 对 应 ， 这 样 的 话 ， 就 产生 了 溪 费 ， 或 者 性 能 分 布 不 均衡 的 情况 ， 导 致 
生产 成 本 增加 。 基 于 上 面 几 个 因 系 ， 可 以 利用 一 些 监 控 工 具 来 监控 每 台 
存储 设备 的 利用 率 等 情况 ， 比 如 ， 调 查 一 周 工作 日 之 内 的 统计 结果 ， 来 
判断 系统 总 体 的 性 能 分 布 情况 。 











另外 ， 你 企业 当前 的 存储 系统 架构 也 是 一 个 重要 的 判断 因素 。 你 需 
要 明白 当前 你 的 存储 架构 的 现状 ， 比 如 是 否 有 很 多 信息 孤岛 ?所 有 的 主 
机 是 否 共 享 一 台 或 者 少数 几 台 存储 设备 ?其 次 ， 你 还 要 明确 你 对 数据 分 
级 的 最 终 期 望 ， 是 想 在 少数 几 台 主 存储 设备 上 实现 分 级 ， 还 是 想 在 全 局 
存储 系统 内 实现 分 级 ? 这些 决 定 都 会 影响 最 终 的 部 车 效 果 。 











如 琳 既 想 要 在 全 局 范围 内 实现 分 级 ， 而 你 的 系统 内 不 同 三 商 的 设备 
过 多 ,信息 孤岛 也 过 多 的 话 ， 那 么 实现 起 来 就 是 一 件 难 度 很 大 的 工程 
了 ， 需 要 大 动 干戈 ， 伤 筋 动 骨 。 所 以 ， 这 就 需要 根据 成 本 预算 以 及 投入 
产 出 的 比例 来 做 综合 判断 。 











9. 如 何 选 择 对 应 的 HSM 产 品 


对 于 企业 而 言 ， 实 现 HSM 可 以 有 多 种 方法 。 比 如 你 可 以 人 为 来 判断 


哪些 数据 是 热点 数据 ， 从 而 将 对 应 的 文件 手动 迁移 到 高 性 能 存储 介质 

中 ;同样 ， 你 也 可 以 将 一 些 不 需要 的 数据 ， 用 备份 的 形式 来 备份 到 磁带 
中 永久 存放 。 然 而 ， 对 于 前 者 来 讲 ， 你 所 能 够 操作 的 目标 只 能 是 文件 ， 
因为 你 只 可 以 看 到 文件 ， 不 幸 的 是 ， 在 你 手动 迁移 文件 的 时 候 ， 任 何人 
都 不 能 访问 这 些 文件 ， 同 时 ， 文 件 迁 移 完毕 之 后 ， 你 还 需要 将 对 应 的 目 
录 跤 径 指 问 新 的 存储 位 置 。 这 一 切 部 圾 要 复杂 的 人 为 操作 ， 而 且 操 作 之 
前 必须 制定 计划 以 便 最 大 程度 地 降低 对 应 用 系统 的 影响 。 而 且 ， 如 果 一 
段 时 间 之 后 ， 你 发 现 这 些 数据 的 热点 期 已 过 ， 需 要 再 迁移 回来 ， 那 么 你 
号 需 要 再 次 执行 相反 的 动作 。 这 无 疑 是 个 很 大 的 挑战 ， 对 操作 人 员 的 技 
术 水 平 要 求 非常 高 。 





所 以 ， 需 要 一 种 上 自动 化 程度 较 高 ， 而 且 知 能 化 程度 较 高 的 HSM 产 品 
来 协助 企业 完成 数据 分 级 。 在 选择 一 球 HSM 产 品 的 时 候 ， 你 可 以 根据 上 
面 所 讲 的 HSM 分 类 来 选择 ， 然 后 按照 类 别 再 来 选择 对 应 的 产品 。 比 如 ， 
你 是 想 实 现 简单 的 文件 自动 迁移 ， 还 是 想 实 现 可 定制 复杂 策略 的 块 级 迁 
移 ? 是 想 在 主机 端 实现 迁移 ， 还 是 存储 问 实 现 ? 是 想 在 全 局 范围 内 实现 
还 是 某 台 设备 上 实现 ? 





目前 来 讲 ， 大 多 数 广 商 的 数据 分 级 产品 几乎 都 是 嵌入 其 自身 的 硬件 
的 ， 比 如 EMC 的 FAST， 只 有 使 用 了 EMC 对 应 的 存储 产品 ， 才 可 以 部 
和 车 。3PAR、Compellent 等 公司 的 产品 ， 也 都 是 艇 入 它们 上 自身 的 阵列 产品 
中 的 基于 块 级 别 的 分 级 模块 ， 也 就 是 说 ， 如 果 你 的 系统 中 没有 这 些 产 
品 ， 那 么 惑 不 可 能 用 它们 的 方案 来 部 署 数据 分 级 系统 了 。 





万 笠 的 是 ， 市 场 上 的 一 些 带 有 虚拟 化 功能 的 存储 设备 ， 比 如 HDS 公 
司 的 USPV 系 列 设备 ， 它 可 以 虚拟 化 后 端 大 部 分 主流 厂商 的 存储 设备 ， 
然后 在 此 基础 上 实现 分 级 操作 。 但 是 这 样 的 话 ， 部 署 分 级 的 同时 还 需要 
投入 虚拟 化 这 块 ， 就 有 点 买 楼 还 珠 的 意思 了 ， 不 过 如 果 企 业 同时 需要 音 








蜀 这 两 种 技术 的 时 候 ， 那 么 选择 这 种 方案 无 疑 是 再 好 不 过 的 了 。 


另外 一 种 选择 就 是 使 用 主机 器 的 分 级 工具 ， 比 如 IBM 的 Tivoli 
HSM， 虽 然 它 只 是 一 个 简单 的 文件 迁移 工具 ， 但 由 于 运行 在 主机 端 ， 所 
以 无 须 考虑 后 端 设 备 的 多 样 性 。 但 是 所 带 来 的 局 限 性 就 是 需要 在 所 有 和 需 
要 分 级 的 主机 上 都 安装 客户 端 。 








对 于 系统 中 的 NAS 设 备 和 SAN 设 备 混 合 存在 的 情况 ， 如 果 要 在 这 两 
种 设备 之 间 做 分 级 迁移 ， 那 么 可 供 选 择 的 唯一 产品 就 是 主机 端的 分 级 产 
品 了 。 一 些 NAS 虚 拟 化 设备 比如 F5 公 司 茶 节 产 品 也 可 以 做 到 在 后 端 所 有 
NAS 设 备 之 间 做 分 级 迁移 ， 但 是 这 只 是 针对 NAS， 而 且 分 级 策略 也 不 是 
很 智能 、 很 详细 。 








总 体 来 讲 ， 企 业 如 果 要 在 现 有 的 系统 架构 下 藤 入 式 地 部 敬 HSM， 那 
么 难度 是 相当 大 的 ， 而 且 可 供 选 择 的 产品 非常 有 限 。 但 是 如 果 企 业 想 重 
新 建立 一 套 带 有 数据 分 级 的 新 存储 系统 ， 而 忽略 原 有 的 存储 系统 ， 那 么 
可 供 选 择 的 产品 就 一 下 子 变 得 很 多 了 ， 可 以 咨询 前 文 所 列 出 的 这 些 广 
商 ， 他 们 一 定 会 给 你 一 个 对 应 的 合适 的 方案 。 

















10. 存储 厂商 应 该 怎么 做 HSM 


在 上 面 的 章节 中 我 们 可 以 看 出 ， 目 前 这 些 广 丙 的 所 谓 HSM 产 品 ， 其 
实 并 未 真正 做 到 HSM 的 核心 层次 ， 只 是 在 表面 上 “意思 ”一 下 而 已 。 对 于 
IO 属 性 的 判断 仅 限于 少数 条 件 ， 有 些 甚 至 根本 不 提供 自动 迁移 朱 略 ， 完 
全 靠 用 户 手动 将 整个 LUN 迁 移 到 目标 Tier， 这 从 根本 上 讲 连 HSM 的 边 都 
不 沾 了 。 


如 图 18-3 中 所 示 的 Service Level Objectives (SLO) 是 一 个 非常 复杂 


而 且 难 以 形成 标准 的 东西 ， 业 界 目 前 尚未 对 STO 有 相应 的 标准 。 由 于 IO 
属性 多 种 多 样 ， 不 同 IO 属 性 之 间 可 以 相互 组 合 ， 而 且 同 一 种 应 用 在 不 同 
的 规模 、 不 同 的 时 段 都 可 以 有 不 同 的 SLO 需 求 ， 再 加 上 前 文中 所 说 的 政 
治 和 人 为 因素 ， 所 以 这 样 看 下 来 ，SLO 是 一 个 具有 颇 多 维度 的 东西 。 正 
因 如 此 ， 存 储 厂商 目前 不 可 能 做 到 HSM 的 理想 状态 ， 充 其 量 多 给 出 一 些 
细节 判断 条 件 ， 比 如 Symantec 的 SF 平台 所 集成 的 HSM 模 块 那样 。 














要 真正 地 做 到 按照 SLO 来 分 配 Tier， 首 先 要 有 具体 的 SLO， 目 前 连 
SLO 本 身 都 还 没有 。 所 以 ，HSM 下 一 步 需要 推进 的 就 是 定义 SLO 接 口 标 
准 ， 用 SLO 作 为 连接 应 用 层 与 存储 层 的 桥梁 ， 然 后 在 应 用 层 来 实现 HSM 
策略 。 迁 移 也 由 应 用 层 根据 策略 来 自动 发 起 ， 或 者 由 人 自己 发 起 ， 因 为 
只 有 应 用 层 和 人 才能 够 完全 知道 自己 所 产生 的 哪些 数据 需要 何 种 性 能 或 
者 特性 的 存储 空间 。 


11. 从 存储 分 级 到 存储 系统 全 局 资源 分 级 /分 配 





信息 生命 周期 管理 和 HSM 目 前 被 广泛 认识 为 只 作用 在 磁盘 以 下 的 层 
次 中 ， 对 磁盘 及 其 下 层 的 存储 介质 进行 分 级 管理 ， 但 是 却 忽略 了 磁盘 以 
上 的 层次 ， 比 如 RAM、CPU Cache。 目前 多 数 操作 系统 对 RAM 的 管理 
都 是 大 同 小 异 的 ， 而 且 几 乎 都 是 采用 全 局 统一 标准 来 管理 ， 比 如 分 配 多 
少 内存 、 多 大 的 Page 等 。 





然而 ， 对 于 存储 系统 来 说 ， 它 同时 接受 多 个 不 同 客户 端的 多 种 不 同 
类 型 的 IO 流 。 到 的 应 当 按 照 什么 样 的 条 件 来 分 配 缓存 资源 呢 ? 全 局 还 是 
分 区 ? Page 回 收 到 搬 应 当 按 照 怎 样 的 条 件 来 触 友 ? 这 些 部 是 需要 仔细 研 
完 的 。 





提示 : 以 上 这 些 都 属于 存储 QOS (Quality of Service) 的 范 





畴 ， 诸 如 EMC、HDS 等 厂商 都 有 对 应 的 产品 来 实现 QOS， 有 具体 
可 见 后 面 的 章节 。 





12. Tier 和 Cache 之 争 





目前 来 讲 ， 使 用 SSD 作 为 一 个 Tier 是 大 多 数 厂商 都 选用 的 方法 ， 而 
有 些 三 商 则 使 用 SSD 或 者 Flash 介 质 作为 一 个 大 的 缓存 来 使 用 。 典 型 代表 
就 是 NetApp。 





很 早 的 时 候 NetApp 就 对 SSD 抱 有 疑虑 ， 我 记得 当时 其 他 三 商 已 经 在 
着 手 开 发 动态 数据 分 级 了 ， 而 NetApp 却 犹豫 的 很 ， 最 终 推出 一 块 叫 做 
Performance Acceleration Module (PAM) 的 PCI-E 接 口 卡 ， 专 用 于 
FAS3100 系 列 。 一 开始 其 上 是 插 DDR SDRAM 内 存 条 的 ， 后 来 也 有 Flash 
颗粒 版 本 的 了 。WAFL 虽 然 是 个 很 有 特色 的 文件 系统 ， 但 是 其 所 存在 的 
问题 也 是 不 可 小 视 的 ， 也 束 是 经 典 的 Sequential Read After Random Write 
的 问题 ， 即 本 来 逻辑 上 连续 的 块 ， 被 WAFL 处 理 之 后 底层 却 变 得 不 连续 
了 ， 这 样 在 连续 地 址 读 IO 的 情况 下 ， 底 层 却 表现 为 随机 IO 的 行为 ， 从 而 
影响 性 能 。PAM 卡 的 推出 可 能 也 有 这 方面 原因 。 其 实 所 有 文件 系统 多 少 
都 会 有 这 种 问题 ， 只 不 过 WAEFL 更 加 严重 ， 而 且 WAEL 将 LUN 也 当做 一 
个 文件 ， 这 样 的 话 对 于 本 该 比较 刚性 Block 访 问 也 变 得 左 绕 右 绕 ，IO 路 
径 不 等 长 ，IO 延 迟 变 得 很 难 预测 。 





那么 完 竟 为 何 NetApp 不 使 用 SSD 来 解决 性 能 问题 ， 或 者 自己 也 开发 
目 动 分 级 存储 模块 呢 ? 我 猜测 ， 这 与 其 WAFL 的 原理 有 很 大 关系 。SSD 
这 东西 ， 所 有 人 看 到 它 的 表现 ， 一 定 部 是 竖 起 大 拇指 的 ， 但 是 我 估 摸 看 
唯 独 NetApp 对 SSD 具 有 那么 一 点 点 排斥 心理 ， 为 何 呢 ? 





首先 ，SSD 的 出 现 ， 让 WAFL 的 那 一 套 写 加 速算 法 有 点 挂 不 住 了 ， 





包括 全 重 定向 写 、 尽 力 整 条 写 等 针对 机 械 磁 盘 所 作 的 大 量 优化 ， 随 着 

SSD 的 出 现 ， 一 切 都 解决 了 ， 那 么 WAFL 这 一 套 势必 在 SSD 面 前 就 显得 
白费 了 ， 这 一 定 让 NetApp 很 难受 的 ， 其 实 NetApp 一 直 都 难受 ， 即 便 是 

使 用 机 械 盘 ，WAFL 依 然 面 临 着 Sequential Read After Random 
Write (SRARW) 问题 ， 早 就 在 研究 新 架构 的 WAFL 了 ， 比 如 是 否 可 以 
支持 RAID 5 而 不 是 RAID 4， 是 否 可 以 不 再 重 定 向 写 了 等 等 。 但 是 对 于 
WAFL 这 样 一 个 复杂 而 庞大 的 架构 来 讲 ， 罕 一 发 会 动 全 身 ， 不 是 那么 好 
改革 的 了 。 











第 二 ，WAFL 的 重 定 问 写 措施 ， 会 迅速 耗 太 SSD 上 的 剩余 空间 。 伐 
点 SSD 的 人 都 知道 ，SSD 上 自己 内 部 会 去 记录 哪些 page 存 有 数据 ， 哪 些 没 
有 ， 这 么 做 是 为 了 损耗 平衡 算法 ，SSD 内 部 也 会 有 大 量 的 重 定向 写 操 
作 ， 其 做 法 与 WAFL 类 似 ， 但 是 WAFL 这 么 做 是 为 了 方便 地 快照 与 整 条 
写 ，SSD 这 么 做 纯粹 是 为 了 损耗 平衡 ， 不 管 怎么 样 ， 这 两 者 是 重复 和 部 
分 冲突 了 。 另 外 ，WAEFL 不 断 地 写 到 空余 位 置 ， 那 么 SSD 上 的 “曾经 写 过 
多 少 ” 这 个 高 水 位 线 就 会 迅速 达到 顶峰 ，SSD 内 部 剩余 空间 迅速 降低 到 
最 低 值 ， 严 重 影响 SSD 的 性 能 ， 而 WAFL 的 作用 原理 又 不 可 能 实时 的 将 
SSD 中 的 “垃圾 ? 氧 回 收回 来 ， 因 为 WAFL 从 本 质 上 讲 可 以 认为 是 无 时 无 
刻 不 在 产生 垃圾 《〈 重 定向 写 之 后 ， 以 前 的 块 便 是 空 亲 块 了 ， 但 是 SSD 却 
无 法 感知 文件 系统 层面 的 空闲 块 ， 依 然 认 为 是 有 用 块 ) ， 它 根本 来 不 及 
回收 的 ， 况 且 WAFL 内 部 的 两 层 FS 之 间 已 经 为 了 忙活 着 回收 空间 而 做 了 
大 量 复杂 流程 了 。 如 果 说 SSD 让 WAEFL 的 优化 变 得 价值 全 无 ， 这 一 点 还 
可 以 容忍 ， 但 是 如 果 WAFL 想 用 SSD 而 眼看 着 效果 不 好 ， 那 么 就 真 的 没 
了 











第 三 ， 我 们 退 一 步 讲 ， 就 算 WAFL 会 很 快 耗 尽 SSD 的 剩余 空间 到 最 
低 值 (也 就 是 SSD 三 商 隐 藏 的 那 部 分 为 了 保证 性 能 而 预 留 的 剩余 空间 ， 


比如 100GB 的 SSD 其 实 是 有 128GB 物 理 空 间 的 ) ， 效 果 再 不 好 ， 但 是 也 
比 机 械 硬 盘 要 快 ， 所 以 NetApp 只 能 退 而 求 其 次 将 就 着 上 SSD 了 。 还 有 最 
重要 的 一 点 ， 别 忘 了 ，SSD 目 前 的 容量 还 太 小 ， 如 果 上 SSD， 会 有 两 种 
用 法 ， 一 种 就 是 直接 将 SSD 当 做 普通 盘 来 用 ， 做 RAID， 做 Aggregate， 
做 WAFL， 然 后 做 Volume， 做 LUN 或 者 目录 的 Exports。 但 是 这 种 做 法 
适用 的 场景 很 少 ， 比 如 一 部 分 小 容量 的 数据 却 要 求 极 高 的 访问 速度 ， 那 
么 没有 问题 ， 这 种 做 法 可 以 满足 。 但 是 如 果 遇 到 短 尾 型 应 用 的 数据 访问 
场景 ， 大 量 的 数据 却 只 有 一 部 分 为 热点 ， 那 么 此 时 你 将 所 有 数据 都 放 到 
SSD 上 ， 显 然 是 得 不 偿 失 ， 此 时 自然 就 需要 有 一 种 动态 的 细 粒 度 的 热点 
数据 分 级 解决 方案 了 ， 这 也 是 目前 几乎 所 有 存储 厂商 都 在 搞 的 技术 ， 而 
且 主 流 厂商 也 都 推出 了 各 自 的 产品 了 。 而 我 们 回来 看 NetApp， 它 何尝 不 
想 推 出 自己 的 动态 分 级 方案 ? 它 很 难受 ， 为 什么 昵 ?WAFL 如 果 是 老 
虎 ， 那 么 NetApp 可 以 说 已 经 骑 虎 难 下 了 。 想 在 WAFL 上 引入 动态 分 级 子 
模块 ， 不 是 那么 容易 的 。 动 态 分 级 子 模块 包含 至 少 两 个 亚 模块 : 一 个 是 
热点 数据 监控 、 统 计 模块 ， 另 一 个 是 数据 迁移 模块 。 监 控 和 统计 子 模 
块 ， 可 以 作为 一 个 旁 路 模块 存在 ， 不 会 对 现 有 的 任何 FS 架构 产生 太 大 影 
啊 ， 这 个 WAFL 做 起 来 没有 问题 ， 但 是 数据 迁移 模块 ， 这 对 WAFL 来 
讲 ， 又 很 难受 了 。WAFL 不 按 常理 出 牌 ， 与 其 他 传统 FS 不 同 ， 总 是 去 重 
定向 写 ， 改 一 改 就 动人 全身， 所 以 从 技术 上 讲 ， 实 现 动态 分 级 还 是 太 费 
劲 ， 风 险 也 很 大 ， 需 要 测试 很 长 时 间 ， 所 以 我 推测 这 也 是 NetApp 迟 迟 没 
有 推出 动态 分 级 的 可 能 原因 之 一 吧 。 














所 以 我 估计 ，NetApp 一 开始 就 定 下 了 基调 ，SSD 目 前 来 讲 就 作为 大 
缓存 的 角色 而 存在 。 可 以 看 到 其 新 发 布 的 FASx200 系 列 ， 最 高 规格 的 
FAS6280 已 经 可 以 使 用 8TB FLASH 的 PAM 卡 了 ， 当 然 ， 需 要 插 多 块 
PAM 卡 来 堆 芭 成 这 么 高 的 容量 ， 而 且 两 个 控制 器 上 的 PAM 卡 规格 必须 
对 称 ， 成 双 成 对 出 现 ， 而 不 能 够 只 插 一 组 卡 让 全 局 使 用 。 


那么 Tier 和 Cache 这 两 种 针对 SSD 的 用 法 ， 到 底 哪 个 强 哪个 弱 呢 ?我 
们 来 比较 一 下 。 绥 存 是 实时 预 读 ， 有 很 大 的 乱 猜 的 成 分 ， 而 Tier 是 长 时 
间 后 台 监 测 然 后 只 迁移 相对 恒久 热点 ， 带 有 明显 的 目标 ， 能 发 现 长 期 的 
热点 。 所 以 Cache 中 的 数据 会 随时 迁 入 迁 出 ， 而 Tier 中 的 数据 迁 入 迁 出 频 
率 相对 Cache 要 低 得 多 ， 可 以 认为 Cache 是 心急 火 烷 ，Tier 则 是 慢 工 出 细 
活 。 并 且 Tier 是 将 数据 直接 迁移 到 SSD， 但 是 SSD 用 作 Cache 的 话 目 前 厂 
商 的 做 法 一 般 是 只 支持 对 读 IO 数 据 进行 缓存 ， 写 数据 不 缓存 ， 这 样 就 不 
能 加 速写 了 。 


但 是 也 不 能 一 概 而 论 ， 作 为 Cache 使 用 也 不 一 定 非 要 使 用 传统 的 
Cache 算 法 ， 完 全 也 可 以 使 用 更 精细 的 热点 监控 和 数据 精细 复制 的 算 
法 ， 可 能 算法 没有 Tier 那 么 考究 ， 带 有 更 加 激进 的 性 质 。 到 底 使 用 Tier 
还 是 Cache， 得 根据 应 用 场景 来 综合 判断 ， 有 了 时候 并 不 能 说 谁 优 于 谁 。 
比如 读 多 写 少 的 环境 ， 则 可 以 选用 Cache 方 式 。 最 理想 的 一 种 解决 办 法 
就 是 ， 同 时 支持 Cache 或 者 Tier 模 式 ， 而 且 可 以 随时 触发 或 关闭 Tier 模 
2 





13. 数据 分 级 管理 之 轮回 论 


我 们 都 知道 几乎 所 有 操作 系统 对 内 存 的 管理 ， 都 使 用 Virtual 
Memorty 方 式 ， 用 户 看 到 的 空间 并 不 一 定 与 物理 空间 一 一 对 应 ， 操 作 系 
统 对 物理 内 存 实现 了 Thin Provision， 比 如 明明 只 有 2GB， 程 序 却 可 以 使 
用 申请 3GB 的 空间 。 为 了 弥补 这 个 弥 天 大 谎 ， 操 作 系 统 只 好 使 用 拆 东 墙 
补 西 墙 的 方式 ， 在 硬盘 上 创建 一 个 Swap 分 区 或 者 Page 文 件 ， 将 这 块 空间 
也 作为 Virtual Memory 的 空间 。 当 物理 内 存 空 间 剩 余 到 一 定 国 值 时 ， 操 
作 系 统 将 物理 内 存 中 不 经 党 被 访问 的 Page 进 行 Page Onut 操 作 写 入 磁盘 以 
腾 出 物理 内 存 空间 ， 而 一 旦 程序 需要 访问 一 个 处 于 Page 文 件 中 的 Page， 











那么 操作 系统 执行 Page Im 过程 读 入 对 应 的 Page 到 内 存 。 操 作 系 统 的 这 种 
将 不 常 被 访问 的 数据 迁移 到 Page 文 件 中 的 做 法 ， 束 是 一 种 Tier 分 级 操 
作 。 


纵 观 图 18-5， 我 们 可 以 发 现 ， 在 CPU Cache、RAM、Disk 这 三 者 之 
间 ， 操 作 系 统 的 Memory Mamager 会 负责 将 数据 在 三 者 之 则 做 迁移 ， 但 
是 Disk 自 号 以 及 Disk 之 下 的 所 有 层次 ， 损 作 系 统 却 没 有 提供 任何 模块 在 
这 些 层次 之 间 做 数据 迁移 。 所 以 ， 为 了 弥补 这 块 缺失 ，HSM 的 催生 是 一 
个 完全 必然 的 结果 。HSM 并 不 是 一 个 新 东西 ，HSM 其 实 是 IBM 用 于 在 
20 世 纪 中 晚期 的 BM 大 型 机 上 的 一 种 技术 ， 适 配 各 种 慢 速 存储 介质 。 同 
时 代 或 者 更 晚 的 一 些 主机 系统 比如 Alpha/VMS 也 都 在 使 用 这 种 技术 。 





其 实 对 于 外 部 存储 系统 的 Thin Provision 十 Tier， 其 本 质 与 操作 系统 
对 内 存 的 管理 方式 完 完 全 全 是 一 回 事 。 其 实 计算 机 系统 内 的 很 多 技术 ， 
都 表现 为 一 种 轮回 和 藤 套 ， 这 种 例子 在 本 书 其 他 章节 还 有 更 多 。 这 种 轮 
回 和 骨 套 ， 看 似 是 人 类 智 意 使 然 ， 其 实 是 世界 之 本 质 ， 也 就 是 阴阳 使 
然 ， 阴 阳 变 化 的 过 程 就 是 一 个 轮回 的 过 程 ， 分 分 合 合 ， 而 阴阳 不 断 的 登 
加 过 程 就 是 一 个 组 套 过 程 ， 一 层 层 的 底层 逻辑 组 成 更 高 层 的 逻辑 ， 而 这 
些 逻 辑 之 间 的 共性 ， 束 是 阴阳 轮回 岁 套 。 而 在 发 明 新 技术 的 过 程 中 ， 先 
想 一 想 是 否 可 以 基于 已 经 存在 的 技术 的 设计 思想 来 做 一 个 模拟 ， 可 能 就 
会 大 大 降低 设计 成 本 。 笔 者 之 前 在 做 某 项 目的 时 候 ， 曾 经 过 到 过 这 样 一 
件 事 : 某 程序 员 为 了 解决 某 个 问题 ， 设 计 了 一 套 代 码 ， 非 常 便捷 地 解决 
了 问题 。 但 是 最 后 男 一 同事 在 读 代码 的 时 候 却 发 现 ， 呈 ， 这 不 是 
Windows MFC 下 的 某 个 代码 模块 么 ? 原来 该 程序 员 自 己 写 出 了 一 个 
MFC 早 已 写 好 的 封装 代码 。 




















14. 星星 之 火 可 以 煤 原 一 一 火星 高 科 MSP 数 据 分 级 中 间 件 平台 





上 文 曾经 提 到 过 ， 目 前 厂商 的 HSM 产 品 基 本 上 只 考虑 了 后 端 性 能 方 
面 ， 而 基本 忽略 了 人 为 因素 以 及 其 他 更 多 的 SLO， 造 成 迁移 引擎 在 进行 
所 谓 “ 智 能 ”迁移 的 过 程 中 只 有 一 个 指挥 棒 ， 那 就 是 访问 频 度 。 这 一 点 其 
实 也 无 可 厚 非 ， 从 某 种 角度 来 讲 ， 在 一 个 SSD 一 FC/SAS 一 SATA 的 层级 
组 中 ,不管 数据 处 于 何 种 层级 ， 它 们 的 访问 速度 差别 并 不 像 磁盘 到 磁带 
这 种 差距 ， 加 上 磁盘 上 层 路 径 各 处 的 缓存 ， 到 了 应 用 层 之 后 ， 这 种 差距 
会 更 小 ， 尤 其 是 不 有 具 累积 效应 的 偶尔 访问 的 时 候 ， 虽 然 可 能 会 慢 一 两 
秒 。 但 是 这 种 速度 降低 是 可 以 被 接受 的 。 所 以 从 这 种 角度 来 讲 ， 存 储 端 
当前 的 HSM 产 品 还 是 有 很 大 意义 的 。 











但 是 对 于 归档 领域 ， 或 者 一 个 容纳 了 几乎 所 有 存储 介质 层级 并 在 全 
局 范围 内 做 HSM 管 理 的 系统 来 讲 ， 如 果 只 按照 某 个 单一 条 件 来 触发 迁 
移 ， 那 么 就 会 产生 与 人 为 因素 的 冲突 。 这 种 情况 下 ， 要 么 就 在 这 个 系统 
中 引入 更 加 复杂 的 条 件 ， 引 入 大 量 的 SLO， 要 么 耽 和 干脆 把 HSM 中 的 上 层 
策略 部 分 抛 掉 ， 只 留 下 一 个 底层 平台 ， 然 后 提供 一 些 控制 接口 给 上 层 的 
策略 引擎 。 也 残 是 在 图 18-3 中 所 示 的 HSM Policy Engine 与 HSM 
DataMove Engine Switch 之 间 形 成 一 个 公开 的 接口 层 ， 将 整个 HSM 系 统 
在 此 分 割 为 上 下 两 部 分 。 应 用 系统 厂商 可 以 对 上 面 的 部 分 加 以 开发 ， 形 
成 自己 的 迁移 策略 引擎 模块 ， 而 存储 厂商 则 专注 于 下 层 的 开发 ， 根 据 需 
求 不 断 完 善 和 丰富 接口 。 鉴 于 存储 三 商 众 多 ， 一 时 间 不 可 能 统一 接口 ， 
所 以 自然 也 就 出 现 了 中 间 件 平台 。 

















火星 观点 : 存储 端 不 适合 做 具体 的 迁移 或 者 分 级 集 略 ， 只 十 
要 提供 迁移 接口 。 集 略 和 触发 条 件 要 由 应 用 层 或 者 人 来 制定 。 
存储 端 要 充当 一 杆 枪 而 不 是 使 用 枪 的 人 。 


火星 高 科 ( 北 京 亚 细 亚 智 业 科技 有 限 公 司 〉 的 数据 迁移 管理 中 间 件 
平台 Mars Storage Platform MSP) 就 是 专门 为 数据 迁移 和 归档 管理 所 设 





计 的 一 款 中 间 件 平台 。 作 为 一 个 迁移 /归档 中 间 件 ， 首 要 的 就 是 要 兼容 

各 种 主流 的 磁带 库 、 自 动 加 载 机 、 磁 带 驱 动 器 以 及 VTL， 不 但 如 此 ， 还 
要 文 持 和 融入 各 种 SAN 和 NAS 环 境 ， 甚 至 一 些 并 行文 件 系统 环境 。 然 

后 ， 最 重要 的 一 点 ， 作 为 中 间 件 ， 需 要 有 丰富 的 查询 和 控制 接口 。 以 上 
的 条 件 MSP 都 做 到 了 ，MSP 文 持 数 百 种 磁带 设备 ; 文 持 在 SAN 和 NAS 环 
境 中 部 晋 ， 可 融入 各 种 SAN 共 享 文件 系统 ;提供 了 30 多 个 API 函 数 ， 包 
括 归 档 和 回迁 管理 、 任 务 管 理 、 对 象 管理 、 磁 带 管 理 、 带 库 管 理 、 存 储 
位 置 管 理 、 磁 带 复制 、 磁 带 池 管理 等 多 个 功能 类 别 。 











能 够 提供 二 次 开发 接口 的 归档 平台 产品 非常 少 ， 国 外 产品 中 IBM 
Tivoli 与 Symantec 等 可 以 提供 接口 ， 但 是 Tivoli 的 部 署 复杂 度 、 易 用 度 、 
先期 部 署 成 本 、 后 期 维护 成 本 都 是 高 不 可 测 的 。 目 前 国内 已 经 有 多 个 广 
丙 的 不 同 的 数字 媒体 信息 系统 在 后 台 使 用 了 MSP 中 间 件 来 作为 归档 和 迁 


移 。 














1) MSP 的 逻辑 架构 


如 图 18-44 所 示 ， 整 个 MSP 由 13 个 模块 组 成 。 其 中 服务 器 模块 负责 
接收 操作 指令 (通过 API 或 者 用 户 手 动 发 起 ) 并 控制 迁移 器 对 数据 做 实 
际 的 迁移 ; 收发 器 负责 处 理 对 象 ( 见 下 文 ); 带 库 控制 占 则 类 似 于 驱动 
器 、 机 械 臂 的 驱动 和 管理 层 ， 辐 带 库 发 起 IO 请 求 必 须 经 由 这 个 模块 ;元 
余 模块 是 指 专门 用 来 做 磁带 RAID 技 术 的 模块 〈 见 下 文 ) ; 单机 读 取 模 
块 是 为 了 解决 在 回迁 数据 的 过 程 中 由 于 已 经 出 库 的 磁带 距离 中 心 带 库 较 
远 而 不 方便 入 库 的 问题 而 生 的 ， 可 以 直接 在 出 库 磁 带 所 在 的 地 点 假设 一 
台 服 务 器 以 及 磁带 机 ， 其 上 安装 单机 读 取 模 块 ， 这 样 直接 就 可 以 从 已 经 
出 库 的 磁带 中 将 数据 读 出 从 而 回迁 ; 开发 接口 模块 便 是 MSP 所 提供 的 查 
询 / 操 控 API 了 。 其 他 模块 不 再 介绍 ， 按 字面 意思 理解 即 可 。 














图 18-44 ” MSP 架构 图 





2) MSP 的 部 署 形态 


如 图 18-45 所 示 ，MSP 中 的 各 个 模块 可 以 分 开 安 装 于 不 同 的 服务 器 
上 上， 当然 也 可 以 将 它们 都 安装 在 一 台 服 务 器 上 。 其 中 迁移 器 、 收 发 器 这 
两 个 模块 必须 连接 并 且 可 以 看 到 后 端的 存储 空间 ， 因 为 这 二 者 需要 对 后 
端 存储 空间 中 实际 的 数据 做 读 出 / 写 入 的 迁移 操作 。 带 库 控制 器 模块 必 
须 能 够 连接 到 带 库 设 备 。 











图 18-45 ” MSP 部 署 形态 








i oe 大 A 3 、 图 18-46 MSP 配置 界面 
用 户 可 以 通过 系统 管理 中 心 来 定 


制备 种 策略 以 及 归档 和 回迁 任务 。 如 
图 18-46 所 示 为 系统 管理 中 心 的 界面 。 





3) MSP 的 优点 


a 支持 多 级 存储 ， 比 如 磁盘 、VTL、 磁 带 、NAS 网 络 路 径 。 

a 文 持 多 个 迁移 器 集群 化 并 行 以 提高 速度 吞 叶 量 。 

a 面 加 对象 的 迁移 粒度 ， 可 以 将 多 个 互相 有 逻辑 关联 的 文件 组 成 一 
个 组 对 象 ， 并 以 对 象 为 单位 进行 迁移 。 











火星 技术 : 比如 某 监 控 点 ， 在 多 个 角度 都 安装 了 摄像 涉 ， 各 
产生 一 路 视频 流 和 视频 文件 。 此 时 就 需要 将 针对 这 个 监控 点 的 
所 有 角度 的 视频 文件 存放 到 一 起 ， 而 不 是 分 开 无 序 存放 ， 这 
样 ， 在 视频 回放 的 时 候 ， 惑 可 以 一 下 子 选 出 这 个 点 的 所 有 角度 
的 视频 来 观看 ， 而 不 是 从 多 个 存储 位 置 或 者 磁带 各 目 将 对 应 的 
视频 抽出 。 这 种 方式 在 MSP 中 被 称 为 对 象 存 储 模式 。 








a 具有 厂 盘 缓冲 技术 ， 可 以 将 磁带 中 的 部 分 访问 频 度 较 高 的 文件 复 
制 到 磁盘 中 作为 Cache 绥 人 存 以 提高 访问 速度 。 


火星 技术 : “用 磁盘 作为 磁带 的 缓存 就 像 用 RAM 作 为 磁盘 的 组 
存 一 样 ，MSP 将 这 种 思想 用 到 了 磁盘 下 面 的 层次 。 注 意 ， 这 里 
的 缓存 并 不 是 指 D2D2T 那 种 模式 。 绥 存 和 绥 冲 不 一 样 ， 绥 存 指 
的 是 慢 速 介质 上 的 数据 被 复制 到 高 速 介 质 中 ， 高 速 介 质 作 为 一 
种 Cache; 而 绥 冲 则 表示 数据 先 存放 在 蜗 速 介质 中 ， 作 为 一 个 
Buffer， 此 时 低速 介质 中 尚未 存放 这 些 数 据 ， 竺 高速 介质 达到 
一 定 触发 条 件 后 ， 数 据 便 被 移动 或 者 复制 到 低速 介质 。 





a 使 用 通用 标准 协议 来 控制 主流 厂 丙 的 融 库 ， 这 就 使 得 MSP 兼 容 几 
乎 所 有 带 库 。 

mn RARM (Redundant Array of Removable Media ) 磁带 宛 余 技术 ， 
有 效 防 止 因 磁带 数据 损坏 而 造成 的 数据 丢失 。 


火星 技术 : ”RAID 的 意思 是 “廉价 元 余 磁盘 阵列 ”， 人 磁盘 可 以 阵 
列 ， 人 磁带 一 样 可 以 。 火 星 科 技 的 磁带 见 余 技术 ， 就 是 将 磁盘 阵 
列 中 的 RAID 技 术 迁 移 到 了 磁带 中 。 同 样 ， 用 多 盘 人 磁带 来 做 
XOR 运 算 ， 生 成 一 份 校 验 磁带 。 当 某 盘 磁带 完全 损坏 ， 或 者 其 
中 部 分 数据 损坏 时 ， 可 以 用 XOR 算 法 生成 损坏 的 数据 。 不 仅 如 
此 ， 如 果 多 盘 磁 带 上 都 有 部 分 数据 损坏 ， 只 要 同一 条 带 上 最 多 
只 有 一 个 segment 的 数据 损坏 ， 那 么 一 样 可 以 通过 校 验 来 找 回 
损坏 的 数据 。 


a 迁移 需 融 宽 控 制 ， 可 以 针对 每 个 迁移 喜 或 者 全 局 来 限制 迁移 数据 
时 的 IO 强度 ， 使 得 迁移 操作 对 生产 环境 的 影响 降 为 最 低 。 
a 文件 片段 恢复 技术 ， 可 以 从 某 个 特定 格式 的 大 文件 中 恢复 出 可 以 





被 应 用 程序 所 识别 并 且 使 用 的 文件 片段 而 不 是 回迁 整个 文件 。 


火星 技术 : ”比如 在 视频 回放 环境 下 ， 有 时 候 用 户 可 能 只 需要 
查看 某 个 大 视频 文件 中 的 茶 一 小 部 分 ， 而 此 时 如 果 大 动 干戈 地 
把 整个 文件 都 回迁 ， 不 仅 浪 费时 间 ， 而 且 还 有 损 设备 的 寿命 ， 
还 占用 额外 的 磁盘 空间 。 对 此 ， 火 星 科 技 开发 出 了 文件 所 段 恢 
复 技 术 ， 通 过 对 特定 格式 的 文件 做 特殊 标记 ， 可 以 以 很 小 的 粕 
度 来 恢复 出 应 用 程序 可 以 识别 并 且 正 确 播放 的 视频 片段 。 








a 开放 式 的 伺 带 记录 格式 ， 第 三 方 软件 也 可 以 识别 。 
m 支持 多 种 主流 OS 平台 ， 包 括 Windows、Linux、Solaris、HPUX、 
AIX。 


4) 在 用 户 奇 刻 的 需求 中 成 长 起 来 





火星 高 科 在 技术 领域 有 目 己 独特 的 观点 ， 这 些 观 点 都 是 他 们 在 面临 
了 很 多 实际 客户 环境 并 且 参 与 定制 开发 后 逐渐 总 结 而 成 的 ， 具 有 很 高 的 
参考 价值 。 





火星 事件 ， ”火星 MSP 平 台 以 及 企业 级 备份 软件 均 支 持 磁带 离 
线 存放 ， 即 Vault 功 能 。 这 样 就 可 以 使 用 较 少 的 磁带 模 位 来 满 

足 对 大 量 磁带 的 操作 。 某 用 户 的 离线 磁带 架 特别 多 ， 每 次 软件 
提示 将 某 某 磁带 放 入 带 库 的 时 候 ， 用 户 查 找 起 来 很 麻烦 ， 用 户 
将 磁带 架 进 行 了 拍照 ， 并 且 将 照片 以 及 对 应 的 架子 以 及 槽 位 编 
号 发 给 了 火星 科技 ， 要 求 将 图 片 做 到 软件 中 ， 每 次 对 磁带 进行 
出 库 或 者 入 库 ， 均 在 图 片 对 应 的 位 置 进行 直观 的 标识 。 这 还 没 
完 ， 没 过 多 长 时 间 ， 用 户 的 磁带 架 升级 了 ， 架 子 上 方 增加 了 

LED 显 示 屏 来 显示 对 应 的 信息 ， 用 户 提出 要 求 ， 让 软件 直接 可 




















O 


坦 开 


六 通过 RS 一 232 串 口 及 对 应 协议 直接 在 LED 显 示 屏 上 显示 出 侯 
言 息 


通过 一 次 次 对 用 户 各 种 需求 的 定制 开发 ， 火 星 高 科 快 速 积 累 了 大 量 
双 验 ， 将 很 多 有 共性 的 定制 功能 放 入 了 软件 主体 中 ， 不 断 丰 富 软 件 的 功 


已 
oo 


\NS 


ZI 





火星 事件 : 高 级 分 级 应 当 玫 动 进行 ， 越 高 级 的 用 户 ， 他 想 手 
动 控 制 存储 系统 以 及 数据 的 欲望 就 越 强烈 。 美 国 的 分 级 产品 之 
所 以 自动 化 、 乔 能 化 强 ， 是 因为 美国 的 人 力 成 本 高 郧 ， 而 中 国 
人 则 比较 勤劳 。 


某 档 案 馆 的 归档 项 目 中 ， 火 星 高 科 遭 遇 了 大 量 小 文件 备份 速度 奇 慢 
的 问题 ， 这 个 问题 是 普 过 存在 的 ， 而 火星 高 科 没 有 回避 ， 选 择 了 冲破 这 
道 堵 了 很 长 时 间 的 增 ， 取 得 了 胜利 。 


火星 技术 : 大 量 小 文件 的 传统 磁带 备份 一 直 是 让 人 非常 头痛 
的 事情 。 文 件 索引 及 Catalog 的 生成 和 处 理 过 程 是 很 慢 的 ， 大 量 
小 文件 的 情况 下 ， 可 能 光 这 一 步 就 要 耗费 数 小 时 甚至 几 天 的 时 
间 ， 这 显然 无 法 接受 。 对 此 ， 火 星 高 科技 巧妙 地 避 开 了 索引 过 
程 而 转 为 利用 一 种 变通 和 虚拟 的 方式 来 备份 大 量 小 文件 ， 速 度 
获得 了 20 余 倍 的 提升 。 

某 用 户 的 数据 备份 项 目 中 ， 竞 争 对 手 为 国外 某 备 份 软件 厂商 ， 
他 们 的 销售 一 个 劲 地 向 用 户 忽悠 他 们 的 多 流 备份 技术 ， 即 同一 
个 备份 任务 拆 分 成 多 个 数据 流 同时 写 入 多 个 驱动 器 ， 由 于 火星 
高 科 的 备份 软件 不 支持 这 种 方式 ， 所 以 对 手 一 直 拿 这 一 点 来 攻 
击 。 而 火星 高 科 从 容 应 对 ， 成 功 赢得 了 用 户 的 信任 。 

火星 观点 : ”LTO 已 经 友 展 到 了 第 4 代 ， 第 5 代 也 已 经 出 来 了 ， 





























数据 传输 速度 已 经 非常 高 了 ， 待 备份 的 应 用 程序 癌 外 吐 数据 的 
速度 贰 至 都 可 能 达 不 到 这 个 速度 ， 既 然 这 样 ， 再 将 它 拆 分 成 多 
个 流 ， 有 必要 么 ? 不 但 没有 必要 ， 上 反而 有 害 ， 第 一 ， 多 流 备份 
之 后 的 磁带 一 旦 有 一 盘 损坏 ， 那 么 其 他 磁 珊 上 的 数据 也 就 没 用 
了 ; 第 二 ， 本 来 前 端的 数据 速度 可 能 已 经 连 一 个 流 都 饱和 不 了 
了 ， 再 将 其 拆 分 为 多 个 流 ， 那 么 势必 造成 磁带 驱动 右 欠 载 ， 造 
成 鞋 擦 效 应 ( 见 其 他 章节 ) ， 降 低 磁带 寿命 。 

多 流 备 份 是 早期 的 技术 ， 那 时 驱动 器 的 数据 写 入 速度 很 低 ， 所 
以 不 得 已 而 为 之 ， 但 是 随 着 硬件 的 发 展 ， 目 己 、 这 个 问题 早 就 
被 弱化 了 对 手 三 商 拿 着 鸡毛 当 令 箭 的 做 法 ， 实 属 不 该 ! 

关于 备份 出 错 是 否 要 目 动 重 试 的 问题 ， 火 星 高 科 也 有 上 自己 独特 
的 看 法 。 

火星 观点 : ”备份 出 错 大 多 数 时 间 都 是 因为 带 库 硬件 或 者 磁带 
等 方面 出 问题 ， 此 时 就 算 重 试 N 次 也 无 济 于 事 ， 反 而 还 浪费 了 
系统 资源 。 硬 件 原 因 导 致 的 备份 出 错 无 须 盲 目 重 试 ， 竺 手动 排 
除 故障 之 后 ， 手 动 再 次 发 起 备份 。 




















火星 高 科 的 很 多 观点 和 技术 都 颇具 中 国 特色 ， 这 正 是 因为 火星 高 科 
征 从 中 国 各 行业 用 户 的 苛刻 的 、 千 奇 百 怪 的 需求 当中 成 长 起 来 的 。 


火星 高 科 成 立 于 1992 年 ， 至 今 已 经 快 20 年 的 时 间 了 。2010 年 中 名 笔 
者 有 幸 参 观 了 火星 高 科 ， 并 且 与 同仁 们 进行 了 热烈 的 交谈 。 从 交谈 中 笔 
者 感觉 到 ， 火 星 高 科 是 一 家 非常 重视 技术 的 公司 ， 以 用 户 需 求 为 导向 ， 
技术 研发 为 依托 ， 如 今 公司 已 经 成 为 一 家 国内 数一数二 的 在 归档 领域 掌 
握 自 主 核心 技术 的 公司 。 从 当初 对 磁带 一 无 所 知 到 今天 成 为 归档 领域 的 
权威 ， 火 星 高 科 正 如 她 的 名 字 一 样 ， 通 过 不 断 的 努力 进取 ， 星 星之 火 终 
成 糊 原 之 势 ! 











畅想 : ”作者 在 此 也 以 个 人 的 角度 畅想 一 下 MSP 的 未 来 。 下 一 
步 MSP 可 以 同 全 面 数据 分 级 中 间 件 方 回 进军 ， 内 部 定义 各 种 
Tier， 丰 富 各 种 接口 ， 比 如 系统 内 的 Tier 分 类 和 查询 、Tier 的 性 
能 属性 得 询 等 。 功 能 上 ， 除 了 文 持 文件 级 归档 ， 还 可 以 与 底层 
存储 设备 配合 ， 支 持 块 级 或 者 LUN 级 的 透明 分 级 ， 并 且 提 供 一 
系列 针对 块 级 别 的 API， 比 如 将 某 个 LUN 从 RAID 10 的 RAID 组 
迁移 到 RAID ”5 的 RAID 组 ， 或 者 将 某 个 LUN 中 的 数据 迁移 到 
NAS 上 ， 并 且 还 保持 客户 端 访问 方式 不 变 。 当 然 ， 要 做 到 这 些 
功能 是 很 不 容易 的 ， 这 要 求 这 个 平台 既 具 有 迁移 中 间 件 的 性 
质 ， 同 时 还 要 具有 虚拟 化 网 关 的 性 质 。 


5) MSA 备 份 一 体 化 设备 








火星 高 科 最 近 发 布 了 一 天 备份 一 体 化 设备 ， 叫 做 火星 舱 (Mars 
Storage Appliance，MSA) 。 火 星 舱 数据 备份 设备 支持 多 种 操作 系统 平 
人 台 ， 如 Windows、Linux、IBM-AIX、SUN-Solaris、HP-UX、RedHat、 
Novell、 红 旗 等 ， 文 持 这 些 异 构 平 台 下 的 文件 、Oracle、SQL Server、 
Sybase、Exchange 等 数据 库 备 份 以 及 操作 系统 备份 ， 文 持 重 复数 据 删 除 
功能 。 同 时 允许 系统 管理 员 将 人 硬盘 分 级 ， 将 特定 的 人 硬盘 /分 区 完全 仿真 
成 磁带 库 或 者 磁带 机 ， 也 就 是 VITL 功 能 ， 可 大 幅度 缩短 备份 /恢复 时 
间 ， 同 时 减少 高 峰 期 对 网 络 资 源 的 占用 。 并 可 不 限 驱 动 嚣 数量， 提供 用 
户 分 类 存储 数据 功能 。 如 网 18-47 所 示 为 火星 舱 系 列 存 储 设备 中 的 MSA 
Backup Advanced (MSA-BA) 一 体 化 备份 设备 的 系统 架构 图 。 

















图 18-47 MSA-BA 一 体 化 备份 设备 


其 中 备份 策略 引擎 负责 全 局 配置 、 管 理 和 触发 整个 备份 域 中 的 备份 
任务 ， 数 据 移 动 右 负 责 将 数据 从 各 个 竺 备份 主机 痛 相 应 的 应 用 代理 处 传 





送 到 备份 服务 器 中 的 虚拟 磁带 中 保存 ， 设 备 控制 器 是 专门 用 来 控制 虚拟 
机 械 手 的 模块 ，VTL 模 块 则 是 用 来 将 的 层 磁 盘 虚 拟 成 对 应 的 虚拟 磁带 豫 
动 锅 、 虚 拟 机 械 手 以 及 虚拟 磁盘 的 虚拟 化 引擎 模块 。 


6) 文 持 国产 ， 并 不 应 该 只 是 口 写 


近年 来 ， 国 家 有 关 部 委 也 明确 了 态度 ， 在 涉及 国家 安全 级 别 的 项 目 
中 优先 或 者 必须 使 用 国产 产品 。 并 且 于 2010 年 5 月 对 信息 安全 产品 要 求 
必须 通过 CCC 强 制 认 证 ， 包 括 备份 软件 。 但 是 现状 是 ， 没 有 通过 CCC 认 
证 的 产品 依然 存在 于 市 面 上 。 火 星 高 科 的 Mars Backup Advanced 企 业 级 
备份 软件 文 持 主流 数据 库 的 备份 ， 包 括 Oracle、Sybase、SQL Server、 
Exchange 和 多 家 国产 数据 库 产 品 ， 如 人 大 金 仓 、 武 汉 达 梦 、 神 州 奥 斯 
卡 、TRS 等 ， 也 于 第 一 时 间 通 过 了 CCC 认 证 。 对 信息 安全 产品 的 CCC 认 
证 过 程 中 包含 很 多 项 目 ， 比 如 对 后 门 、 漏 洞 等 的 审查 等 。 然 而 对 于 一 些 
国外 的 产品 ， 未 通过 3C 认 证 的 也 还 在 卖 。 政 策 监 管 和 执行 的 不 到 位 ， 让 
政 永 成 了 一 杀 定 义 。 

















无 语 : ”不 仅 如 此 ， 界 定 一 球 产 品 是 侍 是 国 贷 的 搬 限 ， 也 被 打 
破 了 。 在 最 近 茶 个 数据 备份 项 目 中 ， 招 标明 确 规定 : 投标 产品 
必须 是 国产 产品 。 但 是 结果 却 让 人 频 目 结 舌 ， 中 标的 竟然 是 

IBM， 它 的 产品 竟然 被 定义 成 了 国货 ， 这 个 结果 让 参加 投标 的 
多 家 国内 厂商 感到 无 语 。 不 知道 “有 关 部 门 ” 到 底 在 干什么 ， 强 
烈 建 议 有 关 部 门 把 “有 关 部 门 ” 取 缔 。 

在 此 也 号 召 国内 广大 用 户 ， 能 用 国产 尽量 用 国产 ， 不 仅 考 虑 价 
格 因素 ， 至 少 要 考虑 安全 、 民 族 、 国 家 。 多 一 个 人 用 国产 ， 国 
贷 的 品质 束 会 提升 越 快 ， 束 会 早日 赶 超 西方 。 




















18.3.4 Deduplication (重复 数据 删除 》 





所 有 人 的 电脑 内 总 会 有 一 些 重复 的 文件 复制 ， 尤 其 是 对 一 些 有 收藏 
癖好 的 人 来 讲 ， 他 们 会 疯狂 地 在 Internet 上 下 载 一 些 他 们 认为 很 有 价值 的 
视频 、 音 乐 或 者 图 片 等 ， 由 于 他 们 在 不 停 地 下 载 而 很 少 去 欣赏 这 些 内 
容 ， 所 以 过 到 相同 的 内 容 时 可 能 会 无 意识 地 再 次 下 载 ， 这 样 的 话 ， 他 们 
人 硬盘 上 的 数据 将 会 有 相当 数量 的 重复 。 这 些 重复 的 数据 存在 于 存储 系统 
中 ， 一 是 浪费 空间 ， 二 是 一 旦 需要 备份 ， 那 么 又 会 浪 绩 备份 时 间 ， 而 且 
备份 之 后 的 数据 也 会 再 次 后 用 额外 的 空间 。 























在 企业 IT 系统 内 ， 包 含 了 个 人 电脑 本 地 存储 、 服 务 器 本 地 存储 和 外 
部 网 络 存储 系统 。 在 这 个 整体 的 系统 内 ， 数 据 的 重复 率 将 会 更 大 。 比 如 
对 茶 个 数据 库 的 备份 ， 每 周一 次 全 备 ， 那 么 两 次 全 备份 的 数据 一 定 会 有 
很 多 相同 的 部 分 。 


再 比如 ， 每 个 员工 电脑 上 至 少 都 会 装 一 套 Windows 操 作 系 统 ， 这 些 
数据 在 全 局 范围 内 ， 就 是 重复 的 。 而 对 于 服务 器 ， 除 了 操作 系统 重复 之 
外 ， 安 装 的 程序 也 有 可 能 重复 ， 而 程序 所 生成 的 数据 也 有 可 能 重复 ， 比 
如 某 人 给 企业 内 所 有 人 发 送 了 一 封 邮件 ， 并 且 携 带 了 一 个 10MB 大 小 的 
附件 ， 那 么 邮件 服务 器 会 在 每 个 人 的 邮箱 中 都 生成 一 份 这 个 附件 的 复 
制 ， 这 就 是 一 笔 很 大 的 重复 数据 。 





说 道 邮箱 ， 腾 讯 QQ 邮 箱 是 笔者 一 直 以 来 比较 喜欢 用 的 。QQ 邮 箱 对 
超大 附件 的 做 法 就 是 将 附件 存储 在 服务 右上 一 个 独立 位 置 ， 不 管 将 其 作 
为 附件 肥 给 谁 ， 这 些 附件 始终 只 有 一 份 复制 ， 任 何 收 到 邮件 的 人 所 看 到 
的 附件 其 实 并 没有 附 到 本 封 邮件 中 ， 而 只 是 一 个 链接 ， 打 开 附件 时 会 从 
服务 端 将 数据 下 载 到 本 地 ， 这 是 一 个 很 好 的 解决 办 法 。 那 么 对 于 处 于 不 
同 机 需 之 上 的 本 地 文件 如 果 重 复 ， 能 有 什么 办 法 来 解决 呢 ? 在 此 总 络 一 
下 所 有 可 能 的 场景 。 





(1) 同一 主机 操作 系统 本 地 存储 的 重复 文件 。 包 括 同名 但 是 内 容 
不 同 、 内 容 相同 但 是 名 字 不 同 以 及 只 有 部 分 内 容 相 同 的 文件 〈 下 同 ) 。 





(2) 不 同 主机 操作 系统 本 地 存储 的 重复 文件 。 


(3) 不 同 主机 操作 系统 都 在 同一 台 外 部 NAS 存 储 设备 进行 数据 集 
中 存储 时 的 重复 文件 。 





(4) 不 同 主机 操作 系统 都 在 同一 台 外 部 Block 存 储 设备 进行 数据 集 
中 存储 时 的 重复 文件 。 








(5) 虚拟 机 环境 下 磁盘 镜像 文件 中 的 重复 部 分 。 
(6) 虚拟 机 环境 下 裸 磁盘 映射 模式 下 的 重复 数据 。 


对 于 〈1) ， 可 以 由 用 户 手动 来 判断 并 且 删 除 重复 的 文件 ， 必 要 时 
可 以 对 一 份 文件 作 不 同名 称 的 快 键 方式 或 者 链接 。 但 是 对 于 只 有 部 分 内 
容 相 同 的 文件 ， 如 果 不 通 过 特殊 程序 的 话 ， 就 只 能 保留 。 





对 于 《〈2) ， 在 这 种 情况 下 ， 多 人 台 主 机 上 的 操作 系统 文件 大 部 分 是 
重复 的 ， 为 了 消除 这 种 重复 ， 可 以 部 区 无 盘 系 统 ， 但 是 无 盘 系 统 的 性 能 
实在 不 好 控制 ， 而 且 使 用 起 来 有 诸多 不 便 。 而 对 于 非 操 作 系 统 文件 的 重 
复 文件 ， 是 无 能 为 力 的 。 

















对 于 (3) ，NAS 系 统 的 不 同 或 者 相同 目录 中 有 重复 内 容 的 文件 ， 
这 种 情况 下 如 宋 没有 特殊 的 程序 起 作用 的 话 ， 不 能 够 擅 目 删除 文件 或 者 
制作 链接 。 因 为 NAS 一 般 只 提供 对 外 的 接口 ， 其 内 部 虽然 也 是 东 种 操作 
系统 ， 但 是 NAS 设 备 一 般 不 会 提供 用 户 其 内 部 文件 系统 的 操作 接口 ， 所 
以 这 种 情况 下 的 重复 文件 也 是 无 法 消除 的 。 





对 于 (4) ， 由 于 重复 的 文件 存在 于 不 同 的 主机 操作 系统 内 ， 那 么 
如 末 要 删除 挥 重复 的 文件 ， 束 必须 将 最 后 留存 的 那 份 实体 文 件 所 在 的 目 
录 通 过 网 络 共享 出 来 ， 其 他 主机 访问 这 个 共 诗 ， 并 且 制 作 一 个 针对 这 个 
文件 的 链接 ， 那 么 这 个 链接 吏 只 能 是 一 个 快 键 方式 ， 快 键 方式 使 用 起 来 
有 诸多 不 便 。 所 以 ， 这 种 情况 下 要 实现 重复 数据 的 删除 也 是 不 现实 的 。 











对 于 (5) 和 (6) ， 就 更 不 是 通过 用 户 手 动能 够 实现 的 了 。 


综 上 所 述 ， 在 同一 主机 系统 内 ， 对 于 整个 文件 的 内 容重 复 ， 可 以 在 
最 终 用 户 层 消除 重复 ， 但 是 需要 用 户 来 手动 操作 并 且 记 录 链 接 关 系 〈 即 
便 是 同一 主机 操作 系统 内 ， 便 链接 不 能 够 跨 不 同文 件 系 统 ) ， 这 显然 不 
现实 。 对 在 不 同 主机 系统 内 的 重复 文件 ， 无 能 为 力 。 所 以 ， 不 管 从 任何 
角度 来 讲 ， 都 需要 一 个 特殊 的 程序 来 实现 这 种 重复 数据 删除 工作 ， 并 且 
还 需要 维护 对 上 层 访问 的 完全 透明 性 。 








Single Instance Storage (SIS， 单 一 实例 存储 ) ， 就 是 实现 这 种 删除 
重复 文件 内 容 的 一 种 技术 。 所 谓 Single Instance〈 单 一 实例 ) ， 指 的 就 是 
相同 内 容 的 文件 ， 在 系统 内 只 存在 一 份 实体 ， 其 他 副本 都 只 作为 一 个 指 
针 链 接 而 存在 ， 链 接 只 占用 一 个 FS ”Block 的 空间 。SIS 可 以 在 主机 端 实 
现 ， 比 如 在 某 个 操作 系统 上 安装 一 个 SIS 处 理 模 块 ， 它 会 根据 用 户 的 设 
置 来 自动 定期 或 者 实时 地 扫描 系统 内 所 有 可 访问 的 文件 系统 内 的 文件 内 
容 ， 一 旦 发 现 相同 内 容 的 文件 ， 则 只 保留 一 份 文件 实体 ， 删 掉 其 他 多 余 
的 副本 并 为 它们 创建 特殊 的 链接 〈 可 以 跨 文 件 系 统 ， 并 非 普通 便 链 
接 ) ， 这 个 链接 其 实 与 上 一 节 中 所 述 的 Tier 分 级 软件 所 做 的 链接 类 似 。 





对 于 上 文中 《2) 对 应 的 情况 ， 虽 然 SIS 理 论 上 当然 可 以 实现 路 主机 
的 重复 数据 删除 ， 但 是 由 于 需要 路 网 络 访问 ， 在 管理 和 性 能 上 皆 有 诸多 
不 便 ， 所 以 目前 尚未 有 这 种 实现 方式 。 也 可 以 在 NAS 上 实现 SIS， 这 样 














就 解决 了 上 面 的 《3) 所 对 应 的 问题 。 而 对 于 〈4) 中 的 情况 ， 其 实 是 与 
(2) 类 似 的 ， 只 不 过 数据 放 在 外 部 块 级 存储 设备 而 不 是 本 地 ， 所 以 SIS 
在 这 种 情况 下 也 不 能 实现 重复 数据 删除 。 对 于 〈5) 所 述 的 情况 ，SIS 是 
无 能 为 力 的 ， 因 为 即便 是 用 相同 的 步 又 安装 两 台 GuestOS， 这 两 个 OS 的 
系统 盘 对 应 的 磁盘 镜像 文件 也 不 见得 每 个 字 节 都 相同 ， 虽 然 它 们 很 大 一 
部 分 都 是 相同 的 。 对 于 〈6) ，SIS 此 时 已 经 看 不 到 文件 了 ， 所 以 更 是 无 
能 为 力 。( 对 于 (5) 和 “(6) ， 虽 然 无 法 在 虚拟 机 服务 器 上 使 用 SIS 达 
到 预期 效果 ， 但 是 依然 可 以 在 GuestOS 中 使 用 SIS 技 术 来 消除 重复 文 
件 。) 








SIS 可 以 理解 为 文件 级 别 的 Deduplication。 块 级 别 的 Deduplication 才 
是 真正 意义 上 的 Deduplication， 人 简称 Dedup 〈 去 重 / 消 重 ) 。 但 是 一 般 情 
况 下 会 用 Deduplication 同 时 表示 文件 级 和 块 级 的 重复 数据 删除 。 文 件 级 
的 Dedup 不 但 在 满足 实际 需求 上 存在 上 文 所 述 的 一 系列 问题 ， 而 且 其 底 
层 技术 实现 方法 上 也 有 很 大 的 局 限 性 ， 比 如 ， 只 能 以 整个 文件 的 二 进 制 
内 容 来 比 对 ， 而 遇 到 只 有 部 分 内 容 相 同 的 文件 ， 或 者 只 有 文件 头 部 信息 
不 同 而 后 续 的 内 容 完全 相同 的 文件 ， 则 无 能 为 力 。 





但 是 不 排除 有 一 些 稍微 智能 一 些 的 SIS 技 术 ， 可 以 识别 和 定 界 并 且 
保留 文件 头 部 信息 。 比 如 mp3 等 音 视频 ，mp3 文 件 的 头 部 会 保存 一 些 音 
乐 信息 ， 如 果 有 两 个 mp3 文 件 ， 其 实体 音乐 编码 部 分 是 完全 相同 的 ， 只 
不 过 歌手 、 类 别 等 头 部 信息 不 同 ， 所 以 这 两 个 mp3 文 件 的 大 小 也 不 同 ， 
那么 ， 对 于 高 智能 SIS 便 可 以 识别 这 种 头 部 信息 的 不 同 而 将 其 保留 ， 然 
后 将 重复 的 音乐 编码 部 分 删除 。 然 而 ， 要 实现 这 种 智能 ， 束 必须 感知 各 
种 主流 的 应 用 程序 所 生成 的 文件 比如 MS Office、mp3、mp4 等 ， 并 且 随 
着 应 用 程序 的 升级 换代 ，SIS 模 块 也 需要 跟着 更 改 才能 识别 新 格式 的 头 
部 信息 和 边界 ， 而 且 应 用 程序 有 太 多 ， 不 可 能 每 种 都 文 持 ， 所 以 实现 起 








来 太 累 。 需 要 有 一 种 更 彻底 的 、 更 高 效 的 、 一 区 水 逸 的 解决 办 法 。 


这 种 一 秀 永 逸 的 Dedup 方 法 就 是 块 级 Dedup。Block 是 存储 系统 路 径 
中 仅 次 于 Sector 的 最 底层 的 数据 结构 了 ， 如 果 直 接 来 比 对 整个 存储 系统 
内 所 有 Block 的 二 进 制 内 容 的 异同 ， 消 除 相同 内 容 的 多 余 Block 副 本 ， 那 
么 不 管 Block 中 存储 的 内 容 对 应 的 是 哪个 分 区 的 哪个 文件 系统 下 的 哪个 
文件 ， 相 同 内 容 的 多 余 Block 的 实体 内 容 都 可 以 被 消除 ， 而 只 在 Metadata 
中 留 有 一 个 指针 来 指向 被 保留 的 那 唯 一 一 份 有 实体 内 容 的 Block。 





如 果 多 台 主 机 将 自己 的 数据 存储 于 同一 台 外 部 独立 存储 设备 中 ， 如 
果 在 这 台 存 储 设备 上 实现 全 局 的 Block 级 的 Dedup， 那 么 也 就 可 以 做 到 消 
除 多 台 主 机 上 的 重复 数据 。 对 于 虚拟 机 服务 器 上 的 磁盘 镜像 文件 ， 块 级 
别 的 Dedup 就 可 消除 两 份 镜像 文件 中 元 余 的 Block， 而 对 于 利用 裸 盘 映射 
模式 来 存储 GuestOS 数 据 的 虚拟 方式 ， 同 样 也 可 以 使 用 块 级 Dedup 来 消 
除 重复 数据 。 所 以 说 ， 块 级 的 Dedup 是 最 彻底 也 是 去 重 比率 最 高 的 
Dedup 方 式 。 现 在 基于 SIS 技 术 的 产品 不 多 见 了 ， 基 本 上 都 是 基于 Block 
级 的 Dedup 产 品 ， 相 对 于 智能 SIS，Block ”Dedup 设 计 成 本 更 低 ， 去 重 比 
率 也 更 高 ， 获 得 的 收益 也 更 大 。 

















以 上 介绍 了 Dedup 的 必要 性 ， 以 及 实现 Dedup 的 两 种 大 方向 。 下 面 
束 对 实现 Block Dedup 的 具体 技术 进行 介绍 。 


1. 压缩 与 Dedup 的 本 质 区 别 


想到 节约 空间 ， 大 家 可 能 首先 想到 的 是 压缩 。 比 如 WinZip、 
WinRAR、7-Zip 等 工具 ， 都 是 我 们 常用 的 ， 而 且 某 些 情况 下 会 获得 很 高 
的 压缩 比 。 但 是 有 印象 的 读者 可 能 还 记得 ， 本 书 第 16 章 中 16.2.5 节 中 的 
那个 例子 ， 普 通 压 缩 工具 对 那 种 情况 是 无 能 为 力 的 ， 因 为 压缩 是 一 个 局 





部 处 理 ， 而 并 不 是 全 局 处 理 ， 窗 口 很 小 。 


而 Dedup 所 要 实现 的 ， 是 针对 整个 存储 系统 的 全 局 数据 ， 普 通 压缩 
程序 不 可 能 去 扫描 全 局 的 数据 然后 压缩 而 后 访问 的 时 候 再 解压 纵 ， 这 是 
绝对 不 现实 的 ， 一 是 耗费 大 量 CPU 资 源 ， 二 是 对 上 层 很 难 做 到 透明 访问 
CWinXP 内 置 的 Zip 引 擎 可 以 做 到 透明 访问 ) 。 所 以 ， 需 要 使 用 其 他 技 
术 手 段 来 实现 全 局 Block Dedup。 


2. 全 局 范围 内 实现 Dedup 的 核心 技术 手段 一 “Hash 





每 个 人 的 指纹 都 不 相同 ， 一 旦 发 现 两 个 相同 的 指纹 ， 就 证 明 是 同一 
人 所 留 下 的 。 如 果 给 每 个 Block 录 一 个 指纹 并 保存 ， 那 么 就 可 以 通过 比 
对 这 个 指纹 来 判断 两 个 Block 是 否 内 容 相 同 了 。 对 数据 来 做 指纹 录入 ， 
有 一 个 现成 的 方法 ， 即 Hash 方 法 ，Hash 方 法 衍生 出 多 种 不 同 的 具体 算 
法 ， 目 前 最 为 音 用 的 算法 是 MD5 (Message Digest v5) 和 SHA- 
1 (Secure Hash Algorithm v1) 。SHA-1 算 法 会 对 任意 一 份 长 度 小 于 264 
的 数据 内 容 进行 扫 摘 计算 最 后 得 出 一 个 长 度 为 160 的 值 (MD5 算 法 则 是 
生成 一 个 128 的 值 ) ， 这 个 值 就 是 针对 这 份 数据 的 指纹 。 相 同 内 容 的 数 
据 经 过 Hash 之 后 ， 总 会 得 到 相同 的 指纹 ， 但 是 不 同 内 容 的 数据 在 经 过 
Hash 之 后 ， 也 有 一 个 非常 小 的 几率 可 能 会 得 到 相同 的 指纹 。 








从 实体 内 容 可 以 算出 指纹 ， 但 是 却 绝对 不 可 能 从 指纹 逆 算 出 原来 的 
实体 内 容 。 所 以 Hash 方 法 也 第 被 用 于 密码 保存 和 比 对 ， 即 系统 不 保存 明 
文 密码 ， 而 是 在 用 户 设 定 登 录 密 码 时 将 密码 Hash 成 指纹 存放 ， 这 样 ， 即 
便 黑 客 从 系统 中 截取 了 这 上 段 指纹 ， 那 么 也 不 可 能 根据 指纹 逆 算 出 原来 的 
明文 密码 ， 即 其 他 人 永远 不 可 能 知道 是 哪些 字符 串 补 算 成 了 对 应 的 Hash 
值 。 用 户 登 录 时 输入 的 密码 也 被 计算 成 Hash 值 与 系统 保存 的 指纹 进行 比 
对 ， 如 果 匹 配 则 成 功 登录 。 破 解 Windows 登 录 密 码 的 过 程 其 实 并 不 











征 “ 破 解 ”， 而 是 暴力 地 将 系统 中 保存 Hash 值 的 文件 蔡 换 成 其 他 文件 ， 新 
文件 中 的 Hash 值 对 应 的 原文 密码 是 已 知 的 ， 利 用 这 个 方法 ， 用 已 知 的 密 
码 即 可 登录 系统 。 


不 管 数据 的 长 度 有 多 长 ， 只 要 不 超过 额定 大 小 ， 用 同一 种 算法 所 计 
算出 来 的 指纹 长 度 总 是 定 长 的 ， 比 如 即便 针对 一 个 大 小 为 4GB 的 文件 用 
SHA-I1 算 法 来 提取 其 指纹 ， 指 纹 长 度 依然 为 160。 那 么 如 果 某 个 系统 内 
有 两 个 4GB 的 内 容重 复 的 文件 ， 那 么 它们 的 指纹 也 一 定 是 相同 的 ， 此 时 
就 可 以 删 掉 其 中 一 个 文件 的 实体 内 容 而 只 保留 一 个 占 位 符 ， 当 有 程序 访 
问 这 个 被 消除 实体 内 容 的 文件 的 时 候 ，Dedup 模 块 会 根据 指针 信息 从 剩 
余 的 那个 文件 中 对 应 的 部 分 将 内 容 提 取 并 且 返 回 给 访问 者 。 这 样 做 ， 相 
比 压缩 来 讲 就 有 了 本 质 的 变化 。 














提示 : ”数据 指纹 技术 有 很 多 神奇 的 应 用 ， 比 如 某 网 站 提供 一 
种 服务 ， 如 果 你 会 呼 唱 某 段 曲 子 但 震 耐 不 知道 这 首 曲子 的 多 
称 ， 那 么 只 要 你 咋 呼出 这 首 曲 子 并 且 录 下 来 上 传 到 服务 器 ， 那 
么 服务 器 经 过 短暂 分 析 之 后 便 会 告诉 你 这 首 曲 子 的 名 称 。 和 在 一 
听 这 是 个 非常 神奇 的 功能 ， 其 实 如 果 明 日 数据 指纹 技术 ， 束 不 
会 证 民 了 。 服 务 器 会 根据 这 首 乐 曲 的 音调 频率 等 信息 生成 对 应 
的 指纹 ， 然 后 与 数据 库 中 的 大 量 已 经 保存 的 音乐 指纹 比 对 ， 如 
果 发 现 与 茶 个 指纹 类 似 ， 那 么 便 将 匹配 的 音乐 名 称 返回 给 请 求 
者 。 当 然 ， 这 种 音频 指纹 比 对 算法 需要 具有 一 定 的 Robust 性 ， 
会 过 滤 掉 环境 杂 波 的 编码 数据 ，Hash 是 做 不 到 的 ， 即 使 音调 音 
色 都 相同 的 两 份 音频 ， 其 编码 之 后 的 数据 也 不 一 定 相 同 ， 所 以 
只 扫描 计算 二 进 制 流 的 Hash 方 法 是 无 法 完成 比 对 音频 的 任务 
的 。 

数据 指纹 的 妃 外 的 应 用 领域 还 在 于 判断 一 份 数据 在 传输 的 过 程 


























中 是 否 发 生 了 内 容 改 变 ， 在 传输 的 源 端 算 好 一 个 指 约 ， 目 的 端 
接收 到 之 后 再 算 一 个 指纹 ， 比 对 两 个 指纹 ， 相 同 则 证 明 没 发 生 
改变 ， 不 同 则 表明 发 生 了 改变 ， 数 据 不 可 用 。 

另外 ， 数 据 指纹 还 可 以 用 于 远程 Cache 环 境 。 比 如 某 个 CDN 内 
容 发 布 网 络 环境 中 ， 针 对 一 份 源 数据 ， 在 各 地 拥有 多 个 二 级 
Cache， 这 些 Cache 需 要 严格 保证 其 Cache 的 数据 与 源 数据 内 容 
一 致 ， 如 果 源 数据 发 生 内 容 改 变 ， 那 么 其 指纹 也 就 改变 。 
Cache 可 以 从 源 端 拉 取 指纹 随时 比 对 ， 如 果 发 现 不 匹配 ， 则 表 
明 源 已 经 改变 ， 那 么 Cache 的 数据 不 再 可 用 ， 针 对 用 户 的 数据 
请 求 ，Cache 会 从 源 端 把 最 新 的 数据 拉 过 来 。 

数字 签名 。 每 个 人 的 笔迹 都 是 不 同 的 ， 但 是 e 时 代 的 电子 签名 
如 何 表示 呢 ? 答案 是 使 用 Hash 算 法 来 将 某 人 给 出 的 一 串 特定 字 
符 算 成 指纹 ， 只 要 给 一 份 电子 合同 附属 上 这 个 指纹 便 知 道 某 人 
在 合同 上 按 了 手印 。 其 他 人 不 可 能 伪造 别人 的 签名 ， 因 为 其 他 
人 根本 不 知道 别人 的 原始 字符 串 。 

其 实 Hash 算 法 在 各 种 程序 中 都 被 广泛 使 用 ， 比 如 OS 内 部 、 数 
据 库 类 程序 等 。 只 要 涉及 到 用 很 少 的 数据 来 唯一 表示 一 个 很 长 
的 数据 ， 那 么 都 会 用 到 Hash 算 法 。 

网 络 硬 盘 服 务 商 可 以 使 用 Hash 技 术 来 实现 单一 实例 存储 。 比 如 
腾讯 的 QQ 中 转 站 就 使 用 了 Hash 技 术 ， 每 个 人 在 上 传 大 文件 的 
时 候 ， 系 统 首先 会 对 文件 进行 “扫描 ”， 这 个 扫描 的 过 程 其 实 就 
是 计算 Hash 值 的 过 程 。 浏 览 器 将 Hash 值 传送 到 服务 端的 某 数据 
库 中 进行 匹配 查询 ， 如 果 发 现 了 相同 的 Hash 值 ， 则 表示 已 经 有 
其 他 人 上 传 了 相同 内 容 和 文件 名 的 文件 ， 那 么 本 次 上 传 将 会 江 
即 完成 ， 不 管 文件 有 多 大 。 














3. Hash 冲 突 及 其 解决 办 法 





没 人 能 够 保证 地 球 上 所 有 人 的 指纹 都 是 不 同 的 ， 很 有 可 能 某 两 个 人 
的 茶 处 纹理 是 可 以 吻合 的 。 数 据 指纹 也 一 样 存在 这 个 问题 ， 算 法 决定 了 
针对 不 同 的 数据 内 容 有 可 能 生成 相同 的 指纹 ， 但 是 几率 非常 低 。 这 种 情 
况 称 为 Hash 冲 突 。 设 想 一 下 ， 如 果 有 两 份 明文 内 容 ， 它 们 的 指纹 却 恰好 
相同 ， 而 且 其 中 一 份 内 容 恰 好 是 某 人 的 密码 ， 而 你 恰好 知道 这 件 事 ， 那 
么 你 此 时 虽然 不 可 能 知道 那 人 的 密码 明文 是 什么 ,但 是 你 却 知 道 用 你 的 
明文 可 以 算出 和 他 一 样 的 Hash 值 ， 那 么 你 束 可 以 用 你 的 明文 去 登录 他 的 
系统 ， 取 得 他 的 权限 。 





然而 ， 寻 找 Hash 冲 突 的 字符 串 ， 或 者 根据 已 知 Hash 值 来 寻找 拥有 相 
同 Hash 值 的 字符 串 ， 这 个 过 程 虽然 是 大 海 捞 针 ， 但 是 理论 上 还 是 可 以 捞 
的 。 我 国 山东 大 学 王小云 教授 早 在 本 世纪 初 就 宣布 她 已 经 找到 了 针对 已 
知 的 Hash 指 纹 来 找到 与 己 知 Hash 值 相同 指纹 的 数据 的 方法 。 请 注意 ， 这 
种 方法 并 不 是 Hash 的 逆 运 算 ， 因 为 Hash 是 不 可 逆 运 算 的 。 我 们 设计 一 个 
简单 证 反 即 可 得 到 这 个 结论 : 假设 可 以 根据 Hash 值 来 逆 运 算出 原始 值 ， 
假设 有 这 样 一 种 方法 ， 那 么 逆 运 算出 来 的 原始 内 容 只 可 能 有 一 个 而 不 可 
能 有 两 个 结果 ， 那 么 这 个 结论 就 与 “不 同 原始 内 容 可 能 会 有 相同 的 Hash 
值 ” 这 个 事实 相 了 矛盾， 由 此 就 推翻 了 这 个 悖 论 。 也 就 是 说 ， 原 始 内 容 M1 
其 指纹 为 H1， 通 过 某 种 算法 ， 可 以 找到 另 一 份 原始 内 容 M2， 而 其 指纹 
也 为 H1， 但 是 无 法 判断 M2 是 否 等 于 M1， 可 能 等 于 也 可 能 不 等 于 。 但 是 
是 否 等 于 已 经 不 重要 了 ， 这 就 像 DNA 不 同 但 是 长 相 相 同 的 两 个 人 一 样 ， 
他 们 在 社会 中 某 些 场合 可 以 互相 蔡 代 ， 但 是 一 旦 你 和 他 说 话 ， 就 可 能 会 
发 现 根 本 不 是 一 个 人 。 

















计算 机 领域 与 社会 不 同 ， 高 层 智能 尚未 在 计算 机 世界 出 现 。 只 要 有 
了 Hash 值 这 个 通行 证 ， 束 可 以 伪造 电子 签名 ， 比 如 某 员工 知道 老板 的 电 
子 签名 Hash 值 ， 而 后 他 根据 这 个 Hash 值 找到 了 某 个 Hash 相 同 的 另 一 份 字 


符 串 ， 那 么 他 便 可 以 用 这 份 字 符 串 来 对 某 份 伪造 合同 进行 签名 ， 而 系统 
对 这 份 字符 串 的 Hash 计 算 结 果 与 老板 的 相同 ， 所 以 系统 认为 合同 是 经 过 
老板 签名 的 。 这 种 方法 虽然 并 不 是 真正 意义 上 的 “破解 "， 但 是 其 造成 的 
后 果 与 破解 无 民 。 其 被 称 为 “Collision Attack”。 





Dedup 系 统 中 如 果 出 现 了 Hash 冲 突 ， 如 末 不 想 办 法 解决 ， 那 么 对 应 
的 数据 块 就 会 永久 丢失 ， 丢 失 还 不 是 最 严重 的 ， 最 严重 的 是 对 业务 产生 
致命 影响 : 本 来 两 份 数据 不 相同 ， 但 是 由 于 指纹 相同 ， 系 统 只 保留 了 一 
份 数 据 ， 当 业务 层 要 访问 被 去 重 的 那 份 数据 时 ， 系 统 返回 的 却 是 与 之 前 
不 同 的 数据 。 而 面 对 这 种 情况 ， 业 务 层 一 般 会 感知 到 所 得 到 的 数据 格式 
根本 不 是 目 己 想 要 的 ， 所 以 会 提示 出 错 。 但 是 如 果 刚 才 的 那 两 份 数 据 恰 
好 有 其 有 一 定 的 相似 性 ， 或 者 数据 为 完全 的 襟 数 据 ， 其 中 不 包含 任何 应 用 
可 识别 的 蜗 层 格式 ， 那 么 数据 的 变化 就 不 会 被 业务 层 感 知 ， 从 而 在 错误 
的 数据 之 上 继续 进行 处 理 ， 那 么 可 能 会 得 出 业务 层 的 重大 决 集 失 误 或 者 
重大 生产 失误 。 











要 完全 杜绝 Hash 冲 突 的 唯一 办 法 就 是 在 当 比 对 两 个 Hash 值 之 后 及 现 
二 者 匹配 ， 那 么 可 以 在 此 基础 上 再 对 原文 内 容 进行 二 进 制 的 逐 位 比 对 ， 
或 者 取 两 份 文件 的 数 个 相同 部 位 ， 比 如 头 、 号 、 尾 来 做 二 进 制 比较 。 但 
是 ， 如 果 在 重复 数据 相当 多 的 情况 下 ， 这 种 做 法 非常 耗费 计算 和 IO 资 
源 。 由 于 Hash 冲 突 的 几率 本 来 已 经 非常 低 ， 如 果 想 办 法 把 冲突 几率 降 得 
更 低 ， 也 是 一 个 可 行 的 方法 ， 基 于 此 ， 可 以 同时 使 用 两 种 Hash 算 法 ， 比 
如 MD5 和 SHA-1 来 针对 目标 数据 进行 计算 得 到 两 组 结果 ， 然 后 分 别 比 对 
每 一 组 结果 ， 如 果 两 次 比 对 都 相同 ， 那 么 就 可 以 被 判定 为 重复 数据 。 这 
样 做 虽然 也 不 能 完全 杜绝 冲突 ， 但 是 其 几率 又 被 大 大 降低 了 。 











4. 如 何 设 计 Dedup 


如 果 换 了 是 各 位 ， 如 何 基 于 Hash 技 术 来 设计 一 个 Dedup 系 统 呢 ? 下 
面 笔者 整 从 简单 演绎 到 复杂 从 而 来 纵 观 Dedup 的 全 貌 。 




















设想 有 一 台 Windows 服 务 器 ， 挂 图 18-48 ”Dedup 模 块 抽 象 示 意图 
载 7 外 部 存储 系统 中 的 几 个 LUN， 都 
格式 化 成 NTFS 文 件 系 统 ， 这 些 文件 系统 下 存 有 大 量 的 见 余 内 容 ， 现 在 
需要 设计 一 个 Dedup 模 块 ， 在 保持 对 文件 访问 的 透明 性 的 前 提 下 消除 重 
复 的 数据 块 ， 达 到 块 级 别 的 Dedup。 我 们 首先 就 应 该 想到 要 处 理 块 层 面 
的 内 容 ， 那 么 就 一 定 要 在 Windows 下 的 驱动 链 中 适当 位 置 插入 一 个 过 滤 
驱动 来 监测 或 修改 经 过 的 Block ” IO 请求 以 及 向 上 层 通 告 虚 拟 的 可 用 容 
量 ; 然后 ， 还 需要 一 个 用 来 存放 针对 所 有 Block 所 生成 的 指纹 库 ， 这 个 
库 可 以 保存 在 每 个 LUN 的 固定 位 置 ， 由 Filter Driver 对 其 进行 隐藏 和 做 数 
据 IO， 这 样 内 核 文 件 系 统 便 不 会 影响 到 并 且 损 坏 指纹 仓库 了 ; 还 需要 有 
一 个 中 央 控 制 模块 来 实现 Dedup 的 主 控 。 如 图 18-48 所 示 为 笔者 自行 演绎 
出 来 的 Dedup 模 块 架构 图 。 











整个 Dedup 模 块 的 作用 原理 如 下 : 当初 次 安装 这 个 Dedup 模 块 之 
后 ，Dedup 模 块 便 在 系统 后 台 运 行 ，Main Control Module 根 据 设 定 的 策 
上 略 ， 从 一 个 时 间 点 开始 调用 IO Thread 模 块 依次 读 出 LUN 内 的 所 有 
Block (Block 可 以 认为 设 定 粒 度 ， 比 如 4KB、64KB、1024KB 等 ) 并 传 
递 给 Hash Handler 模 块 来 计算 Hash 值 ， 算 好 的 Hash 值 会 写 入 Hash 
Fingerprints ”Repository 中 对 应 Block 的 Slot 存放 备查 。 主 模块 会 按照 一 个 
方向 从 LUN 中 读 出 Block 计 算 ， 但 是 如 果 T1 时 刻 计算 完 Block n 之 后 ， 某 
用 户 程序 或 者 其 他 任何 上 层 程序 向 任何 小 于 等 于 Block n 的 最 后 LBA 地 址 
或 者 发 起 写 IO 的 话 ， 那 么 之 前 所 计算 的 Hash 值 就 会 作废 无 效 ， 因 为 对 应 
的 Block 已 经 被 新 数据 所 畴 盖 了 ， 需 要 随后 重新 读 出 这 个 Block 重 新 计算 
Hash 。 

















为 了 解决 这 个 问题 ， 需 要 维护 一 个 Delay Block Bitmap 来 记录 当 上 
一 次 全 LUN 扫 摘 开 始 之 后 到 当前 位 置 ， 这 期 间 系 统 针对 这 上 段位 置 所 友 生 
的 写 IO 所 对 应 的 Block 的 位 置 ， 将 其 在 Bitmap 中 置 1。 根 据 这 个 Bitmap， 
Dedup 模 块 就 会 知道 指纹 仓库 中 哪些 Block 的 指纹 是 无 效 的 了 。 初 次 全 
LUN 扫 描 完 之 后 ， 指 纹 仓 库 中 会 积累 相当 数量 的 有 效 指 纹 ， 利 用 这 些 有 
效 指纹 ，Dedup 模 块 开始 做 真正 的 Dedup 过 程 。 





真正 的 Dedup 过 程 包含 以 下 4 个 动作 。 


(1)〉 Dedup 主 模块 需要 处 理 上 层 源源 不 断 发 生 的 写 IO，Filter 
Driver 实 时 监测 写 IO， 对 于 符合 条 件 的 写 IO， 在 将 其 透 传 到 下 层 的 同 
时 ， 会 复制 一 份 将 其 传递 给 Dedup 主 模块 ，Dedup 主 模块 会 实时 地 针对 
每 个 接收 到 的 写 IO 计 算 Hash 值 并 且 存 储 到 指纹 仓库 中 对 应 的 Slot 中 ， 并 
且 在 Delay Block Bitmap 中 将 对 应 的 位 置 0。 这 样 就 不 会 漏 下 每 一 个 写 
IO， 至 此 ，Delay Block Bitmap 中 被 置 1 的 位 不 会 再 继续 增加 了 。 如 果 因 
为 各 种 原因 Dedup 模 块 工 作 异 常 或 者 由 于 各 种 限制 条 件 比 如 CPU 负 和 载 过 
高 等 ，Dedup 引 擎 暂停 工作 ， 那 么 每 个 写 IO 并 不 会 实时 地 被 计算 成 Hash 
值 ， 而 引擎 转 而 向 Dealy Block Bitmap 中 记录 这 些 写 IO 的 位 置 ， 在 系统 
不 忙 或 者 引擎 开始 工作 时 根据 Bitmap 来 读 出 这 些 Block 并 计算 Hash。 











(2) Dedup 主 模块 还 需要 在 后 台 人 查找 指纹 仓库 中 重合 的 指纹 ， 一 旦 
找到 ， 便 会 对 所 有 重复 的 Block 生 成 一 个 指针 并 且 保 存在 On Disk Pointer 
List 中 。 这 个 动作 交 给 Block Mapping Metadata Handler 处 理 。 这 个 过 程 
是 真正 的 数据 消 重 过 程 ， 也 是 比较 耗费 计算 资源 的 过 程 ， 所 以 需要 考虑 
到 系统 当前 的 CPU 负载 ， 根 据 所 设 定 的 处 理 力度 进行 处 理 。 这 个 步骤 可 
能 有 人 有 疑问 ， 为 何 引擎 不 去 删除 磁盘 上 的 元 余 Block 呢 ? 这 个 疑问 保 
留 在 下 文中 解释 。 





(3) 针对 Delay Block Bitmap 中 仍然 被 置 1 的 Block， 从 LUN 中 读 入 
这 些 Block， 计 算 Hash 值 存 入 指纹 仓库 ， 并 将 对 应 的 位 置 回 0， 当 所 有 位 
都 被 置 0 后 ， 表 示 当 前 的 指纹 仓库 中 针对 所 有 Block 的 指纹 全 部 都 是 最 新 
的 了 。 








(4) 由 于 每 一 个 写 IO 都 会 被 写 入 存储 介质 中 ， 所 以 对 于 每 个 读 
IO，Filter Driver 会 直接 透 传 到 下 层 驱 动 从 读 IO 的 目标 地 址 读 入 数据 并 且 
返回 给 上 层 。 这 个 步骤 可 能 有 人 也 会 有 疑问 ， 如 果 每 个 写 IO 都 被 写 入 介 
质 ， 哪 里 能 体现 剩余 空间 增加 了 ? 这 个 疑问 一 并 留 作 下 文 解释 。 


这 4 个 动作 不 断 地 循环 执行 ， 当 然 ， 需 要 注意 线程 时 序 馆 辑 竞 争 的 
情况 ， 避 免 其 及 生 。 图 18-48 中 椭圆 形 组 件 表示 其 为 一 个 数据 结构 ， 保 
存在 LUN 固 定位 置 中 ， 但 是 Dedup 模 块 执 行 时 会 将 这 些 数 据 全 部 或 部 分 
地 载 入 内 存 以 加 快 处 理 速度 。 





对 于 操作 系统 所 在 的 LUN， 主 机 端的 Dedup 模 块 无 能 为 力 ， 因 为 主 
机 操作 系统 启动 过 程 中 难免 会 对 一 些 Block 有 写 入 动作 ， 而 此 时 Dedup 模 
块 尚未 加 载 ， 所 以 此 时 指纹 仓库 中 对 应 的 Block 指 纹 已 经 无 效 ， 但 是 
Dedup 模 块 却 无 法 感知 这 种 无 效 ， 所 以 每 次 重启 ，Dedup 模 块 就 需要 重 
新 来 一 遍 全 LUN 扫 描 重 新 生成 指纹 仓库 ， 得 不 偿 失 。 所 以 不 能 够 针对 操 
作 系 统 所 在 的 LUN 进 行 Dedup 操 作 ， 要 想 实 现 ， 必 须 使 用 存储 端 Dedup 
模块 ( 见 下 文 )。 











对 于 LUN 与 LUN 之 间 的 数据 消 重 ， 就 需要 Dedup 模 块 以 所 有 LUN 中 
的 指纹 仓库 作为 一 个 全 局 的 查找 对 象 ， 一 个 LUN 中 的 Block 如 果 与 男 一 
个 LUN 中 的 Block 内 容 相 同 ， 则 也 可 以 做 到 消 重 。 


Dedup 是 一 个 后 台 异 步 处 理 过 程 ， 它 所 带 来 的 效益 并 不 是 实时 就 可 


以 感觉 到 的 。 当 然 也 可 以 设计 成 实时 的 Dedup， 比 如 写 IO 进 入 后 必须 先 
交 给 Dedup 模 块 进行 Dedup 处 理 ， 如 果 被 判断 为 重复 数据 ， 那 么 便 不 会 
将 实体 数据 写 入 后 端 磁 盘 。 这 样 做 有 一 定 的 风险 性 ， 如 果 写 IO 是 Write 
Back 模 式 ， 那 么 Filter ”Driver 会 在 接收 到 IO 请 求 立 即 返回 成 功 信号 给 上 
层 ， 那 么 此 时 就 要 求 Dedup 模 块 必须 有 某 种 机 制 来 保证 这 个 写 IO 在 系统 
故障 时 也 不 能 丢失 ， 而 对 于 主机 端的 Dedup 模 块 ， 唯 一 办 法 还 是 要 将 其 
先 写 入 磁盘 ， 或 者 日 志 链 中 暂 存 ， 所 以 依然 无 法 避免 破 盘 IO， 与 其 这 
样 ， 还 不 如 保持 后 台 蜡 步 方式 的 好 。 而 如 果 是 Write _ Through 模式， 那么 
前 台 处 理 将 严重 增加 IO 延迟 ， 影 响 性 能 。 

















提示 : 指纹 仓库 中 包含 有 很 多 的 Hash 值 ，Dedup 引 擎 一 般 使 用 
Bloom Filter 算 法 来 快速 地 奉 找 当前 给 出 的 Hash 值 是 否 存在 于 指 
纹 仓 库 中 。Bloom Filter 算 法 本 号 需 要 将 指纹 仓库 中 的 Hash 值 本 
喘 再 次 做 一 系列 的 处 理 ， 这 其 中 包括 将 其 再 次 Hash。 详 细 步 又 
就 不 做 过 多 描述 了 。 


5. Dedup 的 分 类 


Dedup 的 设计 总 体 上 可 以 分 为 多 种 类 别 ， 作 用 于 不 同 层次 、 目 标 和 
阶段 。 


1) In-Band/Out-Band Dedup 


所 谓 In-Band， 束 是 将 指纹 仓库 存放 在 与 所 要 Dedup 的 目标 实体 数据 
所 在 的 相同 位 置 。 比 如 要 Dedup 某 主机 上 的 辱 干 LUN， 那 么 指纹 仓库 也 
放 在 这 台 主 机 上 的 一 个 或 者 多 个 LUN 中 国定 位 置 ， 这 样 ， 有 多 少 主机 需 
要 实现 Dedup， 束 有 多 少 份 指纹 仓库 存在 。 


所 谓 Out-Band， 就 是 将 整个 全 局 系统 内 的 所 有 主机 上 LUN 的 指纹 保 
存在 一 个 单独 地 点 ， 集 中 存放 ， 集 中 管理 。 主 机 上 的 Dedup 引 擎 通过 网 
络 与 这 个 指纹 仓库 通信 从 而 存 入 或 者 提取 指纹 。 由 于 Dedup 多 是 后 台 异 
步 处 理 方式 ， 所 以 外 部 网 络 所 引发 的 延迟 并 不 会 从 根本 上 影响 一 段 时 间 
内 的 Dedup 的 效率 。 











传统 设计 总 是 采用 In-Band 的 方式 ， 每 台 主 机 上 都 安装 一 个 独立 的 
Dedup 引 擎 。 然 而 ， 这 只 是 第 一 步 。 有 没有 可 能 采用 一 个 集中 Dedup 引 
擎 来 统一 管理 全 局 系统 内 的 所 有 主机 上 的 Dedup 操 作 呢 ? 答案 是 有 。 如 
图 18-49 所 示 为 将 Dedup 引 擎 全 外 置 之 后 的 彻底 Out-Band 模 式 染 构 。 














图 18-49 Dedup 引 擎 全 外 置 ，Out-Band 





上 图 中 的 架构 是 一 个 Client/Server 架 构 ， 基 于 图 18-48 中 所 示 的 自演 
绎 的 Dedup 引 擎 染 构 改造 。 原 本 运行 在 每 台 主 机 上 的 Dedup 引 擎 的 主干 
组 件 全 部 被 外 置 到 一 台 单 独 的 Dedup 服 务 器 主机 上 ， 而 客户 端 主机 上 只 
安装 Filter Driver 和 一 个 用 于 与 Dedup 服 务 端 通信 的 Agent。 服 务 端 与 客户 
端 之 间 通 过 某 种 网 络 来 通信 ， 由 于 Dedup 是 一 个 后 台 异 步 过 程 ， 对 实时 
IO 性 能 基本 上 影响 很 小 ， 所 以 这 个 网 络 采 用 普通 干 兆 以 太 网 即 可 。 
Dedup 服 务 端 为 每 个 加 入 Dedup 域 的 客户 器 主机 维护 各 目的 Metadata， 包 
括 指纹 仓库 、Delay Block Bitmap 和 了 Pointer List。 








对 于 每 个 主机 客户 端的 写 IO， 会 被 客户 端 复制 一 份 通过 网 络 传送 给 
Dedup 服 务 端 进行 Hash 计 算 和 Dedup 处 理 以 及 Pointer List 更 新 。 所 以 ， 这 
个 网 络 上 的 流量 会 是 比较 大 的 ， 因 此 最 好 使 用 单独 的 网 卡 和 交换 机 而 不 
要 与 前 端 交 换 机 混用 。 另 外 ， 回 服务 端 发 送 写 IO 数 据 的 过 程 对 客户 端 主 
机 的 原本 IO 性 能 影响 不 大 ， 但 部 署 时 需要 避免 这 块 网 卡 与 客户 端 原 本 的 
IO 适配器 处 于 同一 个 主机 IO 总 线 上 。 











每 个 主机 客户 站 的 读 IO 操 作 都 需要 查找 Pointer List 用 以 确定 IO 的 目 
标 地 址 所 落 入 的 Block 是 否 已 被 Dedup， 如 果 尚 未 被 Dedup， 那 么 Filter 
Driver 就 会 透明 发 问 下 层 直 接 从 底层 磁盘 对 应 地 址 读 出 数据 ， 如 果 已 经 
被 Dedup， 那 么 Filter Driver 会 根据 Pointer List 中 的 源 副本 所 在 地 址 读 出 
对 应 的 数据 部 分 。 但 是 在 上 图 所 示 的 这 种 彻底 Out-Band 模 式 下 ， 每 个 主 
机 客户 端的 Pointer List 都 被 存储 在 Dedup 引 擎 服务 器 上 ， 如 果 每 次 读 IO 
都 会 引发 一 个 向 外 Dedup 部 服务 端的 查询 请 求 ， 那 么 延迟 将 会 是 非常 大 
的 ， 严 重 影 响 性 能 。 鉴 于 此 ， 可 以 将 Pointer ”List 绥 存在 主机 客户 端 本 
地 ， 由 Agent 负 责 维护 以 供 Filter Driver 直 接 查 询 ， 避 免 通 过 网 络 。 被 组 
存 的 Pointer ”List 需 要 时 刻 保持 最 新 ，Dedup 服 务 端 需要 实时 地 将 Pointer 
List 的 变更 推送 到 客户 端的 Agent 处 。 





2) 主机 痛 / 存 储 端 /备份 介质 服务 器 中 Dedup 


与 其 大 动 干 戈 地 在 主机 端 搞 什么 In/Out-Band 架 构 设 计 ， 不 如 干脆 将 
Dedup 引 擎 全 部 放 入 存储 设备 之 内 来 运行 ， 主 机 端 不 需要 做 一 点 改动 ， 
完全 透明 访问 所 有 的 Dedup 过 的 LUN。 可 以 看 到 存储 端 Dedup 架 构 与 主 
机 端 别 无 二 致 ， 因 为 存储 设备 本 质 上 也 是 主机 。 


图 18-50 所 示 的 架构 既 可 以 针对 Block 存 储 设备 ， 也 可 以 针对 NAS 存 
储 设备 。 当 然 ， 在 NAS 上 也 可 以 实现 文件 层面 的 Single System Image 模 
式 的 Dedup。 


图 18-50 ”存储 端 Dedup 引 擎 架构 示意 图 


另外 ， 也 可 以 将 Dedup 引 擎 放 到 备份 介质 服务 闫 上 ， 上 所 有 客户 端的 
数据 源源 不 断 地 被 传 输 到 备份 介质 服务 右上，Dedup 引 擎 对 这 些 备 份 数 
所 进行 消 重 处 理 。 值 得 一 提 的 是 ， 备 份 介 质 服 务 磊 上 的 Dedup 引 擎 可 以 





针对 不 同 的 备份 介质 选择 前 人 台 处 理 或 者 后 合 处 理 ， 详 见 下 文 。 





3) Online/Offline Dedup 


Online Dedup 是 指 被 Dedup 的 目标 数据 为 当前 的 应 用 系统 正在 访问 
的 数据 。 由 于 Dedup 过 程 对 目标 LUN 有 一 定额 外 的 IO 消耗 和 IO 延迟 ， 包 
括 初 始 化 Dedup 时 读 取 Block 进 行 Hash 计 算 的 过 程 以 及 针对 每 个 读 IO 都 需 
要 额外 的 查询 Pointer List 的 步骤 ， 所 以 Online Dedup 对 生产 系统 的 IO 性 


全 » 2 
能 有 一 部 分 影响 。 





Offline Dedup 针 对 的 Dedup 目 标 则 为 那些 已 经 脱离 在 线 业 务 生 产 系 
统 访问 的 离线 数据 ， 比 如 ， 备 份 之 后 的 数据 。 针 对 这 些 数据 所 做 的 
Dedup 操 作 不 会 对 生产 系统 有 影响 。 








4) 局 部 /全 局 Dedup 


所 谓 局 部 Dedup 是 指 ，Dedup 引 警 只 在 进入 的 某 段 数据 范围 内 做 
Dedup。 比 如 单位 时 间 内 有 一 串 128KB 字 符 进 入 ， 如 果 是 局 部 Dedup， 
则 引擎 会 将 这 128KB 数 据 分 割 成 比如 4KB 大 小 的 Block， 算 出 每 个 Block 
的 Hash， 然 后 只 比 对 这 些 Block 之 间 有 没有 宛 余 数据 的 存在 ， 如 果 有 ， 
则 Dedup 其 中 元 余部 分 ， 只 写 入 唯一 的 数据 部 分 。 


所 谓 全 局 Dedup 是 指 ，Dedup 引 擎 会 对 进入 的 数据 切割 成 比如 4KB 
的 Block， 算 出 每 个 Block 的 Hash 之 后 ，Dedup 引 擎 会 去 系统 全 局 指纹 仓 
库 中 得 找 匹 配 的 指纹 ， 这 样 的 话 ， 去 重 比率 将 更 大 。 全 局 Dedup 的 另外 
一 个 含义 是 ， 可 以 做 到 路 设备 的 Dedup， 也 就 是 说 多 个 设备 共同 形成 一 
个 大 的 存储 池 ， 指 纹 仓 库存 储 着 所 有 设备 上 的 数据 指纹， 实现 器 设备 的 
全 局 Dedup。 








局 部 Dedup 的 本 质 更 加 接近 于 压缩 ， 而 全 局 Dedup 才 是 真正 的 
Dedup。 


5) Pre-Process/Post-Process Dedup 


Pre-Process 意 即 前 台 处 理 ，Post-Process 则 表示 后 台 处 理 ;，Pre- 
Process 又 被 称 为 In-Line Process， 了 Post-Process 又 被 称 为 Out-Line 
Process。 前 台 处 理 的 步骤 如 本 小 节 4 部 分 结尾 所 述 。 前 台 处 理 可 以 保证 
系统 时 刻 处 于 完全 Dedup 状 态 ， 任 何 时 刻 系 统 中 都 没有 元 余数 据 存 在 ， 
但 是 相应 地 它 也 增加 了 处 理 负担 和 延迟 ， 对 Write Through 模 式 的 写 性 能 
有 严重 影响 。 


而 Post-Process， 即 后 台 异 步 处 理 ， 根 据 设 计 的 不 同 也 有 不 同 的 影 
啊 。 比 如 某 种 设计 选择 完全 的 异步 处 理 ， 即 写 IO 在 进入 系统 时 ，Dedup 
模块 只 在 Delay Block Bitmap 中 记录 其 位 置 ， 而 不 计算 Hash 值 ， 任 赁 它 
们 被 写 入 存储 介质 。 当 Dedup 引 擎 因为 某 个 条 件 被 触发 时 ， 比 如 时 间 、 
剩余 空间 等 ， 引 擎 将 根据 Bitmap 来 读 出 对 应 的 Block 并 且 计 算 Hash， 然 
后 进行 消 重 。 但 是 这 种 做 法 需要 耗费 额外 的 读 IO 消耗 。 在 本 小 节 4 部 分 
中 的 首选 设计 方式 并 非 完 全 异步 处 理 ， 其 步骤 中 有 一 定 的 同步 处 理 过 
程 ， 即 每 进入 一 个 号 IO，Dedup 实 时 地 计算 其 Hash 值 并 且 保 存 到 指纹 仓 
库 ， 只 有 在 发 生 Dedup 引 擎 异常 或 者 系统 CPU 敌 盖 过 高 时 才 转 为 异步 处 
理 。 这 样 做 的 话 ， 指 纹 仓库 中 大 多 数 时 刻 都 是 最 新 的 指纹 ， 无 须 回 读 过 
程 ， 任 何 时 候 Dedup 消 重子 功能 被 触发 ， 引 苟 只 雷 要 在 指纹 仓库 中 查找 
相同 的 指纹 即 可 。 





综 上 所 述 ， 在 Online 的 数据 ， 总 是 应 当 使 用 Post-Process Dedup。 对 
于 Offline 数 据 ， 由 于 不 会 影响 生产 系统 性 能 ， 所 以 可 以 选择 使 用 Pre- 
Process。 一 个 典型 的 处 理 Offline 数 据 的 角色 就 是 备份 系统 中 的 介质 服务 


器 ， 当 连接 到 介质 服务 器 的 存储 介质 为 物理 磁带 等 不 可 快速 随机 寻 址 的 
存储 介质 的 时 候 ， 采 用 后 台 Dedup 处 理 是 不 恰当 的 ， 此 时 只 能 在 数据 被 
写 入 磁带 之 前 进行 Dedup 处 理 。 这 方面 详情 见 下 文 分 析 。 

提示 : ”以 上 的 类 别 划 分 于 不 同 层次 上 ， 每 个 类 别 之 间 可 以 互 

相 组 合 ， 比 如 “主机 端的 Out-Band 的 Offline 的 Post-Process 全 局 

的 Dedup”。 


6. Dedup 的 去 重 比 京 影响 因 系 


1) Block 大 小 的 影响 





毫 无 疑问 ，Block 粒 度 越 小 ， 发 图 18-51 不 同 Block 大 小 对 去 重 比率 的 影 
生 数 据 重复 的 几率 就 越 大 ， 去 重 比率 四 
就 越 高 。 如 图 18-51 所 示 ， 同 样 一 段 
数据 ， 如 果 按 照 Block 二 8KB 来 计算 一 个 Hash 值 的 话 ， 那 么 图 中 上 面 的 
两 个 Block 的 Hash 值 不 同 ， 则 这 两 个 块 任何 一 个 也 无 法 被 去 重 。 而 如 果 
Block 王 4KB， 那 么 其 中 的 就 有 一 个 Block 与 另外 一 个 Block 发 生 重 复 ， 其 
中 一 个 就 可 以 被 删 掉 。 然 而 ， 取 得 高 比率 就 要 付出 维护 复杂 度 增 高 、 性 
能 降低 的 代价 ， 熟 轻 识 重 ， 可 各 自 把 握 。 

















2) Block 边 界 的 影响 








如 果 数 据 并 不 是 按照 图 18-51 中 图 18-52 ”边界 位 移 导 致 的 去 重 比率 降低 
所 示 的 那样 排列 ， 而 是 按照 图 18-52 
所 示 的 排列 方式 ， 而 且 又 不 加 以 特殊 处 理 的 话 ， 那 么 这 个 例子 的 去 重 比 
率 就 是 0。 


上 图 左边 所 示 的 例子 中 ， 只 因为 Block 边 界 错开 了 一 个 字符 ， 却 导 





致 这 段 数据 的 局 部 去 重 比率 为 0。 右 边 所 示 的 为 两 串 字 符 串 数据 ， 只 因 
为 首部 插入 一 个 字符 ， 导 致 不 管 Block _ Size 为 多 大 【除非 一 个 字符 的 粒 
度 ) ， 这 个 全 局 的 Dedup 比 率 也 为 0。 


这 种 问题 是 现实 中 很 有 可 能 发 生 的 ， 比 如 用 户 在 某 个 文档 中 插入 一 
个 字符 ， 然 后 男 存 成 一 份 新 文档 ， 那 么 这 个 新 文档 对 应 的 底层 Block 内 
容 全 部 前 移 一 个 字符 ， 新 文档 和 旧 文 档 虽然 只 差 一 个 字符 ， 但 是 传统 的 
Dedup 却 无 能 为 力 。 


为 了 解决 这 个 问题 ， 一 些 厂商 实现 了 位 移 搁 术 ， 即 针对 等 处 理 的 数 
据 ， 先 从 二 进 制 流 上 进行 简单 抽样 比较 以 确定 是 否 发 生 了 这 种 位 移 现 
象 ， 通 过 比 对 结果 确定 发 生 位 移 的 偏 移 量 ， 然 后 使 用 特殊 的 处 理 方法 ， 
截 挥 首部 插入 导致 整体 位 移 的 数据 段 ， 单 独 存放 并 且 记 录 特 殊 的 元 数据 
言 轧 ， 剩 余 的 数据 部 分 再 按照 种 规 的 分 块 计算 Hash 然 后 Dedup 处 理 。 在 
提取 数据 时 ， 按 照 当初 存放 的 元 数据 信息 以 及 截取 的 数据 段 以 及 唯一 
Block 副 本 共同 组 合 还 原 成 原来 的 数据 。 


实现 这 种 可 变 长 度 时 的 算法 都 是 有 固定 模式 的 ， 各 个 上 商 可 能 使 用 
的 算法 大 同 小 录 。 基 本 上 都 是 按照 茶 窗 口 对 目标 数据 进行 扫描 ， 比 如 首 
先 错位 1 字 节 ， 如 果 没 有 发 现 元 余 典 ， 则 错位 2 字 节 扫描 ， 依 此 类 推 ， 直 
到 错位 到 一 个 最 大 窗口 ， 比 如 16 字 节 ， 之 后 如 果 还 没 肥 现 一 定 比例 的 元 
余 块 ， 则 放弃 这 次 扫描 ， 认 为 其 无 元 余 。 











这 种 方法 目前 被 厂商 称 为 “可 变 长 上 度 ” 的 Dedup 技 术 。 传 统 的 方法 被 
称 为 “固定 长 度 ” 的 Dedup 技 术 。 可 变 长 度 Dedup 技 术 只 对 局 部 Dedup 有 
效 ， 因 为 全 局 Dedup 的 情况 下 ， 要 进行 边界 位 移 ， 就 必须 提前 感知 到 当 
前 进入 的 数据 与 已 经 存储 的 数据 中 的 哪些 是 重复 的 以 判断 在 哪里 位 移 ， 
而 这 是 不 可 能 的 。 





7. 深刻 理解 Dedup 的 作用 层次 ， 真 的 Dedup 了 人 么 


现在 是 解释 本 小 市 4 部 分 中 的 疑问 的 时 候 了 。 我 们 要 时 刻 牢 记 ， 
Dedup 是 为 了 什么 而 生 的 呢 ? 当然 是 为 了 市 省 底层 存储 空间 ， 可 以 把 节 
省 出 来 的 空间 再 利用 而 生 的 。 那 么 也 就 是 说 ， 如 果 不 能 够 节省 出 底层 空 
间 ， 或 者 节省 出 来 的 空间 并 不 能 够 再 利用 ， 那 么 所 做 的 任何 事情 、 任 何 
技术 、 任 何 设 计 ， 都 将 是 没有 意义 的 。 








回顾 本 小 节 4 部 分 中 的 几 个 Dedup 步 又。 当 Dedup 引 擎 在 指纹 仓库 中 
找到 相同 指纹 之 后 ， 它 不 去 人 磁盘 上 将 见 余 的 Block 抹 掉 ， 而 只 是 将 这 个 
言 轧 更 新 到 Pointer List 中 。 有 人 会 有 疑问 ， 如 果 某 个 Block 被 Dedup 了 ， 
难道 不 需要 去 数据 卷 中 对 应 的 位 置 将 其 标记 为 指针 么 ?而 见 余 Block 依 
然 处 于 卷 中 未 被 删除 ， 那 么 怎么 会 节省 出 空间 来 呢 ? 其 实 抱 有 这 个 疑问 
的 人 尚未 理解 一 个 基本 原则 : 在 主机 上 ， 是 谁 来 最 终 决 定 LUN 的 剩余 空 
间 ? 这 个 问题 在 本 书 中 曾经 不 止 一 次 提 到 过 ，LUN 一 层 根本 无 法 感知 文 
件 系 统 的 剩余 空间 ， 所 以 ， 即 便 是 LUN 中 的 见 余 的 块 被 Dedup 了， 但 是 
这 种 Dedup 之 后 所 市 省 的 空间 ， 也 只 是 由 Dedup 引 苟 自 己 知道 (通过 统 
计 Pointer List 中 的 条 目 ) 。 但 是 上 层 的 文件 系统 已 经 认为 这 个 块 被 某 文 
件 占 用 了 ， 所 以 不 会 把 它 当 做 剩余 空间 来 对 待 ， 也 就 是 说 ， 你 只 能 眼 睁 
睁 地 看 着 实际 的 节省 出 来 的 空间 不 能 够 被 文件 系统 使 用 。 这 人 么 说 ， 
Dedup 根 本 没 意 义 了 ? Dedup 不 是 应 该 节省 出 一 部 分 数据 空间 的 么 ? 先 
别 急 。 











结论 1: ”任何 不 能 被 文件 系统 感知 到 的 回收 的 空间 ， 对 于 这 个 
文件 系统 来 讲 是 没有 意义 的 。 同 样 是 回收 空间 ， 但 是 De- 
Provision 的 做 法 与 块 级 Dedup 有 着 本 质 不 同 。De-Provision 是 运 
行 在 存储 端的 ， 它 使 用 某 种 方法 将 主机 端 文件 系统 中 的 剩余 空 








间 英 射 到 LUN， 在 LUN 所 占据 的 对 应 的 这 块 空 间 上 “ 打 孔 ”， 也 
就 是 “Hole Punching”， 这 些 孔 洞 就 变 成 了 剩余 空间 ， 那 么 同一 
个 存储 设备 上 的 其 他 已 经 存在 的 Thin LUN 需 要 占据 空间 时 ， 就 
可 以 利用 这 些 空间 ， 而 也 可 以 在 存储 端 利用 这 些 空间 创建 新 的 
Thin LUN， 甚 至 常规 LUN。De-Provision 与 Thin-Provision 紧 密 
结合 起 来 达到 共生 。 





不 知道 大 家 现在 是 人 否 看 出 一 点 器 倪 来 ， 仔 细 思 考 一 下 个 中 关系 。 怎 
样 才 能 使 主机 问 的 块 级 Dedup 变 得 有 意义 呢 ? 答案 是 ， 要 么 老 老 实 实地 
让 文件 系统 感知 到 剩余 空间 的 变化 ， 要 么 就 让 主机 亲 块 级 Dedup 实 现 与 
存储 端 块 级 Dedup 类 似 的 功能 。 





方法 1: ”让 主机 端 文件 系统 感知 到 空间 的 节省 。 你 会 发 现 ， 对 
于 块 级 Dedup 来 讲 ， 这 种 方法 永远 行 不通 。 为 何 呢 ? 因为 块 级 
Dedup 根 本 没有 考虑 一 点 点 FS 层 的 逻辑 ， 它 与 De-Provision 的 本 
质 是 不 同 的 。 所 以 ， 文 件 系统 始终 认为 底层 被 Dedup 的 块 是 有 
文件 在 占据 的 。 但 是 对 于 文件 级 别 的 pedup， 比 如 SIS， 是 完 
可 以 做 到 的 ，SIS 会 作用 在 文件 级 ， 会 将 文件 中 元 余 的 数据 切 
挥 ， 而 文件 的 元 数据 中 的 文件 长 度 保持 不 变 ， 但 是 底层 占用 空 
间 却 变 了 ， 这 些 修改 都 可 以 被 文件 系统 感知 到 ， 所 以 剩余 空间 
也 就 增 大 了 。 当 文件 系统 发 起 对 文件 中 被 Dedup 的 内 容 访 问 的 
时 候 ，SIS 的 底层 过 小 驱动 会 截获 对 应 的 访问 IO 请 求 并 且 读 出 
唯一 副本 并 返回 给 上 层 。 

方法 2: ”模仿 主机 端 对 LUN 的 管理 和 Thin/De-Provision。 室 无 
疑问 ， 要 做 到 此 ， 就 需要 在 主机 端的 LUN 之 上 再 建立 一 层 空 间 
管理 层 ， 也 就 是 卷 管理 层 ， 在 卷 管理 层 之 内 实现 对 LUN 之 上 的 
卷 的 Dedup 而 不 是 对 LUN 来 Dedup。 这 样 做 了 之 后 ， 卷 管理 层 














便 会 感知 到 哪些 卷 实际 占用 了 多 少 物理 空间 ， 而 节省 出 来 的 
LUN 中 的 空间 便 可 以 建立 其 他 的 新 卷 。 当 然 ， 如 果 在 这 个 卷 管 
理 层 内 同时 实现 Dedup、Thin/De-Provision 的 话 ， 那 么 其 节省 的 
空间 将 会 更 多 ， 存 储 利 用 率 将 会 更 高 ! 

提示 : ZFS 既是 一 个 LUN/ 卷 管理 层 又 是 一 个 文件 系统 ， 它 相 
当 于 把 外 部 智能 存储 设备 上 共有 的 功能 集成 到 了 主机 之 内 ， 类 似 
于 Symantec Storage Foundation。ZFS 对 LUN 的 管理 是 非常 灵活 
的 。 并 且 ZFS 已 经 实现 了 卷 级 别 的 Dedup。 

结论 2: ” 一切 在 主机 端 运行 的 、 块 级 的 、 针 对 LUN 的 Dedup， 
根本 无 法 达到 节省 和 利用 底层 存储 空间 的 目的 。 








那么 主机 端 针对 LUN 的 块 级 Dedup 是 否 完全 没有 意义 了 呢 ? 非 也 。 
比如 ， 在 备份 这 个 LUN 的 时 候 ， 主 机 瑞 就 可 以 不 备份 伞 Dedup 的 Block， 
节省 备份 数据 的 存储 空间 。 如 有 果 备 份 是 通过 网 络 将 数据 传送 给 备份 介质 
服务 器 的 ， 那 么 还 可 以 大 大 降低 传送 的 数据 数量 ， 降 低 备 份 押 需 的 时 
间 。 


结论 3: ”主机 端 块 级 的 、 针 对 LUN 的 Dedup， 只 有 在 备份 整个 
LUN 时 才 会 表现 出 节省 传输 数据 总 量 、 降 低 备 份 窗口 的 作用 和 


综 上 所 述 ， 块 级 的 Dedup 最 好 是 直接 作用 在 最 终 的 存储 端 ， 因 为 我 
们 最 终 要 市 省 的 束 是 物理 磁盘 的 空间 ， 而 物理 磁盘 直接 归 存 储 设备 管 
理 ， 所 以 没有 理由 不 在 存储 端 来 实现 Dedup。 然 而 ， 数 据 存 储 技术 不 但 
包含 如 何 存储 数据 ， 还 包含 数据 在 系统 中 的 传输 ， 比 如 网 络 数据 备份 系 
统 。 


8. 网 络 数据 备份 子 系统 中 的 Dedup 


不 管 是 人 否 是 Frontend-Free 模 式 的 备份 ， 既 然 要 备份 ， 那 么 一 定 牵 扯 
到 数据 从 源流 同 目 的 ， 而 目的 就 是 备份 介质 服务 器 ， 和 备份 介质 服务 器 再 
将 接收 到 的 待 备份 数据 写 入 底层 的 备份 介质 ， 比 如 人 磁盘、 磁带 等。 所 
以 ， 不 管 是 哪 一 层 的 Free， 数 据 传输 过 程 总 是 无 法 避免 的 。 而 如 有 果 需 要 
备份 的 数据 中 包含 了 很 多 见 余 的 内 容 ， 那 么 在 传输 的 时 候 束 会 产生 浪 
绩 ， 增 加 了 额外 不 必要 的 数据 传输 时 间 。 


而 如 末 在 数据 传输 之 前 ， 将 待 备份 的 数据 进行 Dedup 操 作 ， 在 传输 
过 程 中 只 传输 唯一 的 数据 副本 以 及 对 应 的 Pointer List 等 Metadata， 那 么 
就 会 大 大 降低 需要 传送 的 数据 数量 ， 就 像 上 一 节 中 的 结论 3 所 指出 的 那 
样 。 当 然 ， 结 论 3 中 指出 的 在 主机 端 实现 LUN 的 Dedup 在 备份 时 会 发 生 
效果 ， 但 是 这 必须 要 求 Dedup 引 擎 与 备份 恢复 系统 配合 ， 比 如 备份 服务 
器 发 起 备份 操作 时 ，Dedup 引 擎 必须 介入 ， 否 则 的 话 将 会 以 传统 方式 备 
份 带 有 元 余 的 数据 的 整个 LUN。 上 所 以 ， 在 实际 产品 中 ，Dedup 模 块 一 般 
都 是 作为 备份 软件 的 一 个 子 模块 来 存在 的 ， 安 装 在 客户 主机 之 上 。 














然而 ， 很 少 有 直接 备份 整个 LUN 的 ， 大 多 都 是 备份 文件 ， 所 以 此 时 
主机 上 的 SIS 模 块 便 可 以 与 备份 系统 相配 合 。 


也 不 一 定 非 要 在 主机 端 实现 Dedup， 有 时 候 宁 愿 牺牲 一 些 数 据 传输 
时 间 ， 也 不 希望 客户 主机 过 多 的 介入 从 而 影响 主机 性 能 。 此 时 ， 就 可 以 
在 备份 数据 离开 客户 端 主机 的 下 一 站 ， 也 束 是 备份 介质 服务 器 处 进行 
Dedup 操 作 ， 这 样 的 话 ， 数 据 到 了 备份 介质 服务 器 之 后 都 将 被 存储 为 一 
个 打包 的 映像 文件 ， 所 以 也 融 不 必 考 虑 文件 级 还 是 块 级 了 ， 统 一 使 用 块 
级 Dedup 以 提高 去 重 比 率 。 在 介质 服务 器 上 实现 Dedup 可 以 有 两 种 选 
择 : 前 台 Dedup 和 后 台 Dedup。 





如 果 备 份 介质 为 磁带 ， 则 必须 以 前 台 的 方式 来 实现 Dedup， 因 为 磁 


带 是 非 高 速 随机 寻 址 介质 ， 不 适合 后 人 台 的 Dedup。 在 前 台 Dedup 过 程 

中 ， 可 以 采用 局 部 和 全 局 两 种 模式 的 Dedup。 如 果 采 用 局 部 模式 ， 则 介 
质 服 务 器 上 的 Dedup 引 擎 对 接收 进来 的 数据 实时 切割 成 Block 然 后 计算 
Hash 值 并 存储 到 指纹 仓库 中 存放 ， 第 一 个 Block 无 条 件 直 接 写 入 介质 ， 
第 二 个 Block 进 入 后 先 计算 其 Hash 值 并 且 与 已 经 存在 的 指纹 进行 比较 ， 

如 有 果 匹 配 ， 那 恰好 不 用 写 入 介质 ， 只 需要 将 这 条 匹配 信息 记录 在 Pointer 
List 中 即 可 ， 后 续 的 Block 的 处 理 以 此 类 推 。 这 样 ， 就 可 以 针对 这 个 备份 
流 自 身 进行 Dedup， 也 就 是 局 部 Dedup。 如 果 采 用 全 局 的 Dedup 方 式 ， 则 
介质 服务 器 上 的 Dedup 引 擎 对 接收 进来 的 数据 计算 Hash 值 后 ， 会 将 这 个 
Hash 值 与 之 前 曾经 被 备份 过 的 数据 对 应 的 指纹 仓库 中 的 Hash 值 进行 比较 
从 而 Dedup， 也 就 是 说 进入 的 数据 在 全 局 范围 内 是 没有 见 余 的 ， 但 是 全 
局 模式 对 Dedup 引 擎 的 效率 以 及 介质 服务 器 的 处 理 能 力 要 求 比 局 部 模式 


要 融 。 

















介质 服务 器 都 有 本 地 的 硬盘 ， 所 以 也 可 以 先 将 备份 数据 流 暂 存在 本 
地 硬盘 的 某 处 作为 缓冲 ， 然 后 Dedup 引 警 后 台 处 理 ， 之 后 写 入 磁带 ， 也 
就 是 使 用 D2D2T 方 式 。 前 台 操 作 可 能 会 让 系统 应 接 不 上 暇 ， 降 低 整 体 性 
能 。 另 外 ， 操 作 磁 带 设备 与 操作 磁盘 设备 相 比 ， 会 耗费 更 多 的 CPU 周 
期 ， 所 以 前 台 Dedup 处 理 ， 同 时 后 台 还 要 写 入 磁带 ， 系 统 整体 性 能 将 会 
非常 低下 。 因 此 D2D2T 的 方式 是 Dedup 应 当 采 用 的 方式 。 








如 果 备 份 介质 为 磁盘 或 者 基于 磁盘 虚拟 出 来 的 磁带 〈《VTL) ， 则 可 
以 采用 后 台 Dedup 方 式 ， 因 为 此 时 可 以 快速 地 定位 和 读 出 需要 的 Block。 
在 这 种 模式 下 ， 介 质 服 务 句 首先 将 收 到 的 数据 流 按 照常 规 方式 直接 写 入 
磁盘 或 者 VTL。 当 Dedup 引 擎 触发 时 ， 再 从 对 应 的 目标 将 数据 读 出 计算 
Hash 并 且 做 Dedup 处 理 ， 然 后 再 写 到 新 的 介质 空间 ， 原 有 的 备份 数据 集 
删除 以 腾 出 空间 。 





在 进行 数据 恢复 时 ， 介 质 服务 器 上 的 Dedup 引 擎 必须 介入 ， 从 所 记 
录 的 Pointer List 以 及 数据 唯一 副本 ， 共 同 生 成 一 份 完 整 的 数据 ， 然 后 恢 
复 到 客户 端 主机 上 。 


当然 ， 也 不 一 定 非 要 在 介质 服务 器 上 实现 Dedup。 在 外 部 备份 存储 
介质 设备 中 比如 磁盘 阵列 、 磁 带 库 、VTL 上 一 样 也 可 以 实现 Dedup， 这 
里 便 是 数据 的 最 终归 属地 了 。 在 这 两 处 实现 Dedup， 其 本 质 原理 都 是 一 
样 的 ， 所 以 就 不 做 过 多 介绍 了 。 





综 上 所 述 ，Dedup 与 备份 是 绝对 不 可 分 割 的 ，Dedup 在 数据 备份 恢 
复 的 时 候 能 够 起 到 重要 的 作用 。 另 外 ， 作 用 于 Online 存 储 系统 上 的 
Dedup 可 以 节省 存储 空间 的 浪费 ， 腾 出 空间 以 做 它 用 ， 也 是 Dedup 友 挥 
重要 作用 的 一 处 。 


9. Dedup 思 想 的 其 他 应 用 


增 量 备份 、 差 量 备份 ， 通 常 是 在 应 用 程序 层 来 控制 的 ， 应 用 程序 来 
负责 备份 它 所 操作 的 文件 以 及 记录 每 次 备份 的 时 间 点 以 及 文件 所 变化 的 
部 分 。 备 份 软件 在 这 里 起 到 的 作用 只 是 配合 应 用 程序 将 其 生成 的 数据 流 
导 问 存储 介质 中 保存 ， 同 时 管理 和 维护 存储 介质 ， 以 及 制定 备份 任务 计 
划 等 功能 。 当 然 ， 备 份 软件 也 可 以 直接 将 整个 LUN 备 份 下 来 。 








然而 ， 备 份 软件 自身 如 何 能 够 实现 LUN 级 别 的 增 量 或 者 差 量 备份 
呢 ? 备份 软件 虽然 不 能 够 感知 各 种 应 用 程序 所 生成 的 文件 中 变化 的 内 容 
部 分 ， 但 是 它 可 以 记录 底层 的 Block 变 化 ， 将 上 一 次 备份 整个 LUN 之 
后 ， 这 个 LUN 中 所 发 生 的 所 有 写 IO 对 应 的 Block， 按 照 位 置 记录 在 一 个 
Bitmap 中 。 下 次 触发 备份 时 可 以 只 将 Bitmap 中 被 置 1 的 Block 备 份 下 来 即 
可 ， 这 样 就 实现 了 差 量 备份 。 











如 果 要 实现 增 量 备份 ， 则 可 以 将 上 一 次 的 Bitmap 封 存 ， 新 建 一 份 空 
Bitmap 来 保存 目 上 一 次 兰 量 或 增 量 备份 之 后 LUN 中 变化 的 Block， 当 再 
次 触发 增 量 备份 时 ， 将 这 份 新 Bitmnap 中 被 置 1 的 位 对 应 的 Block 备 份 下 
来 ， 并 封存 此 Bitmap， 创 建新 Bitmap， 依 此 类 推 。 在 进行 恢复 时 ， 会 根 
所 需要 恢复 的 备份 点 ， 将 这 个 备份 点 之 前 的 所 有 Bitmap 做 一 个 OR 操 
作 ， 合 成 一 份 完 整 反映 需要 恢复 的 Block 的 Bitmap， 然 后 首先 将 初次 全 
备份 的 数据 上 覆盖 到 目标 上 ， 再 根据 这 份 完整 Bitmap 和 每 次 增 量 所 备份 的 
Block 集 ， 提 取 对 应 的 Block 然 后 履 盖 到 目标 对 应 的 Block 位 置 上 。 这 种 方 
法 可 以 大 大 减少 每 次 需要 备份 的 数据 量 ， 但 是 却 不 能 减少 每 次 恢复 时 所 
恢复 的 数据 量 。 

















上 面 的 做 法 可 以 从 一 定 程 度 上 消除 一 些 不 必要 的 数据 块 的 恢复 ， 但 
是 并 不 能 彻底 杜绝 传输 一 些 不 必要 的 元 余数 据 块 ， 因 为 备份 软件 是 无 法 
感知 到 多 次 增 量 备份 的 数据 块 是 否 有 见 余 数据 存在 。 如 有 果 答 恢 复 的 目标 
处 已 经 存在 对 应 的 数据 ， 比 如 某 个 LUN， 由 于 用 户 误 对 LUN 进 行 了 格式 
化 操作 导致 数据 丢失 ， 需 要 恢复 ， 那 么 这 个 LUN 会 被 从 备份 介质 中 完全 
读 出 并 且 履 盖 ， 纵 使 当前 损坏 的 LUN 中 数据 几乎 与 待 恢 复 的 数据 相同 
(格式 化 只 是 抹 掉 初始 文件 系统 入 口 之 后 新 创建 一 个 而 已 )》 ， 所 以 ， 这 
就 会 产生 资源 浪费 。 如 果 数 据 是 通过 网 络 进 行 传输 的 ， 那 么 传输 多 余 的 
数据 块 就 会 增加 不 少 恢复 时 间 ， 增 加 RTO。 














如 果 用 Dedup 的 思想 ， 在 进行 恢复 之 前 ， 先 对 待 被 覆盖 的 数据 和 待 
恢复 的 数据 各 自 计 算 Hash， 通 过 比 对 找 出 相同 的 Hash， 然 后 只 履 盖 有 差 
列 的 Block， 这 样 的 话 ， 在 一 些 情况 下 《比如 上 面 的 格式 化 例子 ) ， 将 
会 大 大 降低 RTO。 某 些 产 品 已 经 可 以 实现 这 个 功能 ， 称 为 基于 Hash 的 增 
量 恢复 。 














Dedup 技 术 也 可 以 帮助 在 数据 容 灾 过 程 中 降低 需要 传送 的 数据 的 整 


体 数 量 ， 比 如 对 某 个 待 传输 到 灾 备 站 点 的 数据 流 ， 可 以 对 其 做 局 部 
Dedup 处 理 ， 大 大 减少 见 余 数据 的 发 送 。 


10. Dedup 功 能 在 产品 中 的 租 入 和 表现 形式 


上 文中 曾经 描述 过 ， 数 据 存储 技术 包含 如 何 存 储 数据 以 及 如 何 传输 
数据 。 那 么 Dedup 就 可 以 作用 在 数据 的 存储 点 ， 也 可 以 作用 在 数据 传输 
的 通路 上 。 前 者 的 模式 在 上 文中 已 经 有 很 多 描述 。 对 于 后 者 的 模式 ， 则 
可 以 在 数据 传输 通路 中 设置 一 个 网 关 ， 在 这 个 网 天 设 备 上 部 车 Dedup 模 
块 ， 任 何 通过 这 个 网 关 的 数据 流 都 被 Deudp 了 ， 前 端的 润泽 大 河 ， 被 
Dedup 了 之 后 就 变 成 了 涓涓 细 流 。 细 流 的 尽头 是 备份 介质 服务 器 ， 介 质 
服务 器 将 细 流 写 入 慢 速 的 磁 融 来 保存 。 这 个 关口 大 大 降低 了 后 端 介质 服 
务 吉 需要 写 入 的 数据 量 ， 降 低 了 备份 窗口 。 














目前 的 Dedup 产 品 ， 有 些 运行 在 主机 端 以 降低 备份 时 所 需要 传输 的 
数 气量， 有 些 运行 在 存储 端 以 达到 节省 空间 的 目的 ， 有 些 运 行 在 数据 传 
输 的 通路 中 来 消除 元 余数 据 ， 有 些 运 行 在 介质 服务 咒 上 来 降低 写 入 后 端 
介质 的 数据 量 ， 有 些 则 运行 在 数据 的 最 终归 窒 一 一 人 磁带 或 者 VTL 上 ， 对 
数据 做 最 后 的 Dedup。 








11. Dedup 存 在 的 问题 和 风险 





Hash 冲 突 当 然 是 第 一 大 风险 。 第 三 大 风险 就 是 数据 没有 见 余 ， 一 旦 
源 副本 受 损 ， 则 一 损 俱 损 。 但 是 对 于 第 二 个 问题 ， 如 宁 Dedup 用 于 
Online 数 据 中 ， 那 么 确实 会 有 这 种 风险 。 但 是 如 果 针 对 于 Offline 的 备份 
数据 ， 那 么 似乎 并 不 是 一 个 真正 的 问题 ， 因 为 备份 已 经 是 Online 数 据 的 
见 余 ， 虽 然 见 余 一 份 相 比 见 余 多 份 来 讲 保险 系数 要 低 ， 但 是 源 副 本 受 
损 ， 很 大 程度 上 是 因为 整个 介质 受 损 ， 这 样 看 来 ， 一 损 俱 损 也 是 逃 不 过 











的 。 





Dedup 对 数据 IO 性 能 方面 有 一 定 影 响 。 在 一 个 备份 系统 中 ， 在 没有 
引入 Dedup 之 前 ， 所 备份 的 数据 都 是 实 实在 在 的 物理 数据 ， 每 次 备份 下 
来 的 数据 基本 上 都 会 在 物理 位 置 上 被 连续 存放 。 而 一 旦 引入 了 Dedup， 
那么 多 次 备份 的 数据 中 的 元 余数 据 吏 会 被 用 指针 蔡 代 ， 那 么 就 会 产 
生 “ 孔 洞 ”， 使 得 本 来 物理 上 连续 的 数据 变 得 不 再 连续 。 这 样 ， 当 要 从 科 
Dedup 之 后 的 数据 中 将 菜 个 备份 集 读 出 来 的 时 候 ， 此 时 在 底层 束 属 于 一 
种 随机 IO 了， 有 时 候 从 Dedup 的 磁盘 介质 中 恢复 数据 的 过 程 ， 甚 全 比 从 
磁带 中 还 要 慢 。 这 种 效应 会 随 着 时 间 的 流逝 而 越 来 越 严 重 ， 就 像 文件 系 
统 中 的 文件 碎片 一 样 。 




















Dedup 在 写 入 数据 的 时 候 基 本 上 有 两 种 方式 : reverse referencing 和 和 
forward referencing。 前 者 的 做 法 是 ， 当 在 系统 发 现 一 个 元 余数 据 块 时 ， 
系统 会 保留 之 前 被 存储 的 旧 数 据 段 ， 同 时 在 旧 数 据 段 处 号 入 一 个 新 指 
针 ， 而 不 是 将 新 数据 写 入 磁盘 ;后 者 的 做 法 是 ， 系 统 会 将 新 数据 段 写 入 
磁盘 的 连续 的 物理 位 置 上 ， 然 后 将 旧 数 据 删 除 同 时 将 旧 数 据 蔡 换 成 一 个 
指向 新 数据 段 的 指针 。 对 于 前 者 ， 也 就 是 不 断 为 新 的 匈 余 数据 段 写 入 指 
针 的 做 法 ， 可 能 会 导致 最 新 的 数据 对 应 的 碎片 不 断 增加 ， 对 于 后 者 ， 也 
就 是 系统 不 断 地 写 入 新 数据 而 删除 旧 数 据 同 时 替代 为 指针 的 做 法 ， 则 可 
能 会 使 最 新 备份 的 数据 物理 上 保持 连续 ， 但 是 旧 备 份 对 应 的 数据 在 物理 
上 却 变 得 越 来 越 随机 。 


为 涉及 到 更 大 的 磁盘 写 入 数据 流 ，forward referencing 模 式 如 果 在 
前 处 理 模 式 的 重复 数据 删除 系统 中 使 用 的 话 ， 会 严重 影响 性 能 ， 所 以 它 
只 在 后 处 理 模式 的 重复 数据 删除 系统 中 使 用 ， 这 种 模式 的 数据 存储 方式 
可 以 让 最 新 的 备份 数据 恢复 起 来 更 快 ， 而 且 这 也 是 最 常见 的 情况 。 但 是 
Forward ”referencing 模 式 却 会 引 来 额外 的 IO 开 销 ， 比 如 它 不 但 需要 将 元 














余 的 数据 先 写 入 破 盘 而 不 是 写 指针 ， 而 且 随 后 还 会 查找 旧 的 元 余数 据 进 
行 删除 操作 。 


除了 使 用 Forward referencing 模 式 来 确保 最 新 被 备份 的 数据 具有 较 高 
的 读 取 速度 之 外 ， 有 些 厂 商 还 在 Dedup 系 统 内 实现 了 类 似 于 碎片 整理 的 
操作 ， 或 者 有 些 厂商 干脆 对 最 新 一 次 的 备份 不 进行 任何 Dedup 操 作 ， 以 
确保 它 的 恢复 速度 。 





不 管 是 Thin、Tier， 还 是 Dedup， 其 实 它们 都 是 很 早 就 已 在 其 他 领 
域 中 实现 的 技术 ， 如 今 这 些 技术 被 用 在 了 网 络 存储 领域 中 ， 来 回 翻 炒 以 
便 挖 掘 价值 和 发 展 。 


12. Dedup 之 后 再 压缩 


为 了 获得 最 大 的 空间 节省 比率 ， 还 可 以 在 对 数据 进行 Dedup 处 理 之 
后 ， 再 次 进行 压缩 操作 。 有 人 可 能 会 不 太 明 白 ， 既 然 Dedup 的 节省 效果 
比 压 缩 高 得 多 ， 那 么 为 何 Dedup 之 后 还 要 压缩 呢 ? 因为 正如 前 文 所 述 ， 
压缩 有 一 定 的 窗口 ， 只 可 以 在 小 范围 数据 长 度 之 内 进行 数据 消 重 ， 而 
Dedup 则 可 以 在 更 大 的 范围 甚至 全 局 范围 内 实现 消 重 ， 但 是 它 也 有 一 定 
的 最 小 粒度 ， 比 如 4KB、16KB 等 ， 它 可 以 将 多 份 相同 内 容 的 颗粒 进行 
消 重 只 保留 一 份 ， 但 是 却 不 可 能 对 这 一 份 颗粒 内 部 的 见 余数 据 再 进行 消 
重 ， 那 么 此 时 传统 的 数据 压缩 算法 就 可 以 派 上 用 场 了 。 如 果 目 标 数据 是 
文本 等 元 余 度 较 大 的 类 型 ， 那 么 Dedup 之 后 再 压缩 ， 依 然 可 以 获得 将 近 
20% 一 30%% 的 空间 节省 。 这 是 相当 可 观 的 ， 但 是 也 有 一 个 最 大 劣势 ， 就 
是 在 压缩 数据 时 以 及 读 取 时 的 解压 缩 过 程 中 ， 会 非常 耗费 CPU 资源 。 所 
以 这 种 手段 一 般 常 用 在 VTL 等 备份 环境 中 ， 由 于 传统 的 磁带 机 和 机 械 磁 
带 库 中 的 驱动 器 均 具 有 压缩 功能 ， 所 以 这 种 压缩 不 需要 额外 引入 第 三 方 
模块 ， 但 是 对 于 VTL 来 讲 ， 就 必须 引入 一 个 压缩 软件 模块 了 。 也 就 是 




















说 ， 一 台 VTL 上 可 能 同时 具有 Dedup 以 及 压缩 模块 ， 有 的 产品 还 引入 了 
便 压 缩 卡 来 分 担 主 CPU 的 负担 。 








18.3.5 ”磁盘 数据 一 致 性 保护 及 错误 恢复 
1. 坏 扇 区 重 定向 


数据 在 系统 中 流动 的 时 候 ， 随 时 可 能 会 发 生 畸 变 ， 比 如 某 个 位 原本 
应 该 是 0， 却 被 畸变 为 1。 这 种 情况 尚 没有 办 法 解决 ， 但 是 有 些 存储 系统 
为 了 保证 至 少数 据 从 硬盘 被 恋 入 内 存 这 个 阶段 中 不 会 畸变 ， 引 入 了 一 些 
额外 的 校 验 值 来 对 读 出 的 数据 做 校 验 ， 如 果 一 致 则 不 动作 ， 一 旦 发 现 不 
一 致 ， 则 通过 某 种 手段 来 恢复 之 前 的 数据 。 比 如 通过 校 验 值 来 纠正 ， 或 
者 通过 RAID 层 面 的 Parity 来 恢复 整个 Segment 上 的 数据 。 


其 次 ， 当 遇 到 物理 磁盘 坏 道 的 时 候 ， 也 珊 要 一 些 处 理 措 施 。 磁 盘 目 
号 会 有 坏 鹿 区 / 坏 道 重 定向 功能 。 比 如 某 时 刻 磁 盘 接 收 到 针对 某 扇 区 的 
写 操作 ， 但 是 却 发 现 此 局 区 已 损坏 ， 无 法 写 入 ， 那 么 此 时 磁盘 会 在 其 盘 
请 的 保留 区 域 分 配 一 个 属 区 作为 这 个 坏 忆 区 的 项 丛 ， 将 内 容 写 入 这 个 新 
而 区 ， 并 且 在 映射 表 中 增加 一 个 条 目 以 便 后 续 所 有 针对 这 个 地 址 的 操作 
都 重 定 同 到 答 代 恒 区 。 但 是 对 于 读 操作 ， 如 果 接 收 到 主机 针对 茶 届 区 的 
读 操 作 而 发 现 此 书 区 已 损坏 无 法 读 出 ， 那 么 此 时 磁盘 只 能 去 报错 ， 因 为 
此 时 数据 已 经 读 不 出 来 了 。 


在 磁盘 阵列 中 ， 如 果 某 个 RAID 组 中 有 磁盘 报 鹿 区 损坏 ， 那 么 控制 
器 此 时 可 以 从 RAID 组 中 其 他 磁盘 同一 条 带 中 的 数据 做 XOR 计 算 来 恢复 
出 对 应 Segment 的 数据 。 一 方面 控制 器 可 以 将 读 出 的 数据 返回 给 外 部 发 
起 IO 的 客户 端 主机 ， 同 时 ， 控 制 器 将 这 块 数据 再 履 善 写 入 有 坏 届 区 磁盘 
的 对 应 Segment， 当 这 块 磁盘 试 网 与 入 这 个 坏 届 区 时 发 现 无 法 写 入 ， 此 








时 就 不 一 样 了 ， 磁 盘 会 自动 将 这 个 坏 耐 区 重 定 同 到 保留 空间 的 某 个 好 局 
区 中 ， 这 个 动作 对 上 层 是 透明 的 。 写 入 之 后 ， 需 要 再 次 读 取 出 这 个 地 址 
的 内 容 来 验证 是 人 否 而 区 重 定向 动作 真 的 成 功 了 。 利 用 这 种 迁 回 的 方法 ， 
阵列 控制 右 可 以 将 某 块 磁盘 的 寿命 延长 。 这 种 做 法 在 Linux 下 的 软 RAID 
中 就 有 实现 ， 称 为 Bad Sector Remapping (BSR) 。 














此 外 ， 磁 盘 自 映 的 保留 区 域 容量 也 是 有 限 的 ， 如 果 由 于 坏 届 区 或 者 
坏 道 过 多 而 导致 连 这 些 保留 区 域 也 耗 尽 的 话 ， 那 么 这 块 磁盘 就 不 能 再 自 
动 重 定向 了 。 那 么 此 时 就 可 以 宣告 磁盘 完全 故障 了 么 ?并 非 如 此 ， 还 可 
以 继续 延长 它 的 寿命 。 如 有 末 遇 到 这 种 情况 ， 那 么 此 时 RAID 管 理 层 可 以 
发 挥 作用 了 ， 可 以 这 样 设计 : 让 它 先 同 LUN 管 理 层 查 询 一 下 当前 这 个 坏 
而 区 地 址 是 否 是 被 某 个 LUN 占 用 的 ， 如 果 确 实 是 被 菜 LUN 占 用 ， 那 么 
RAID 层 立即 先 用 其 他 磁盘 上 同一 条 市 中 的 数据 将 这 块 丢 失 的 数据 算出 
来 ， 然 后 将 整个 条 带 搬移 到 RAID 组 中 剩余 的 、 未 被 任何 LUN 所 占用 的 
空间 内 ， 并 且 做 好 指针 映射 记录 ， 或 者 只 重 定 疝 这 个 损坏 的 
Segment (一 个 条 带 占 用 一 块 盘 上 的 空间 称 为 Segment)〉。 这 样 ， 今 后 的 
所 有 IO 均 不 会 再 落 入 到 这 个 损坏 的 忆 区 或 者 此 道中 ， 从 而 将 磁盘 的 寿命 
压榨 到 极限 ! 








2. DIF (Data Integrity Field) 数据 一 致 性 保护 


数据 从 被 应 用 程序 生成 ， 一 直到 被 存 入 硬盘， 期 间 需 要 经 过 多 次 内 
存 复制 、 流 经 系统 总 线 、 进 入 IO 总 线 、 流 出 IO 总 线 到 IO 蕊 片 ， 然 后 流出 
IO 芯片 到 外 部 存储 网 络 ， 比 如 SAS、FC、SATA 等 ， 然 后 进入 磁盘 组 
存 、 后 流 经 磁头 臂 ， 被 转化 为 磁 信 号 ， 然 后 被 伐 化 到 盘 片 中 。 由 1 和 0 两 
种 状态 组 成 的 数据 ， 在 所 有 这 套路 符 上 的 每 个 部 件 中 流入 、 流 出 的 时 
候 ， 难 免 会 发 生 一 些 畸 变 ， 比 如 由 0 变 为 1 或 者 相反 。 发 生 畸 变 的 原因 有 











多 种 ， 外 界 扰动 、 软 件 pug 等 等 ， 都 可 能 造成 数据 量变 。 不 仅 在 外 部 传 
和 输 的 时 候 会 发 生 量变 ， 就 连 磁盘 要 写 入 盘 片 的 时 候 ， 也 有 一 定 几 率 发 
2 





上 述 数据 畸变 ， 都 不 会 被 上 层 感 知 ， 所 以 这 类 畸变 统称 Silent 
Corruption。 昌 然 上 述 数 据 畸 变 发 生 的 几率 ， 按 照常 理 来 讲 应 该 非常 
低 ， 但 是 实际 却 并 不 是 很 乐观 。NetApp 曾 经 对 150 万 块 在 线 SATA 人 硬盘 
做 了 长 达 32 个 月 的 跟踪 ， 结 果 令 人 震惊 ，0.66% 的 SATA 盘 都 出 现 了 数 
据 静 默 损毁 ，FC 盘 的 数据 静默 损毁 比率 则 为 0.06% 。 虽 然 有 些 阵列 后 台 
都 有 磁盘 扫描 功能 ， 可 以 检测 到 数据 域 Parity 的 不 一 致 ， 但 是 这 种 扫描 
属于 后 台 异 步 方 式 ， 并 不 能 100% 检 测 到 不 一 致 ， 据 统计 仍 有 13%% 的 不 
一 致 并 不 能 被 检测 到 。 








静默 损毁 一 旦 发 生 ， 则 后 果 是 比较 严重 的 ， 基 本 都 会 造成 数据 丢 
失 。 本 书 之 前 章节 介绍 SSD 时 ， 曾 经 说 过 SSD 中 的 Cell 失 效率 很 高 ， 需 
要 引入 ECC 纠 错 码 机 制 来 纠 错 ， 比 如 每 512B 的 内 容 引 入 32b 的 纠 错 码 ， 
就 可 以 纠正 这 512B 十 32b 的 数据 中 任意 32b 的 畸变 。 本 书 第 3 章 中 可 以 看 
到 一 个 机 械 磁盘 扇 区 的 全 貌 ， 扇 区 尾部 有 一 段 ECC 校 验 码 用 来 纠 错 。 
ECC 可 以 侦 测 和 纠 错 大 部 分 的 数据 畸变 。 但 是 ， 却 不 是 万 能 的 。 





比如 典型 的 三 种 问题 就 是 Lost Write、Torn Write 以 及 Misredirect 
Write。Lost Write 是 指 对 于 某 个 忆 区 ， 役 盘 根 本 就 没有 去 写 入 对 应 的 局 
区 就 同上 层 报告 写 入 成 功 了 ， 此 时 这 个 书 区 中 的 所 有 数据 依然 是 未 履 盖 
之 前 的 ， 也 是 一 致 的 ，ECC 无 法 发 现 ， 但 是 数据 确实 丢 了 。Torn Write 
则 是 指 磁头 只 部 分 写 入 了 对 应 的 届 区 ， 就 返回 成 功 信 号 了 ， 此 时 视 已 经 
履 盖 的 数据 量 的 多 少 ， 如 果 太 多 ， 那 么 有 限 的 ECC 位 不 能 够 纠 错 如 此 多 
的 不 一 致 数据 ， 了 吏 算 履 盖 的 比较 少 ，ECC 可 以 纠 错 ， 那 么 纠 错 之 后 ， 也 
会 是 这 个 而 区 未 履 盖 前 所 对 应 的 数据 ， 数 据 依 然 丢 失 了 。Misredirect 











Write 是 指 ， 磁 头 在 号 入 某 个 虱 区 内 容 的 时 候 ， 定 位 不 准 ， 将 内 容 写 到 

了 目标 书 区 劳 边 的 忆 区 中 ， 或 者 由 于 Firmware 等 的 bug， 写 到 了 压根 与 

目标 局 区 没有 任何 物理 近邻 关系 的 位 置 相 隅 很 远 的 届 区 中 ， 接 着 返回 成 
功 信 号 ， 此 时 ECC 无 能 为 力 。Lost ”Wirite 发 生 的 原因 尚 无 准确 的 结论 ， 

Misredirect Write 的 原因 大 部 分 是 外 界 扰动 ，Torn Write 的 细节 原因 ， 我 
也 无 法 知晓 。 这 些 限 于 微观 状态 的 动作 ， 其 原因 定位 非常 困难 。 











为 此 ， 需 要 一 种 更 加 智能 的 一 致 性 侦 测 手段 。 这 种 手段 就 是 在 数据 
区 增加 一 个 DIF (Data Integrity Field， 一 种 由 T10 制 定 的 标准 ) 区 段 用 来 
记录 一 些 上 层 的 信息 而 不 仅 是 校 验 值 。 对 于 FC 或 者 SAS 磁 盘 ， 广 商 一 般 
在 低级 格式 化 的 时 候 将 每 个 扇 区 格式 化 为 520B 而 不 是 常规 的 
512B (SATA 盘 使 用 512B 扇 区 ) 。 多 出 来 的 那 8B 就 是 DIF。SATA 盘 为 
何不 低 格 为 520B 届 区 呢 ? 这 么 做 是 有 原因 的 ， 因 为 SATA 盘 一 般 不 用 于 
企业 级 存储 系统 中 ， 而 FC 与 SAS 则 是 面向 高 端 应 用 ， 需 要 严格 保证 数据 
一 致 性 。 但 是 近年 来 随 着 数据 海量 增长 以 及 成 本 要 求 不 断 降低 ，SATA 
盘 越 来 越 多 地 被 用 于 企业 级 存储 系统 中 ， 但 是 其 512B 扇 区 的 设计 依然 未 
变 ， 并 且 SATA 盘 稳定 性 相对 FC 与 SAS 更 低 ， 所 以 也 迫切 需要 采取 手段 
来 保护 SATA 盘 数据 的 一 致 性 。 我 们 下 面 将 会 讨论 这 一 点 。 











如 图 18-53 所 示 为 DIF 区 段 在 整个 面 区 中 所 处 的 位 置 以 及 其 内 部 细节 
结构 。 其 中 Guard 字 段 为 2B 的 CRC 校 验 字 段 ，Application ”Tag 这 个 2B 的 
字段 则 是 可 自 定义 的 任何 信息 ， 比 如 这 个 块 属于 哪个 LUN， 或 者 属于 哪 
个 文件 系统 、 哪 个 目录 甚至 哪个 文件 ID 等 ， 都 可 以 ， 由 阵列 设计 者 而 
定 ; 4B 的 Reference Tag 字 段 则 为 本 鹿 区 对 应 的 LBA 地 址 。 


图 18-53 ”DIF 区 段 的 结构 


DIF 区 段 会 随 着 每 次 扇 区 的 IO 请 求 一 同 被 读 出 或 者 写 入 。 


下 面 我 们 就 来 看 一 下 DIE 是 如 何 帮 助 系统 侦 测 到 LW、TW 以 及 MW 
的 。 


(1) DIE 如 何 解决 Torn Write 问题 





先 说 一 下 TW， 也 惑 是 某 届 区 中 的 数据 只 被 号 入 了 一 部 分 就 返回 

了 ， 这 种 情况 下 ， 刷 区 中 当前 DIE 字段 中 的 CRC 校 验 码 是 与 数据 区 数据 
计算 出 的 校 验 码 不 一 致 的 ， 当 这 个 而 区 被 读 出 时 ， 底 层 将 执行 一 致 性 校 
验 ， 此 时 便 可 以 侦 测 出 数据 不 一 致 。 那 么 后 续 该 怎么 解决 呢 ? 负责 一 臻 
性 的 模块 此 时 需要 将 这 个 错误 上 报到 上 层 ， 比 如 RAID 层 ， 此 时 RAID 层 
先 读 出 这 个 扇 区 所 在 条 带 中 的 所 有 Segment 数 据 ， 依 次 做 检查 ， 如 果 其 
他 所 有 扇 区 数据 都 一 致 ， 那 么 此 时 RAID 才 可 以 ， 才 敢 使 用 这 个 扇 区 所 
在 的 RAID 条 带 上 其 他 成 员 租 以 及 Parity 盘 上 的 Segment 一 起 来 做 XOR 反 
运算 ， 从 而 得 出 这 个 不 一 致 的 而 区 原本 的 内 容 ， 然 后 再 次 罗 兰 一 迄 ， 从 
而 恢复 了 这 个 扇 区 原本 应 有 的 数据 。 而 如 果 RAID 在 检查 的 时 候 发 现 这 
个 条 带 中 出 现 了 多 个 位 于 不 同 Segment 中 的 扇 区 的 内 容 自 身 CRC 校 验 不 
一 致 ， 那 么 RAID 此 时 束 傻 眼 了 ， 因 为 此 时 相当 于 多 盘 失 效 ， 已 经 无 法 
重 算出 正确 数据 了 ， 只 能 向 上 层 报错 。 














(2) DIF 如 何 解决 Misredirect Write 问题 


再 看 一 下 MW。 假 设 某 时 刻 系 统 向 LBA1 处 进行 了 写 入 操作 ， 但 是 
这 份 数据 却 被 写 到 了 LBA1000 中 。 那 么 现在 的 状况 是 : LBA1000 处 之 前 
的 数据 丢失 了 ， 需 要 找 回 ，LBA1 处 当前 的 数据 并 不 能 使 用 ， 因 为 是 一 
份 过 期 的 数据 。 此 时 ， 系 统 面 临 着 很 复杂 的 境况 ， 即 LBA1 与 LBA1000 
所 在 的 条 带 都 是 不 一 致 的 (Raid 层 下 发 IO 时 是 一 致 的 ， 但 是 磁盘 自己 写 
偏 了 ， 实 际 上 当然 就 不 一 臻 了) ，RAID 校 验 层 可 以 通过 计算 来 察觉 到 
这 种 不 一 致 ， 因 为 对 数据 区 的 XOR 结 果 根 本 不 会 等 于 Parity 区 ， 但 是 








RAID 不 会 去 主动 实时 的 校 验 每 一 个 条 带 的 ， 甚 至 当 设 备 在 读 出 整个 条 
着 数据 到 内 存 里 之 后 也 不 会 主动 做 条 带 校 验 ， 因 为 这 样 太 耗 帝 资源。 有 
些 设 备 在 低 负 载 时 可 以 触发 主动 的 后 合 一 致 性 Parity 扫 描 检 查 来 尽量 发 
现 这 些 不 一 致 ， 但 终 客 只 是 做 到 了 “尽量 ”。 下 面 例子 中 会 举 出 系统 如 
何 “ 埋 雷 ” 的 例子 。 








如 果 本 次 MW 发 生 之 后 ， 紧 接着 的 下 一 个 针对 LBA1 或 者 LBA1000 
所 在 条 带 的 其 他 LBA (〈 非 LBA1 和 LBA1000) 任何 一 个 的 IO 是 写 IO 的 
话 ， 那 么 就 可 能 会 出 现 连环 污染 或 者 数据 永久 丢失 ， 而 且 上 层 根 本 无 法 
感知 到 静默 丢失 。 比 如 ， 本 次 MW 发 生 之 后 ， 又 有 针对 LBA1 处 的 正常 
写 入 操作 ， 那 么 如 果 RAID 组 为 校 验 型 RAID( 比 如 RAID 5) ， 那 么 此 时 
系统 会 利用 旧 LBA1 的 数据 、 新 LBA1 的 数据 以 及 | 旧 Parity 共 同 算出 新 
Parity (如 果 恰 好 为 针对 该 条 带 的 整 条 写 或 者 重 构 写 则 不 会 出 问题 ， 本 
例假 设 为 读 改写 ) ， 此 时 这 份 新 Parity 依 然 是 错误 的 ， 相 当 于 把 错误 发 
生 了 转移 ， 本 来 是 LBA1 是 错误 的 ， 现 在 转移 到 Parity 上 去 了 ， 当 然 ， 上 
层 是 无 法 区 分 到 底 是 LBA1 还 是 Parity 有 问题 ， 此 时 如 果 进 行 整 条 带 校 验 
计算 ， 会 发 现 仍 然 是 不 一 致 的 。 但 如 果 是 重 构 写 ， 则 会 修正 该 条 带 之 前 
的 错误 ， 也 就 是 第 二 次 写 入 的 LBA1 会 覆盖 之 前 的 原始 旧 LBA1 (第 一 次 
写 入 的 LBA1 此 时 依然 处 于 LBA1000 处 )， 同 时 读 出 该 条 带 剩余 的 
Segment， 共 同 计算 Parity 后 履 盖 旧 Parity， 此 时 整 条 带 是 一 致 的 ，LBA1 
的 错误 被 新 LBA1 的 数据 修正 了 。 所 以 这 便 成 了 一 个 不 可 预知 的 状态 ， 
完全 看 运气 。 但 是 如 果 在 系统 未 发 现 条 带 不 一 致 之 前 ， 针 对 LBA1 或 者 
LBA1000 所 在 条 带 的 其 他 LBA 〈 非 LBA1 和 LBA1000) 的 任何 一 个 IO 是 
写 IO， 而 且 是 读 改写 的 话 ， 那 么 这 份 错 误 的 LBA1 或 者 LBA1000 的 数据 
便 被 “合法 化 ”了 ， 因 为 此 时 该 条 带 是 可 以 被 校 验 通过 的 。 这 颗 “ 地 雷 ” 就 
永远 被 埋藏 于 此 了 ， 上 层 应 用 此 时 只 能 使 用 这 份 逻 辑 上 错乱 的 数据 ， 而 
绝对 不 会 知道 正确 的 数据 是 什么 。 这 种 情况 束 被 称 为 Parity pollution， 











即 校 验 值 污染 。 


通过 上 述 过 程 的 分 析 我 们 可 以 得 出 结论 ， 也 就 是 如 果 有 一 种 方法 可 
以 让 系统 感知 到 发 生 了 MW， 那 么 在 特定 条 件 下 ， 系 统 可 以 成 功 纠 错 。 
每 个 扇 区 的 DIF 区 段 里 的 reference tag 记 录 了 该 请 区 所 属 的 LBA 号 ， 系 统 
在 内 存 里 会 为 每 笔 1O 数 据 贴 上 其 “应 该 ”对 应 的 LBA 号 ， 这 样 就 可 以 让 系 
统 感知 到 MW 现象 了 。 比 如 ， 当 MW 发 生 之 后 的 第 一 个 针对 LBA1000 的 
请 求 为 读 请 求 或 读 改 写 请 求 ( 读 改写 会 先 读 出 LBA1000 原 有 数据 〉， 总 
之 系统 读 出 了 LBA1000 里 的 数据 ， 此 时 系统 发 现 该 而 区 DIF 区 段 里 的 
LBA 写 莞 然 是 LBA1 (之 前 被 磁盘 自身 写 偏 ) 而 不 是 LBA1000， 那 么 就 
知道 发 生 了 MW， 系 统 此 时 会 立即 判断 是 否 “ 还 来 得 及 ”， 还 来 得 及 做 什 
么 ? 当然 是 纠 错 。 之 前 提 到 过 ， 污 染 是 可 以 被 传递 的 ， 已 经 被 传递 的 污 
染 是 不 可 挽回 的 。 比 如 ， 假 设 在 系统 发 现 LBA1000 里 的 数据 其 实 应 该 属 
于 LBA1 之 前 ， 该 条 带 的 其 他 Segment 没 有 发 生 写 入 操作 ， 那 么 此 时 系统 
发 现 了 MW 之 后 ， 便 可 以 利用 该 条 带 其 他 Segment 来 校 验 出 LBA1000 之 
前 被 错误 履 盖 的 数据 ， 判 断 是 否 该 条 带 其 他 Segment 曾 经 在 MW 之 后 发 
生 了 写 入 的 办 法 就 是 计算 该 条 带 当前 的 校 验 是 否 通 过 ， 如 果 不 通过 ， 证 
明 尚 未 有 写 入 操作 ， 也 就 是 污染 未 被 传 递 ， 如 果 校 验 通 过 ， 则 可 以 判断 
发 生 了 污染 传递 ， 此 时 系统 无 法 判断 从 MW 发 生 到 被 友 现 之 间 这 段 时间 
之 内 系统 对 该 条 带 上 哪个 Segment 做 了 写 入 操作 (如 果 能 够 判断 出 是 对 
非 LBA1000 做 了 写 入 ， 那 么 还 是 可 以 挽回 的 ， 但 是 系统 判断 不 出 来 〉， 
LBA1000 之 前 被 错误 履 盖 的 数据 就 无 可 挽回 了 。 




















但 是 ， 上 述 的 判断 方法 成 立 的 前 提 是 发 现 某 届 区 的 确 出 现 了 MW， 
也 就 是 对 应 的 reference tag 中 的 LBA 号 与 当前 其 所 处 的 LBA 写 不 同 。 如 果 
未 出 现 MW， 仅 仅 是 校 验 无 法 通过 的 话 ， 上 述 判断 就 不 能 适用 。 比 如 这 
个 场景 ，MW 发 生 之 后 ， 接 着 收 到 一 个 针对 LBA1000 的 正常 的 写 操作 ， 





此 时 原本 应 当 沙 在 LBA1 的 数据 惑 会 被 永久 敢 盖 掉 并 且 永 远 找 不 回来 。 
同时 ， 如 果 是 读 改 写 ， 则 会 将 逻辑 错误 传递 到 Parity 上 去 ， 并 且 每 个 而 
区 的 reference tag 中 的 LBA 号 与 其 所 处 的 LBA 也 是 对 应 的 ， 结 果 就 是 系统 
即便 发 现 了 该 条 带 不 一 致 ， 也 永远 不 会 知道 其 实 该 条 带 的 数据 Segment 
此 时 已 经 都 是 一 致 的 了 ， 系 统 此 时 会 判断 出 并 没有 发 生 MW 《其 实 是 发 
生 过 但 是 没 来 得 及 被 发 现 之 前 就 被 正确 的 LBA1000 忆 区 内 容 叉 履 盖 写 

了 ) ， 只 能 向 上 层 报 错 。 











假设 我 们 运气 很 好 ， 系 统 挽回 了 LBA1000 的 旧 数 据 并 做 了 恢复 ， 那 
么 这 个 原本 应 该 覆盖 到 LBA1 的 扇 区 ， 此 时 是 否 可 以 顺水 推 舟 的 覆盖 到 
当前 的 LBA1 处 ? 一样， 也 需要 对 LBA1 所 在 的 条 带 判断 是 否 发 生 了 污染 
传递 ， 如 果 未 发 生 ， 则 可 以 覆盖 ， 如 果 已 经 发 生 ， 则 不 能 覆盖 ， 因 为 系 
统 无 法 判断 出 是 否 LBA1 在 MW 发 生 和 被 发 现 这 段 时 间 内 是 否 发 生 了 写 
操作 ， 不 能 擅自 履 盖 。 


如 果 无 法 纠 错 ， 则 系统 直接 报 unrecoverable error， 告 诉 上 层 说 这 个 
错误 我 恢复 不 了 了 ， 你 该 怎么 办 就 怎么 办 吧 。 此 时 上 层 可 以 使 用 比如 恢 
复数 据 、 快 照 回 深 每 方法 来 恢复 数据 ， 大 不 了 几 天 的 活 白 干 了 ， 重 新 处 
理 计 算 一 表 ， 也 不 能 明知 系统 内 有 地 雷 而 依然 问 上 层 掩 产 这 个 事实 。 








静默 损毁 属于 定时 炸弹 ， 一 旦 被 损毁 的 数据 属于 高 精 尖 行 业 比 如 卫 
星 导弹 ， 后 果 不 可 设想 ， 比 如 卫星 偏离 轨道 之 类 。 


(3) DIF 如 何 解 决 Lost Write 问题 


Lost Write (LW) 算是 最 难 解 决 的 问题 之 一 。 因 为 LW 在 现场 根本 
不 会 留 下 任何 犯罪 证 据 。TW 会 留 下 扇 区 上 自身 CRC 校 验 不 一 致 的 线索 ， 
MW 会 在 错误 重 定向 之 后 的 扇 区 留 下 表 里 不 一 的 线索 ， 而 LW 呢 ? 大 家 





想 一 下 ，LW 是 指 磁盘 根本 没有 去 页 对 应 的 目标 届 区 ， 就 问 上 层 人 返回 写 
入 成 功 了 ， 此 时 ， 除 非 事 先 就 知道 发 生 了 LW， 盏 则 你 根本 无 法 知道 是 
侣 发 生 了 LW。 然 而 ， 一 点 办 法 都 没有 了 人 么 ? 非 也 。 系 统 底层 肯定 是 无 
法 感知 到 LW， 那 么 就 只 能 靠 上 层 来 解决 。DIF 区 段 中 还 有 一 项 叫做 
Application Tag 的 字段 ， 它 就 是 来 解决 LW 问题 的 。 








比如 ， 系 统一 定 可 以 知道 茶 个 书 区 具体 属于 哪个 LUN， 对 于 NAS， 
也 一 定 会 知道 某 个 而 区 具体 属于 哪个 文件 系统 、 目 录 ID、inode ID 等 ， 
如 果 每 次 与 入 刷 区 的 时 候 ， 都 将 对 应 的 这 些 高 层 信息 更 新 到 DIF 中 的 
Application Tag 并 且 一 起 写 入 忆 区 ， 那 么 如 果 今 后 一 旦 发 生 LW， 当 系统 
再 次 读 出 对 应 的 而 区 时 ， 可 能 这 个 山区 原本 对 应 的 文件 D、LUN ID、 
inode 写 等 是 男 外 一 个 文件 或 者 LUN 的 ， 而 不 是 当前 正在 操作 的 文件 或 
者 LUN 的 ， 那 么 此 时 系统 便 会 知道 发 生 了 LW， 便 会 报错 。 但 是 绝 大 多 
数 时 候 是 不 可 能 检测 到 LW 的 ， 因 为 基本 上 大 部 分 写 入 动作 都 属于 窟 盖 
写 ， 也 就 是 某 个 忆 区 之 前 属于 哪个 文件 ， 一 般 都 会 一 直属 于 这 个 文件 ， 
对 其 更 改 之 后 ，inode 不 会 变化 ， 发 生 了 LW 之 后 ， 其 inode 也 依然 不 会 变 
化 ;除非 某 个 书 区 对 应 的 文件 被 删除 ， 又 有 新 文件 占用 了 这 个 忆 区 ， 然 
后 在 发 生 第 一 次 号 入 时 ， 恰 好 遇 到 了 LW， 那 么 此 时 系统 便 可 以 通过 两 
次 inode 不 一 致 来 判断 发 生 了 LW。 而 对 于 LUN 来 讲 ， 基 本 上 用 这 种 方法 
就 无 法 检测 LW 了 ， 因 为 LUN 一 旦 被 创建 ， 其 位 置 基 本 上 是 固定 的 了 ， 
除非 做 了 Row 的 snapshot 之 类 ， 既 然 总 是 固定 ， 那 么 不 管 写 入 某 个 而 区 
多 少 次 ， 都 属于 上 履 盖 写 ，LUN ID 都 不 变 ， 也 就 无 法 检测 到 LW 了 。 所 以 
基本 上 目前 能 够 检测 LW 的 存储 厂商 屈指 可 数 。 
































提示 : ”LW 对 于 一 般 存储 系统 来 讲 基本 上 属于 必 欠 级 别 ， 一 旦 
发 生 基 本 上 所 有 产品 都 无 法 感知 到 ， 当 然 ， 它 们 一 定 不 会 告诉 
客户 它们 无 法 检测 到 LW， 只 能 说 这 种 事件 发 生 几 率 非 第 低 ， 








发 生 了 的 话 你 也 就 乖 尔 认 了 吧 。 但 是 有 一 家 广 商 却 赁 借 其 独特 
的 数据 排 布 架构 而 能 够 检测 到 LW， 这 家 厂商 就 是 NetApp。 这 
里 我 绝对 不 带 有 时 拜 或 者 推广 的 意思 。 


NetApp 的 WAFL 文 件 系 统 ， 之 前 也 介绍 过 ， 每 次 写 入 都 会 写 到 空闲 
空间 ， 不 会 履 盖 写 ， 这 种 机 制 决定 了 它 可 以 天 然 的 检测 到 LW 的 发 生 。 
WAFL 的 文件 系统 Tree ID 会 随 着 每 次 刷 盘 而 变化 ， 只 要 系统 恋 出 某 个 局 
区 之 后 发 现 这 个 肩 区 中 DIF 区 段 Application Tag 字 段 中 包含 的 Tree ID 并 
不 等 于 上 一 次 刷 盘 的 Tree ID， 那 么 就 可 以 判断 上 一 次 刷 盘 时 这 个 扇 区 发 
生 了 Lost Write， 此 时 便 可 以 通过 RAID 层 面 的 Parity 来 重 算出 这 个 扇 区 原 
本 应 当 写 入 的 数据 并 做 覆盖 ， 其 具体 步骤 与 上 文 所 述 的 相同 。 

















(4) 如 何在 SATA 盘 中 存放 DIE 信息 





SATA 和 檀 每 局 区 被 低 格 为 512B， 那 么 就 没有 空余 的 空间 来 存放 DIF 
言 息 了 。 此 时 就 必须 在 上 层 强 行 分 配 DIF 空 间 ， 有 多 种 手段 。 如 图 18-54 
所 示 即 为 一 种 方式 ， 也 即 是 直接 把 磁盘 当做 一 个 连续 地 址 空间 ， 管 你 一 
个 情 区 多 大 ， 我 就 在 每 512 字 节 之 后 放 8 字 节 的 DIF 内 容 。 这 样 做 会 导致 
520 字 节 的 逻辑 扇 区 与 512 字 节 的 物理 扇 区 错位 ， 导 致 每 读 出 一 个 逻辑 扇 
区 ， 就 要 同时 读 出 其 横 跨 的 左右 两 个 物理 鹿 区 ， 写 也 一 样 ， 会 产生 大 量 
的 读 写 惩罚 。 




















图 18-54 SATA 盘 中 的 DIE 放置 方法 1 











另外 一 种 方法 则 利用 一 种 扩大 粒度 的 思想 。 由 于 每 512 字 节 需 要 8 字 
节 的 DIF， 那 么 64 个 512 字 节 ， 恰 好 总 共 需 要 64x8B 二 512B 的 DIF 内 容 ， 
这 恰好 又 是 一 个 512B 扇 区 的 容量 ， 那 么 就 可 以 将 这 个 专门 存放 D 正 的 局 
区 追加 到 每 64 个 扇 区 之 后 。 如 图 18-55 所 示 即 为 这 种 思想 的 一 个 示意 











图 18-55 SATA 盘 中 的 DIE 放置 方法 2 


但 是 这 种 做 法 有 个 问题 ， 由 于 每 次 读 出 任何 一 个 忆 区 ， 都 需要 顺带 
读 出 对 应 的 DIE 信息 ， 所 以 如 果 仅 仅 读 出 比如 第 5 个 忆 区 ， 那 么 磁头 此 时 
就 需要 等 竺 盘 上 请 继续 旋转 到 DIF 届 区 位 于 磁头 之 下 时 ， 将 其 读 出 ， 增 加 
了 等 待 时 间 ; 并 且 ， 如 果 在 设计 DIE 扇 区 所 处 的 位 置 时 ， 比 如 可 以 放 在 
每 64 书 区 的 首部 或 者 尾部 ， 如 末 这 种 设计 没有 考虑 盘 片 旋转 方 稀 与 而 区 
排 布 方 回 的 话 ， 那 么 可 能 磁头 会 先 划 过 DIF 届 区 ， 再 划 过 其 对 应 的 64 个 
数据 珊 区 ， 那 么 此 时 磁头 就 只 能 在 读 取 对 应 的 数据 届 区 之 后 ， 等 待 盘 片 
旋转 一 大 团 ， 再 转 回 到 DIF 届 区 时 ， 从 而 将 其 读 出 ， 所 以 这 一 点 一 定 要 
考虑 到 ， 当 划 过 DIF 时 就 将 其 读 出 从 而 市 省 时 间 。 其 次 如 果 过 到 DIF 局 
区 与 其 对 应 的 64 个 数据 山区 位 于 不 同 磁道 的 时 候 ， 还 要 额外 产生 寻 道 操 
作 ， 这 束 更 降低 了 性 能 。 

















经 过 实际 测试 ， 即 便 是 考虑 了 时 间 先 后 问题 ，SATA 盘 此 时 所 表现 
出 来 的 性 能 确实 也 有 不 小 的 降低 ， 就 是 因为 等 待 时间 与 寻 道 开 销 导致 。 
所 以 ， 有 些 三 家 的 设备 不 得 不 选择 降低 粒度 ， 比 如 每 8 个 肩 区 后 面 妃 加 
一 个 DIEF 扇 区 ， 这 样 的 话 ，8x8B 王 64B， 这 个 DIEF 扇 区 中 就 只 有 前 64 字 节 
被 利用 了 起 来 ， 浪 费 掉 了 448B， 鉴 于 此 ， 可 以 将 这 个 DIF 户 区 后 面 紧 邻 
的 8 个 数据 扇 区 的 DIE 信息 也 存放 在 其 中 ， 也 就 是 一 个 DIEF 书 区 的 左右 各 
8 个 共 16 个 肩 区 的 DIF 可 以 共用 这 一 个 DIF 户 区， 这 样 就 降低 了 浪费 程 
度 ， 变 为 384B 的 浪费 值 。 同 时 提升 了 性 能 。 可 以 调整 为 16 届 区 或 者 32 局 
区 这 样 的 粒度 ， 从 而 在 性 能 与 容量 浪费 之 间 取 得 平衡 。 





(5) 实现 DIF 计 算 和 检查 的 角色 及 其 所 处 位 置 


首先 ， 阵 列 中 的 HBA 上 的 FC、SAS 控 制 器 已 经 普遍 支持 DIE 的 计 
算 、 插 入 与 剥离 操作 。 当 写 数据 IO 被 由 主机 下 发 到 阵列 前 端 HBA 卡 中 的 
控制 器 芯片 之 后 ， 芯 片 可 以 计算 〈 计 算出 CRC， 并 插入 对 应 的 LBA 地 
址 ) 并 癌 每 个 IO 中 插入 DIF 区 段 ， 之 后 将 已 经 插入 DIE 的 数据 IO 继续 下 
发 到 IO 路 径 下 层 。 不 仅 前 端 ， 阵 列 后 端 连 接 磁盘 扩展 柜 的 HBA 控 制 器 也 
可 以 实现 DIE 的 计算 可 插入 。 对 于 SATA 和 磁盘， 到 底 在 阵列 前 端 就 实现 
还 是 在 后 端 实现 ， 取 诀 于 阵列 设计 者 的 全 盘 考 虑 。 


其 次 ， 阵 列 操作 系统 内 核 软件 模块 也 可 以 实现 DIF 的 计算 与 插入 ， 
不 过 束 需 要 耗费 一 定 的 主 CPU 资 源 了 ， 但 是 如 果 要 实现 诸如 LW 监测 这 
种 级 别 的 DIF， 那 么 就 一 定 需 要 在 阵列 系统 内 核 中 用 软件 实现 了 。 








然后 某 些 SATA-FC，SATA-SAS 转 接 卡 上 的 控制 蕊 片 也 可 以 做 到 
DIF 计 算 与 插入 ， 这 些 必 片 除了 要 计算 DIF 之 外 ， 还 需要 考虑 SATA 盘 的 
512 字 节 忆 区 对 齐 的 问题 ， 需 要 实现 底层 地 址 的 屏蔽 透明 转换 操作 。 有 
些 SATA 转 接 芯 片 则 自己 不 计算 DIF， 只 提供 512 字 节 到 520 字 节 的 地 址 
映射 翻译 工作 ， 这 样 就 可 以 让 上 层 部 件 来 计算 和 插入 DIF 了 。 








如 图 18-56 所 示 为 一 个 典型 系统 路 径 下 DIF 的 插入 、 校 验 转 发 、 写 
入 、 读 出 、 删 除 动作 流程 示意 图 。 可 以 看 到 阵列 前 端 FC 控 制 器 实现 了 
DIF 区 上 段 的 插入 〈 写 入 阵列 时 ) 与 删除 〈 读 出 阵列 时 ) 操作 ， 系 统 路 径 
之 下 每 个 支持 DIE 的 组 件 ， 比 如 后 端 HBA， 都 会 对 收 到 的 IO 数据 进行 校 
验 ， 通 过 就 继续 向 上 层 或 者 下 层 转 有 发 ， 一 旦 发 现 不 一 致 则 向 其 上 游 报 
错 ， 从 而 上 游 可 以 重新 发 送 或 者 连环 向 更 上 游 组 件 报错 从 而 推动 问题 的 
解决 。 





图 18-56 ”实现 DIF 的 角色 与 位 置 





另外 ， 有 些 磁 盘 《〈 比 如 日 立 ) 目 喘 可 以 实现 DIF 区 段 的 计算 与 插 
入 ， 对 上 层 透 明 为 512 字 节 刷 区 。 在 使 用 支持 DIF 的 各 种 组 件 时 ， 需 要 统 
筹 掌握 和 利用 ， 从 而 在 路 径 上 各 个 点 处 保持 良好 的 配合 。 


3. 数据 一 致 性 保护 总 结 





经 过 本 节 的 介绍 ， 想 必 大 家 已 经 可 以 深入 了 解 DIF 属 于 一 致 性 保护 
的 方式 ， 以 及 TW、MW 和 LW 三 种 典型 的 使 数据 不 一 致 的 现象 。 由 于 主 
机 侧 的 组 件 众多 ， 所 以 目前 业界 也 一 直 在 研究 如 何 保证 端 到 端的 数据 一 
致 性 ， 让 数据 从 被 主机 侧 应 用 程序 生成 ， 一 直到 最 后 写 入 磁盘 ， 都 能 够 
保证 每 个 环 市 的 一 致 性 。 











DIF 依 然 不 是 万 能 药 ， 其 所 能 解决 的 一 致 性 也 是 比较 有 限 的 。 力 
外 ，XOR 校 验 也 并 不 能 保证 100% 几率 检测 到 不 一 致 ， 比 如 一 旦 一 串 数 
据 中 的 两 个 部 位 同时 发 生 畸 变 ， 一 处 由 0 畸变 为 1， 而 另 一 处 由 1 畏 变 为 
0， 则 此 时 这 串 数 据 的 XOR 校 验 值 是 相同 的 ， 系 统 不 会 认为 数据 不 一 
致 。ECC 纠 错 算法 则 可 以 检 训 到 这 种 不 同位 置 的 循环 畸变 。 





另外 ， 此 系统 发 现 东 条 带 的 数据 存在 不 一 致 现象 ， 但 是 每 个 而 区 目 
号 的 校 验 都 是 一 致 的 ， 那 么 此 时 系统 就 无 法 判断 出 到 底 是 谁 导 致 的 不 一 
致 。 而 如 果 使 用 RAID 6 双 校 验算 法 ， 就 可 以 利用 二 元 方程 来 判断 完 竟 是 
哪个 Segment 发 生 了 不 一 致 ， 毕 竞 两 个 校 验 都 发 生 不 一 致 的 几率 是 非常 
低 的 。 


Lost Write， 最 令 人 头疼 的 难题 ， 也 不 是 不 能 解决 ， 可 以 使 用 Write 
and Verify 这 个 SCSI 指 令 ， 即 每 次 写 入 之 后 立即 读 出 这 个 届 区 来 判断 是 
仿真 的 成 功 写 入 ， 但 是 这 样 做 会 耗费 相当 大 的 资源 ， 不 具 实 用 价值 ， 除 
非 对 数据 一 致 性 确 有 奇 刻 要 求 而 又 可 以 容忍 性 能 降低 的 情况 下 。 


现在 业界 出 现 了 一 种 近 线 (Nearline，NL) SAS 或 者 近 线 FC 人 磁盘， 
这 种 磁盘 其 原型 其 实 为 那 种 带 有 SATA-FC 或 者 SATA-SAS 转 接 卡 的 
SATA 盘 ， 由 于 厂 盘 阵列 后 端 一 般 都 使 用 FC Loop 或 者 SAS Expander 网 络 
来 连接 FC 或 者 SAS 磁 盘 ， 而 SATA 盘 知 要 用 于 这 种 磁盘 扩展 柜 中 ， 就 需 
要 加 转 接 卡 ， 各 个 厂商 都 去 选择 各 种 转 接 卡 ， 寻 致 型 号 、 协 议 都 不 同 ， 
兼容 性 也 不 同 ， 浪 费 资 源 。 所 以 人 磁盘 三 两 干脆 推 出 了 将 转 接 芯片 集成 到 
磁盘 自身 的 SATA， 这 也 就 是 所 谓 NL-SATA 磁 盘 了 。 不 仅 如 此 ，NL- 
SATA 并 不 仅仅 是 这 点 变化 ， 由 于 用 于 企业 级 存储 系统 中 ， 所 以 三 商 在 
低 格 的 时 候 ， 对 NL-SATA 盘 也 直接 低 格 成 520 字 节 书 区 的 格式 以 便 实 现 
DIF。 





第 19 音 ”过 关 斩 将 
及 优化 


系统 IO 路 径 





四 LUN 分布 及 虚拟 化 
加 系统 IO 路 径 图 

四 IO 优 化 

nm Cache 

四 OS 内 核 IO 流 程 


四 存储 控制 器 IO 处 理 过 程 





真正 的 存储 系统 性 能 优化 是 在 研发 机 构 的 实验 室 中 。 要 做 到 真正 彻 
展 的 性 能 优化 ， 震 要 从 懈 层 设计 上 彻 后 优化 。 目 前 大 多 数 工程 师 所 做 的 
优化 只 不 过 是 让 底层 已 经 设计 好 的 架构 充分 发 挥 其 应 有 的 性 能 ， 严 格 来 
讲 ， 这 不 叫 优化 ， 因 为 其 本 来 就 是 应 该 被 完成 的 。 本 章 首先 介绍 系统 IO 
路 径 上 面 的 各 个 层次 的 固有 的 设计 上 的 优化 动作 ， 然 后 会 给 出 一 些 如 何 
将 这 些 固有 设计 发 挥 出 来 ， 或 者 说 如 何不 拖 它 们 后 腿 的 经 验方 法 。 














本 章 的 精髓 在 于 系统 IO 路 径 染 构图 。 围 绕 这 张 图 来 论述 图 中 各 个 模 
块 和 路 径 是 怎样 影响 系统 IO 的 。 要 想 优 化 性 能 ， 必 须 胸 有 成 图 。 作 者 精 
心 制作 了 这 张 图 ， 请 读者 务必 牢记 。 


要 理解 存储 系统 ， 首 先 要 理解 计算 机 系统 本 身 。 存 储 系统 中 任何 主 
体 都 是 计算 机 ， 理 解 了 计算 机 IO 路 径 ， 也 残 理解 了 整个 IT 系统 的 IO 路 





径 ， 只 有 这 样 才 能 目 无 全 牛 ， 胸 有 宏图 ， 才 谈 得 上 最 后 去 做 优化 分 析 工 
作 ， 厚 积 注 太 。 


正 像 电影 《黑客 帝国 》 中 所 反映 的 那样 ， 要 真正 地 理解 计算 机 都 做 
了 些 什么 ， 我 们 只 有 变 号 Nio 去 钻 入 其 中 一 探 完 竟 。 但 是 目前 做 不 到 这 
一 点 ， 目 前 所 做 的 是 用 程序 来 监测 程序 本 身 ， 比 如 debug 程 序 。 我 们 作 
为 计算 机 世界 的 造物 主 ， 可 能 有 时 候 也 永远 无 法 探 完 到 被 我 们 造 出 来 的 
物种 可 能 并 没有 按照 我 们 规定 的 步骤 去 做 。 这 也 就 是 进化 的 开始 。 








本 书 前 面 的 内 容 大 部 分 都 是 游 走 于 系统 表层 的 一 些 功能 表象 ， 本 章 
将 刺 破 表层 ， 到 达 存 储 系 统 的 内 部 来 一 探究 竟 ， 看 存储 系统 到 底 是 怎么 
处 理 IO 请 求 的 。 


如 图 19-1 所 示 ， 本 章 开篇 即 给 出 了 一 幅 系 统 IO 路 径 染 构图 (传统 基 
于 Block 协 议 访 问 的 磁盘 阵列 ) ， 这 幅 图 守 括 了 主机 与 存储 系统 与 数据 
IO 相关 的 全 部 主要 逻辑 模块 与 数据 流 的 每 个 俘 站 以 及 所 有 停 站 对 数据 所 
做 的 处 理 动作 和 功能 模块 。 作 者 认为 ， 要 涉足 性 能 优化 方面 ， 就 必须 在 
大 脑 中 形成 这 样 一 张 图 ， 并 且 随 手 可 以 画 出 。 在 计算 机 中 ， 一 个 IO 请 求 
始 于 应 用 程序 ， 终 于 磁盘 ， 在 这 条 路 径 上 ， 有 形形色色 的 角色 将 对 这 个 
IO 请 求 进行 或 转发 ， 或 地 址 映射 ， 或 排队 ， 或 拆 分 ， 或 合并 等 动作 。 











图 19-1 系统 IO 路 径 模块 架构 图 


19.1 理解 并 记忆 主机 端 I10 路 径 架 构图 


总 体 来 讲 ， 系 统 IO 路 径 所 包括 的 主要 角色 模块 就 是 上 面 列 出 来 的 这 
些 ， 一 个 IO 会 依次 经 过 每 个 角色 ， 在 物理 上 跨越 主机 与 存储 系统 之 间 的 
网 络 ， 在 应 用 程序 和 磁盘 之 间 双 回流 动 。 本 市 论述 IO 的 起 源 地 也 就 是 主 
机 端的 IO 路 径 模 块 架构 。 


提示 : 本章 的 所 有 论述 均 基于 机 械 人 硬盘 ， 不 考虑 SSD。 
19.1.1 ”应 用 程序 层 


应 用 程序 是 计算 机 系统 内 主动 发 起 IO 请 求 的 大 户 ， 但 计算 机 系统 内 
可 以 向 底层 存储 设备 主动 发 起 IO 请 求 的 角色 不 仅 限 于 应 用 程序 ， 其 他 处 
于 操作 系统 内 核 层 的 模块 ， 比 如 文件 系统 自身 、 卷 管理 层 自 身 、 适 配器 
驱动 层 自身 等 ， 都 可 以 主动 发 起 IO。 当 然 ， 只 有 应 用 程序 发 起 的 IO 才 可 
以 修改 用 户 实 体 数据 的 内 容 ， 其 他 角色 发 起 的 IO 一 般 只 是 对 数据 进行 移 
动 / 重 分 布 / 校 验 / 压 缩 /加 密 等 动作 ， 并 不 会 修改 用 户 层面 的 实际 数据 内 


sa 


容 。 








应 用 程序 在 读 写 数据 的 时 候 一 般 是 直接 调用 操作 系统 所 提供 的 文件 
系统 API 来 完成 文件 数据 的 读 写 等 操作 。 有 的 应 用 程序 可 以 直接 调用 卷 
管理 层 或 者 适配器 驱动 层 API 从 而 直接 操控 底层 的 卷 或 者 LUN， 比 如 一 
些 数 据 库 程序 ， 它 们 直接 操控 卷 而 不 需要 使 用 文件 系统 提供 的 功能 ， 它 
们 自己 来 管理 数据 在 底层 卷 上 的 分 布 。 











应 用 程序 发 起 的 IO 的 类 型 是 影响 IO 性 能 的 最 首要 因素 。 本 书 第 4 章 
介绍 了 7 对 IO 类 型 ， 每 一 对 中 包含 的 两 个 类 型 是 相反 关系 。 在 此 将 这 7 对 
共 14 种 IO 类 型 做 成 了 一 个 表格 并 且 简 要 地 列 出 了 每 种 IO 对 系统 整体 相对 


其 中 ， 最 优 的 IO 方式 为 连续 并 发 JIO0， 如 果 追 求 吞 吐 量 ， 则 应 当 使 用 
大 块 连续 并 发 10， 如 果 仍 求 IOPS， 则 应 当 使 用 小 块 连续 并 发 IO。 最 差 
的 IO 方式 为 随机 顺序 IO， 这 种 模式 下 不 管 是 否 吐 量 还 是 IOPS 都 是 相对 
很 低 的 。 比 如 某 应 用 程序 更 改 大 量 文件 的 文件 名 或 者 访问 时 间 等 属性 ， 
如 采 程 序 为 单线 程 同步 调用 方式 ， 则 每 次 操作 只 能 发 起 一 次 ID， 每 一 轮 
只 能 更 改 一 个 文件 ， 如 果 有 几 万 个 或 者 更 多 的 文件 ， 那 么 此 时 处 理 速度 
将 会 非常 慢 。 解 决 办 法 是 改 为 异步 调用 ， 或 者 多 线程 同步 调用 ， 让 IO 并 
发 执行 ， 充 满 IO Queue。 














表 19-1 IO 属性 对 性 能 的 影响 











表 19-1 给 出 了 各 种 IO 形式 对 整体 性 能 的 影响 ， 这 些 影 啊 都 是 相对 
的 ， 即 总 体 来 讲 的 普 衣 影响， 不 具有 特殊 情况 下 的 意义 。 





每 个 应 用 程序 都 会 有 上 自己 的 Buffer 用 来 存 取 有 待 处 理 的 数据 。 应 用 
程序 同文 件 系统 请 求 读 数据 之 后 ， 文 件 系统 首先 将 对 应 的 数据 从 底层 卷 
或 者 磁盘 读 入 文件 系统 自身 Buffer， 然 后 再 将 对 应 的 数据 复制 到 对 应 应 
用 程序 的 Buffer 中 。 应 用 程序 也 可 以 选择 不 使 用 系统 内 核 缓 在， 这 时 FS 
将 IO 请 求 透 明 地 翻译 并 转发 给 底层 处 理 ， 返 回 的 数据 将 直接 由 OS 放 到 
应 用 程序 Buffer 中 。 当 应 用 程序 同文 件 系 统 请 求 写 入 数据 时 ， 文 件 系统 
会 先 将 应 用 程序 Buffer 中 对 应 的 数据 复制 到 文件 系统 Buffer 中 ， 然 后 在 
适当 的 时 刻 将 所 有 FS Buffer 内 的 Dirty Page 写 入 人 硬盘; 同样 ， 如 果 不 使 
用 系统 内 核 缓存 ， 则 写 入 的 数据 经 过 FS 文件 一 块 地 址 翻译 后 直接 由 OS 
提交 给 FS 下 层 处 理 。 文 件 系统 的 动作 是 可 控 的 ， 我 们 将 在 下 一 节 描 述 文 
件 系 统 的 相关 细 贡 参数 。 


1. 同步 调用 和 异步 调用 


应 用 程序 可 以 选择 两 种 IO 执行 方式 : 第 一 种 是 同步 1O 调 用， 为 一 种 


是 异步 IO 调用 。 





如 图 19-2 所 示 ， 前 者 指 某 线程 向 OS 发 起 IO 请 求 之 后 便 一 直 处 于 等 待 
挂 起 状态 ， 直 到 OS 将 IO 结 果 返 回 给 这 个 线程 ， 后 者 指 某 线程 向 OS 发 起 
IO 请 求 之 后 ，OS 立 即 返 回 一 个 “已 接受 ”信和 号， 线程 此 时 就 可 以 继续 执 
行 后 续 代码 (后 续 代码 可 以 执行 对 以 前 接收 到 的 数据 的 分 析 处 理 或 者 继 
续 对 OS 发 起 后 续 的 10 请求) ， 当 OS 将 IO 数 据 从 相应 介质 读 入 或 者 写 入 
完成 后 ， 会 利用 某 种 方式 让 线程 知道 (比如 Windows 系 统 异 步 IO 常 用 的 
IO Completion Port 机 制 ) 。 有 人 可 能 会 在 此 产生 疑问 ， 如 果 遇 到 某 个 程 
序 必 须 等 待 当前 IO 数据 返回 ， 不 返回 的 话 就 无 事 可 做 而 挂 起 呢 ? 这 种 情 
况 是 有 的 ， 如 果真 的 遇 到 这 种 情况 ， 只 能 说 明 存 储 系统 或 者 数据 链 路 的 
速度 太 慢 已 经 影响 程序 性 能 了 ， 但 是 这 里 请 注意 ， 如 果 使 用 了 异步 IO 调 
用 ， 则 可 以 在 短 时 间 内 发 送 大 批 IO 请 求 到 OS， 从 而 接收 到 大 批量 数据 
返回 ， 如 果 这 时 应 用 程序 依然 没 被 喂 饱 ， 那 么 说 明 存储 系统 性 能 无 法 跟 
上 ;而 如果 程序 虽然 使 用 了 异步 IO 调用 但 是 却 与 同步 IO 时 做 相同 的 动 
作 ， 即 一 个 IO 请 求 发 出 后 ， 程 序 虽 然 没 有 被 阻塞 但 是 依然 自我 等 待 ， 一 
个 IO 一 个 IO 的 来 ， 那 么 实际 也 是 没有 任何 效果 的 。 


























图 19-2 ”同步 异步 IO 示意 图 


前 文中 所 述 的 并 发 10， 其 在 应 用 层 〈 并 发 IO 在 每 个 层次 都 有 对 应 的 
意义 ) 的 意义 就 是 指 异 步 IO 模 式 ， 批 量 发 起 IO 从 而 喂 饱 底层 存储 系统 ， 
棕 取 极限 性 能 而 又 不 能 让 其 过 载 。 过 载 的 后 果 就 是 IO 响应 时 间 急 剧 增加 
而 IOPS 和 带宽 吞吐 量 根本 没 怎么 增加 。 








IO 请 求 发 送 到 OS 内 核 之 后 到 内 核 将 IO 请 求 对 应 的 数据 读 取 或 者 写 
入 完成 这 段 时 间 会 贡献 为 0S 内 的 IOWait 指 标 增高 ，IOWait 指 标 一 旦 升 
高 到 高 于 60%% 左 右 的 百分比 ， 那 么 就 需要 考虑 后 端 存储 系统 所 提供 的 性 
能 是 否 已 经 不 能 满足 条 件 了 ， 需 要 检查 各 项 配置 以 确认 是 否 是 存储 系统 
本 身 能 力 有 限 还 是 配置 没有 最 优化 。 




















同步 IO 调用 如 果 不 加 任何 参数 的 话 一 般 是 操作 系统 提供 的 默认 调用 
方式 ， 也 是 一 般 应 用 程序 首选 的 IO 调用 方式 。 一 般 情 况 下 ， 如 果 遇 到 数 
据 链 路 速度 或 者 存储 介质 速度 很 慢 的 情况 ， 比 如 通过 低速 网 络 进行 
IO 〈Ethernet 上 的 NFS、CIFS 等 ) ， 或 者 使 用 低速 Flash 心 片 等 时 ， 使 用 
异步 IO 方式 是 一 个 很 好 的 选择 。 第 一 是 因为 IO 请 求 发 出 后 线程 可 立即 执 
行 后 续 功 能 ， 比 如 继续 处 理 已 接收 到 的 数据 等 ， 第 二 是 因为 异步 IO 调用 
可 以 接连 发 出 多 个 IO 请 求 ， 一 同 发 向 目标 ， 目 标 在 接收 到 这 些 IO 请 求 之 
后 可 以 一 并 处 理 ， 增 加 效率 。 比 如 SATA 人 硬盘 的 NCQ 功 能 ， 如 果 应 用 层 
只 有 一 个 线程 ， 而 且 整 个 IO 链 路 上 都 是 同步 调用 的 ， 那 么 这 个 Queue 中 
永远 就 只 有 一 个 IO 请 求 ， 想 排队 优化 都 不 可 能 ， 磁 头 臂 只 能 按照 IO 顺序 
寻 道 。 











要 实现 与 单线 程 寞 步 I1O 类 似 的 结果 ， 可 以 采用 男 一 种 方法 ， 即 生成 
多 个 线程 或 进程 ， 每 个 线程 或 进程 各 目 进行 同步 IJO 调 用。 然而 ， 维 护 多 
个 线程 或 进程 需要 耗费 更 多 的 系统 资源 ， 而 采用 单线 程 异 步 IO 调用 虽然 
需要 更 复杂 的 代码 来 实现 ， 其 相 比 多 线程 同步 IO 的 方式 来 说 仍然 更 加 高 
2 


注意 : 在 Windows 系 统 中 ， 如 果 应 用 程序 在 打开 某 文件 进行 读 
写 操 作 时 未 指定 特殊 参数 ， 则 文件 系统 默认 是 使 用 自身 绥 存 来 
加 速 数据 读 写 操作 的 。 并 且 ， 这 种 情况 下 异步 调用 多 数 情 况 下 
会 日 动 变 为 同步 调用 ， 结 果 就 是 IO 故 出 后 操作 系统 不 会 返回 任 





何 消息 直到 IO 完成 为 止 ， 这 段 时 间 内 线程 处 于 挂 起 状态 。 为 何 
会 这 样 呢 ? 有 三 个 原因 。 


(1) 预 读 和 Write Back。 文 件 系 统 绥 存 的 预 恋 机 制 可 以 增加 IO 读 操 
作 的 命中 率 ， 尤 其 是 小 块 连续 IO 操作 ， 命 中 率 几 乎 百分之百 。 在 这 种 情 
况 下 ， 每 个 读 IO 操 作 的 响应 时 间 会 在 微 秒 级 别 ， 所 以 OS 会 自动 将 异步 
调用 变 为 同步 调用 以 便 节约 异步 IO 所 带 来 的 系统 开销 。 


(2) 尽量 保持 IO 顺 序 。 异 步 IO 模 式 下 ， 应 用 程序 可 以 在 单位 时 间 
内 发 出 知 干 IO 请 求 而 等 待 OS 批 量 返回 结果 。OS 对 于 异步 IO 结果 的 返回 
顺序 可 能 与 IO 请 求 所 发 送 的 顺序 不 同 ， 在 不 使 用 文件 系统 缓存 的 情况 
下 ，OS 不 能 缓存 底层 返回 的 IO 结果 以 便 重 新 对 结果 进行 排序 ， 只 能 够 
按照 底层 返回 的 实际 顺序 来 将 数据 返回 给 应 用 程序 ， 而 底层 设备 比如 磁 
盘 在 执行 IO 的 时 候 不 一 定 严格 按照 顺序 执行 ， 因 为 文件 系统 之 下 还 有 多 
处 缓存 ，IO 在 这 里 可 能 会 被 重 拍 或 者 有 些 IO 命 中 ， 有 些 则 必须 到 存储 介 
质 中 读 取 ， 命 中 的 IO 不 一 定 是 先 被 发 送 的 IO 。 而 应 用 程序 在 打开 文件 的 
时 候 如 果 没 有 给 出 特殊 参数 ， 则 默认 行为 是 使 用 文件 系统 缓存 的 ， 此 时 
系统 内 核 绥 存 便 会 严格 保持 IO 结果 被 顺序 地 返回 给 应 用 程序 ， 异 步调 用 
变 为 同步 模式 。 














(3) 系统 内 核 缓存 机 制 和 处 理 容量 决定 。 文 件 系 统一 般 使 用 
Memory Mapping 的 方式 来 进行 IO 操作 ， 将 映射 到 缓存 中 一 定数 量 的 
page 中 ， 目 标 文件 当 需 要 的 数据 实际 内 容 没 有 位 于 对 应 page 中 时 ， 便 会 
产生 Page Fault， 需 要 将 数据 从 底层 介质 读 入 内 存 ， 这 个 过 程 OS 上 自身 会 
强行 使 用 同步 IO 模式 同 下 层 存储 发 起 IO。 而 OS 内 存在 一 个 专门 负责 处 
理 Page Fault 情况 的 Worker 线 程 池 ， 当 多 个 应 用 程序 单位 时 间 使 用 异步 
IO 向 OS 发 送 大 量 请 求 时 ， 一 开始 OS 还 可 以 应 付 ， 接 收 一 批 10 对 其 进行 
异步 处 理 ， 但 是 随 着 IO 大 量 到 来 ， 绥 存 命中 率 逐 渐 降 低 ， 越 来 越 多 的 




















Page Fault 将 会 发 生 ， 诸 多 的 Worker 线 程 将 会 参与 处 理 Page Fault， 线 程 
池 将 迅速 耗 尽 。 此 时 OS 只 能 将 随后 到 来 的 IO 变 为 同步 操作 ， 不 再 给 其 
回应 直到 有 Worker 线 程 空 亲 为 止 。 如 果 应 用 程序 在 打开 文件 进行 操作 时 
明确 要 求 不 使 用 文件 系统 缓存 ， 那 么 就 不 会 受 上 述 情况 的 制约 ，OS 会 
直接 返回 “接收 ”信号 给 应 用 程序 同时 将 请 求 发 送 到 文件 系统 做 文件 一 块 
地 址 翻译 后 转发 到 下 层 处 理 。 


导致 Windows 将 异步 强行 变 为 同步 的 原因 不 只 有 系统 内 核 缓存 的 原 
因 ， 其 他 一 些 原 因 也 可 以 导致 其 发 生 。 在 Windows 系 统 中 ， 访 问 NTFS 
自 寻 压缩 文件 、 访 问 NTFS 自 喘 加 答 文 件 、 任 何 扩展 文件 长 度 的 操作 都 
会 导致 异步 变 同 步 操 作 。 要 实现 真正 的 异步 IO 效果 ， 最 好 在 打开 文件 时 
给 出 相关 参数 ， 不 使 用 内 核 文 件 系统 缓存 。 但 是 不 使 用 文件 系统 缓存 会 
引起 读 IO 请 求 过 慢 ， 采 用 越过 缓存 并 且 使 用 异步 IO 的 应 用 程序 都 是 经 过 
严格 优化 的 ， 它 们 自 吴 会 实现 预 恋 操 作 从 而 将 数据 预先 读 入 上 自身 的 组 
存 。 这 种 不 使 用 内 核 文 件 系统 缓存 的 IO 方式 又 被 普遍 称 为 "Direct IO? 或 
者 “DIO”。 异 步 IO 模式 又 被 称 为 “AIO” 即 “Asynchronous IO”。 











2. Windows 系 统 下 的 Asynchronous Explorer 





在 这 里 向 大 家 介绍 一 个 工具 : Asynchronous ”Explorer。 这 个 工具 为 
一 位 国外 高 手 开发 ， 他 为 了 研究 异步 IO 的 行为 而 专门 开发 了 这 个 工具 。 
它 可 以 让 你 直截了当 地 判断 在 执行 IO 操作 时 Windows 系 统 底层 都 做 了 什 
么 事情 ， 发 生 了 什么 ， 是 否 某 处 有 绥 存 在 发 生 作 用 等 。 有 兴趣 的 读者 可 
以 在 作者 的 博客 留 下 E-mail 以 便 作 者 将 这 个 工具 发 送 过 去 。 











如 图 19-3 所 示 为 Asynchronous ”Explorer 的 主 界面 。 程 序 首先 需要 在 
磁盘 上 任意 目录 生成 一 个 结构 化 的 文件 ， 这 个 文件 中 存放 着 大 小 为 IKB 
的 大 和 干 条 记录 ， 初 始 时 需要 创建 这 个 文件 ， 指 定 其 包含 记录 的 条 数 。 创 














建 完 后 ， 在 窗口 中 部 区 域 填 入 测试 将 要 发 送 的 IO 请 求 数 量 ， 每 个 请 求 会 
读 出 文件 中 的 一 条 记录 ， 也 束 是 每 个 读 IO 请 求 为 1IKB 两 个 而 区 ) 大 

小 。 然 后 单 击 Generate 按 钮 生成 测试 需要 发 送 的 IO 列表 ， 生 成 的 IO 完全 
是 随机 IO。 然 后 单 击 Run 按 钮 ， 程 序 便 会 以 异步 IO 模 式 向 OS 发 起 请 求 ， 
所 有 IO 将 尽量 一 次 性 发 出 。 








图 19-3 Asynchronous Explorer 主 界面 


窗口 中 部 给 出 了 可 选 的 参数 ，Scan Suggestions 在 下 一 节 介 绍 。 其 中 
有 个 调用 参数 比较 重要 ， 即 FILE_FLAG_NO_BUFFERING， 勾 选 这 个 
参数 表示 应 用 程序 在 打开 文件 进行 IO 的 时 候 不 使 用 文件 系统 缓存 〈 读 和 
写 IO 都 不 进入 系统 内 核 缓存 而 直接 进入 卷 或 者 设备 驱动 IO 层面) ， 
FILE_FLAG_WRITE_THROUGH 在 下 一 节 介 绍 。 


窗口 下 部 为 本 次 测试 的 结果 标示 图 ， 每 一 个 黑 点 表示 一 个 IO， 对 角 
线 为 同步 线 ， 即 如 果 系 个 黑 点 落 在 了 这 条 线 上 ， 那 么 束 表 示 这 个 IO 的 结 
果 是 被 按照 请 求 友 出 的 顺序 返回 给 应 用 程序 的 ， 如 末 黑 点 落 在 同步 线 之 
上 ， 则 证 明 IO 绪 果 早 于 被 发 出 的 顺序 被 返回 ， 黑 上 反 落 在 同步 线 下 方 则 表 
示 这 个 IO 结 果 晚 于 被 发 出 的 顺序 返回 。 图 中 有 波动 幅度 的 曲线 为 IO 结 果 
返回 的 时 间 与 IO 地址 侦 移 量 的 函数 曲线 。 








现在 我 们 来 分 析 一 下 图 19-3 中 的 曲线 和 IO 分 布 情况 并 做 出 几 个 判 
断 。 测 试 时 由 于 选择 了 FILE_FLAG_NO_BUFFERING， 所 以 本 次 测试 
为 纯 异 步 IO 模 式 ， 所 有 IO 在 最 短 的 时 间 内 批量 发 送 到 了 OS 内 核 。 然 而 
OS 返回 的 结果 却 不 是 按照 IO 被 发 出 时 的 顺序 返回 的 ， 有 早 有 了 晚 ， 基 本 
上 平均 分 布 ， 这 种 现象 的 原因 是 因为 FS 之 下 某 处 有 某 种 Queue 在 发 生 作 
用 ， 典 型 的 例子 就 是 人 硬盘 中 的 Queue， 比 如 SATA 检 的 NCQ。Queue 会 将 
IO 按 照 当 前 磁头 辟 所 在 的 位 置 按 照 电梯 原理 进行 优化 重 排 ， 使 得 磁头 辟 





降低 寻 道 次 数 和 和 寻 道 跨度 从 而 优化 性 能 。 这 一 点 可 以 从 IO 偏 移 量 曲线 判 
断 ， 可 以 看 到 IO 结 果 基 本 上 是 按照 仿 移 量 圳 增 的 顺序 返回 的 ， 而 IO 发 送 
的 时 候 却 是 完全 随机 的 ， 所 以 这 里 判断 拘 层 的 茶 个 Queue 对 随机 的 IO 按 
照 仿 移 量 做 了 重 排 ,使 得 磁 尖 项 顺序 地 并 且 小 跨度 地 寻 道 依次 完成 了 所 
有 IO 的 读 取 动 作 并 且 返 回 结 果 。 偏 移 量 曲 线 产 生 了 4 次 平滑 流动， 第 一 
次 问 下 ， 第 二 次 长 时 间 平 缓 同 上 ， 第 三 次 陡峭 同 下 ， 第 四 次 陡峭 同上 ， 
可 以 判断 这 些 波 动 对 应 了 磁头 臂 的 摆动 方向 ， 磁 头 臂 做 了 四 次 大 幅度 摆 
动 ， 而 每 次 摆动 周期 内 伴随 着 多 次 小 跨度 换 道 操作 ， 这 种 磁头 臂 寻 道 方 
式 是 很 优秀 的 。 








在 主 界面 中 选择 Processing Time Plot 单 选 按钮 可 以 切换 到 另 一 种 结 
果 显 示 模 式 ， 即 IO 发 送 顺序 与 对 应 IO 响应 时 间 及 IO 偏 移 量 的 曲线 图 ， 如 
图 19-4 所 示 。 上 部 曲线 为 IO 啊 应 时 间 ， 范 围 跨 度 比 较 大 的 曲线 仍然 表示 
IO 偏 移 量 曲 线 。 可 以 看 到 IO 偏 移 量 是 来 回 摆动 非常 随机 的 。 由 于 Bypass 
挥 了 文件 系统 缓存 ， 所 以 IO 响 应 时 间 的 数量 级 上 升 到 了 100ms 的 级 别 。 























图 19-4 响应 时 间 和 偏 移 量 曲线 

















我 们 再 来 看 一 下 使 用 系统 内 核 缓存 之 后 的 IO 变 化 情况 ， 如 图 19-5 所 
示 。 虽 然 程 序 依然 使 用 异步 IO 调用 ， 但 是 此 时 OS 已 经 强制 变 为 同步 IO 
操作 并 且 保 持 了 IO 结果 返回 的 顺序 符合 发 送 时 的 顺序 。 可 以 看 到 每 个 IO 
都 落 在 了 同步 线 上， 两 个 模式 显示 的 偏 移 量 曲线 相同 ， 表 示 IO 结 果 返 回 
的 顺序 与 发 送 时 的 顺序 相同 ， 并 且 由 于 系统 内 核 缓 存 预 读 的 影响 ， 测 试 
文件 大 部 分 已 经 处 于 缓存 中 ， 所 以 IO 响应 时 间 下 降 到 了 100 微 秒 级 别 ， 
降低 了 1000 倍 。 














图 19-5 ”使 用 系统 内 核 缓存 之 后 的 IO 变化 








进行 完 上 面 的 测试 之 后 ，FS 下 层 某 处 的 Buffer〈 比 如 磁盘 自身 组 
存 ) 一 定 残留 有 之 前 预 读 的 部 分 数据 。 为 了 验证 这 一 点 ， 我 们 即刻 勾 选 
FILE_FLAG_NO_BUFFERING， 并 且 不 再 重新 Generate 新 的 IO 列表 ， 使 
用 原 有 的 列表 以 保证 缓存 命中 率 。 立 即 Run 起 来 。 结 果 验 证 了 这 个 说 
二 


如 图 19-6 所 示 ，IO 发 起 之 初 一 段 时 间 内 结果 返回 非常 迅速 ， 延 迟 在 
100 微 秒 级 别 ， 全 部 落 在 了 同步 线 上 。 既 然 没 有 使 用 系统 内 核 缓存 ， 这 
么 快 的 啊 应 速度 是 从 哪里 来 的 呢 ? 答案 只 有 一 个 ， 即 FS 下 层 茶 处 必定 有 
一 处 或 者 多 处 缓存 在 发 生 作 用 ， 这 个 或 者 这 些 缓存 内 残留 有 之 前 程序 读 
取 过 的 数据 部 分 ， 所 以 开始 的 一 部 分 IO 命 中 ， 直 接 从 缓存 返回 给 了 应 用 
程序 ， 而 且 可 以 发 现 俩 移 量 曲线 随机 跳跃 ， 表 明 IO 结 果 是 按照 发 送 顺 序 
迅速 被 返回 的 。 而 随后 的 IO 命 中 率 变 得 越 来 越 低下 ， 最 终 成 友 散 形状 分 
布 ， 这 时 确 层 的 Queue 优 化 效用 又 被 显现 出 来 ， 仍 移 量 曲线 变 得 平滑 ， 
啊 应 时 间 也 相对 上 升 到 了 10ms 级 别 。 














图 19-6 ”验证 FS 下 层 茶 处 缓存 的 作用 效果 


测试 时 勾 选 了 一 个 选项 ， 即 显示 IO 发 送 和 IO 返回 的 追逐 条 ， 如 图 
19-7 所 示 。 上 面 的 条 表示 IO 被 发 送出 去 的 完成 量 ， 下 面 的 条 显示 IO 结 
返回 的 完成 量 ， 绥 存 命中 时 两 个 条 的 行进 速度 是 相同 的 ， 而 缓存 不 命中 
时 IO 完成 量 进度 条 就 会 落后 于 IO 发 送 进度 条 。 本 测试 样 例 中 ， 起 初 一 段 
时 间 两 个 条 行进 速度 相同 ， 随 后 IO 完成 量 条 逐渐 变 慢 ， 对 应 了 测试 结 
果 。 如 果 降 低 测试 读 取 的 数据 量 ， 比 如 读 取 1x100 条 记录 ， 那 么 100KB 
的 数据 对 于 磁盘 缓存 来 讲 是 个 小 数目 ， 被 完全 留 在 磁盘 缓存 的 几率 会 增 
加 ， 此 时 再 次 测试 就 会 发 现 偶尔 会 出 现 IO 完全 落 在 同步 线 上 的 情况 ， 虽 
然 Bypass 了 系统 内 核 缓存 。 





























图 19-7 异步 IO 的 追逐 条 


下 面 ， 我 们 用 Asyn Explore 来 验证 一 下 在 纯 异 步 IO 模式 下 ， 应 用 程 
序 的 IO 是 否 是 批量 发 送 的 。 我 们 使 用 iSCSI 协议 来 连接 一 个 外 部 存储 系 
统 中 的 LUN， 并 在 主机 端 利用 Wireshark 工 具 来 抓 包 分 析 。 如 图 19-8 所 
示 ， 在 5 号 TCP 包 中 竟然 一 次 性 包含 了 30 个 SCSI Read 请 求 IO， 可 见 异步 
IO 确实 是 在 短 时 间 内 批量 被 发 出 的 ， 以 至 于 30 个 IO 一 次 性 被 打包 在 了 一 
个 TCP 包 中 传送 。 后 面 的 几 个 加 长 的 包 同 样 是 这 种 情况 ， 当 然 也 夹杂 着 
只 包含 一 个 IO 请 求 的 TCP 包 。 对 IO 的 Response 结 果 会 在 随后 一 个 一 个 地 
被 返回 。 另 外 ， 从 每 个 IO 请 求 的 长 度 =2 来 看 ， 确 实 符 合 Async Explore 
每 次 读 IO 请 求 1KB 数 据 相符 (2x512B 二 1KB) 。 








图 19-8 ”验证 纯 异 步 IO 的 批量 发 送 


注音 : ”在 使 用 ISCSVNAS 等 基于 TCPIP 的 存储 协议 时 ， 并 且 是 
随机 IO 环境 下 ， 利 用 Bypass 文 件 系统 绥 存 的 纯 异 步 IO 模式 会 大 
大 减少 网 络 传输 的 开销 。 因 为 如 有 果 使 用 文件 系统 缓存 ， 则 OS 
强制 变 为 同步 1O 模 式 ，IO 一 个 一 个 地 执行 ， 所 以 每 个 IO 请 求 就 
需要 被 封装 到 单独 的 TCP 包 和 以 太 网 帧 中 ， 在 IO 量 巨 大 的 时 
修 ， 这 种 浪费 是 非常 惊人 的 。 图 19.8 所 示 的 例子 中 ， 纯 异步 IO 
模式 下 的 抓 包 数据 文件 只 有 120KB， 而 如 果 使 用 FS 绥 存 之 后 ， 
同样 的 IO 列表 ， 抓 包 数 据 变 为 490KB， 开 销 是 前 者 的 4 倍 ， 这 
是 个 绝对 不 容 忽视 的 地 方 。 

注意 : ” 不管 Windows 还 是 Linux， 都 是 “用 户 程序 一 OS 内 核 一 
存储 设备 ”这 种 架构 ， 用 户 程 序 和 OS 内 核 之 间 存 在 一 套 IO 接 

口 。 同 样 ，OS 内 核 与 存储 设备 之 间 一 样 存 在 着 IO 接口 ， 也 有 
异步 同步 、Write Through、Write Back 等 参数 。Linux 操 作 系 统 
的 IO 行为 与 Windows 有 很 多 不 同 之 处 。 














注意 : “在 Windows 系 统 下 ，OS 内 核 与 存储 设备 之 间 的 IO 行为 
完全 与 用 户 程 序 与 OS 内 核 之 间 的 10 行为 对 应 ， 即 上 层 为 同步 
调用 则 底层 也 同步 ， 上 层 为 异步 调用 则 底层 也 异步 (在 不 使 用 
FS 缓存 时 ) 。 

而 在 Linux 系 统 下 ， 上 层 的 IO 与 底层 不 一 定 是 对 应 关系 ， 比 
如 ， 如 果 使 用 文件 系统 进行 IO 并 且 Mount 之 后 ， 底 层 对 磁盘 的 
操作 会 严格 按照 Mount 时 给 出 的 选项 〈Async 或 者 Sync) 来 执 
行 ， 并 且 ， 如 果 Async Mount 而 同时 用 户 程序 进行 同步 调用 ， 
则 底层 依然 是 异步 操作 。 对 于 不 使 用 文件 系统 进行 IO 的 情况 ， 
比如 使 用 dd 程序 直接 操作 设备 屋 ， 由 于 dd 采用 同步 调用 ， 而 底 
层 卷 设备 不 可 能 有 预 读 机 制 ， 所 以 对 于 dd 的 同步 读 操 作 ， 在 底 
层 也 反映 为 对 磁盘 设备 的 同步 读 操作 ; 但 是 对 于 Write Back 模 
式 的 写 操作 ， 由 于 搬 层 卷 处 存在 缓存 ， 这 个 绥 存 会 在 接收 写 操 
作 之 后 即 返 回 成 功 给 上 层 ， 然 后 对 IO 进行 优化 〈IO 
Combination 等 ) ， 然 后 批量 异步 Flush 到 物理 存储 设备 。 卷 处 
的 缓存 不 但 可 以 Write Back， 而 且 还 拥有 读 绥 存 作用 (虽然 它 
不 可 进行 预 读 操作 ， 但 是 之 前 被 读 入 数据 会 残留 一 定时 间 ) ， 
如 果 上 层 在 短 时 间 内 发 起 重复 地 址 的 读 操 作 ， 会 先 从 卷 缓 存 处 
寻求 命中 ， 不 命中 后 再 读 取 破 盘 。 

注意 : “这 里 还 需要 理解 一 点 ， 即 如 果 使 用 文件 系统 缓存 ， 那 
么 Windows 会 强行 将 异步 IO 变 为 同步 阻塞 模式 ， 即 应 用 无 法 在 
短 时 间 内 发 送 大 批 IO 了 了。 这样 做 虽然 使 用 了 文件 系统 缓存 的 加 
速 作 用 ， 但 却 也 降低 了 IO 并 发 度 。 而 如 果 在 FS 下 位 某 处 的 绥 存 
同样 具有 加 速 IJO 的 作用 ， 那 么 不 使 用 FS 的 缓存 从 而 让 应 用 层 处 
可 以 产生 并 发 的 无 阻塞 异步 ID0， 而 这 些 IO 命中 于 FS 下 位 的 某 
处 缓存 ， 这 样 就 可 以 一 币 双 有 雕 了 。 本 例 中 由 于 测试 只 是 用 了 台 
式 机 单 块 磁盘 ， 磁 盘 绥 存 容量 小 且 处 理 能 力 有 限 ， 所 以 IO 啊 应 



































很 快 升 高 。 如 果 底 层 设 备 为 具有 大 容量 缓存 和 高 处 理 能 力 的 智 
能 存储 设备 ， 那 么 缓存 命中 率 会 大 大 增加 ， 这 种 情况 下 就 会 获 
得 更 快 的 响应 时 间 ， 是 最 优 的 实现 方式 。 如 图 19-9 所 示 ， 测 试 
使 用 一 台 外 部 NAS 存 储 系统 ， 具 有 大 容量 缓存 和 高 处 理 能 
即使 使 用 了 FILE_FLAG_NO_BUFFERING 人 参数 ， 依 然 得 到 了 
比较 高 的 啊 应 速度 和 问 同步 线 归 拢 趋势 的 IO 分 布 。 分 别 利用 
CIFS 和 iSCSI 作 为 访问 协议 ， 得 到 了 相同 的 结果 。 左 面 是 CIFS 
的 结果 ， 右 面 是 iSCSI 的 结果 。iSCSI 环 境 下 读 取 了 1000 条 记 
录 ， 所 以 IO 分 布点 比 CIFS 多 ， 后 者 读 取 了 100 条 记录 。 























图 19-9 FS 下 层 有 缓存 的 效果 





注意 几 种 表述 方式 : 异步 IO 不 一 定 不 使 用 缓存 ， 同 步 IO 不 一 定 
使 用 缓存 。 同 步 异 步 和 Write Back/Through 没 有 直接 关系 。 


3. Network IO 


有 时 候 文 件 并 不 存放 在 本 地 磁盘 ， 而 是 存放 于 男 外 一 台 计 算 机 上 ， 


需要 通过 某 种 网 络 比 如 TCP/IP 来 访问 对 方 的 计算 机 ， 并 且 还 需要 某 种 网 
络 文件 访问 协议 比如 CIFS/NFS 等 来 对 位 于 网 络 男 一 端的 计算 机 上 的 文 


件 进 行 IO 操作 ， 这 便 是 Network IO， 即 网 络 IO。 


如 图 19-10 所 示 为 网 络 IO 的 示意 图 。 其 中 有 一 个 关键 模块 为 Network 


Redirector。Redirector 的 作用 是 将 上 层 的 IO 请 求 翻 译 成 网 络 文件 访问 协 
议 后 发 送 到 对 端 ， 这 样 ， 应 用 程序 就 可 以 像 访问 本 地 文件 一 样 通过 网 络 


来 访问 其 他 计算 机 上 的 文件 了 。 


图 19-10 ”Network IO 流程 


Network IO 的 过 程 如 下 。 
应 用 层 同 OS 发 起 IO 请 求 读 写 位 于 某 网 络 映 射 盘 符 下 的 某 个 文件 。 


OS 接收 到 这 个 IO 请 求 之 后 ， 交 给 Network Redirector 处 理 。 
Redirector 接 收 到 IO 请 求 之 后 ， 将 这 个 IO 翻译 并 封装 成 对 应 网 络 协议 与 
网 络 文件 访问 协议 相 匹 配 的 数据 包 并 将 其 发 送 到 对 应 的 远程 计算 机 。 


远程 计算 机 上 的 Network Redirector 接 收 到 这 个 IO 请 求 之 后 ， 对 源 计 
算 机 进行 认证 ， 认 证 通过 之 后 ， 远 程 计 算 机 根据 IO 请 求 中 的 有 具体 信息 对 
本 地 的 目标 文件 进行 IO 操作 ， 然 后 将 数据 通过 Redirector 返 回 给 源 计 算 
机 。 











源 计 算 机 收 到 远程 计算 机 的 数据 之 后 ， 将 数据 返回 给 发 起 IO 的 应 用 


注意 : “网络 IO 的 啊 应 时 间 普 过 较 长 ， 有 时 甚至 会 出 现 超 时 的 
情况 ， 应 用 程序 必须 做 好 准备 ， 延 长 IO 等 竺 超时 时 间 。 

由 于 外 部 网 络 稳定 性 不 比 内 部 总 线 ， 所 以 会 经 常 发 生 中 断 现象 
从 而 导致 TCP 连 接 中 断 而 网 络 文件 访问 协议 栈 也 会 Reset。 此 时 
Client 端 应 用 程序 并 不 会 感知 这 一 点 ， 可 能 依然 会 使 用 之 前 对 
文件 进行 打开 操作 时 所 获得 的 文件 句柄 对 文件 进行 操作 ， 而 
Server 庙 由 于 协议 栈 Reset 导 致 句柄 失效 ， 所 以 会 返回 句柄 过 期 
的 通知 给 客户 端 Redirector，Redirector 便 向 上 层 报错 ， 应 用 程 
序 此 时 需要 重新 进行 打开 文件 操作 以 获得 新 句柄 。 这 种 现象 在 
使 用 NFS 协 议 时 非常 常见 。 


4. Network IO 下 的 缓存 机 制 


由 于 网 络 IO 速 度 远 比 不 上 本 地 IO， 所 以 如 果 在 Client 端 保持 一 个 组 
存 的 话 是 非常 有 效果 的 。 网 络 IO 的 Client 端 缓存 可 以 同时 加 速 读 和 写 
IO。NFS 和 CIFS 都 可 以 使 用 缓存 。 





CIFS 下 的 缓存 和 IO 机 制 
下 面 介绍 Buffered IO 和 非 Buffered IO 模式 下 的 读 行 为 。 


使 用 系统 缓存 是 程序 在 Open 一 个 文件 时 默认 的 选项 ， 不 管 对 于 
CIFS 还 是 本 地 文件 。 在 此 ， 很 多 程序 员 不 会 去 过 多 考虑 这 一 点 ， 但 恰恰 
就 是 这 一 步 有 失 考 虑 ， 在 特定 情况 下 却 可 能 造成 程序 IO 性 能 极 过 。 我 们 
来 做 一 个 狗 狂 实验 。 





使 用 Async Explorer 在 一 个 CIFS 协 议 映 射 的 网 络 驱 动 右 中 生成 一 个 
测试 用 文件 。 然 后 生成 一 份 测试 地 址 列表 ， 勾 选 
FILE_FLAG_NO_BUFFERING 不 使 用 系统 内 核 缓存 ， 异 步 地 随机 读 取 
文件 中 的 100 条 记录 〈 每 条 为 IKB 大 小 ) ， 开 启 Wireshark 工 具 抓 取 网 络 
上 的 CIFS 协 议 数据 流 ， 然 后 单 击 Run 按 钮 ， 得 到 的 结果 如 图 19-11 所 示 

《只 列 出 了 部 分 结果 ) 。 





图 19-11 不 使 用 缓存 异步 IO 





我 们 从 结果 中 可 以 看 到 ， 在 Bypass 系 统 缓存 后 ，Network IO 模 块 完 
全 透 传 了 应 用 层 的 IO 请 求 ，IO 类 型 确实 是 只 有 蜡 步 模式 才 可 能 让 单线 程 
发 出 的 并 发 1O0， 而 且 每 个 IO 大 小 者 是 IKB。 当 然 第 一 个 IO 为 0.5KB 并 且 
是 同步 的 ， 这 有 可 能 是 程序 故意 而 为 ， 比 如 读 取 文 件 标识 等 信息 。 可 以 
看 到 35 一 40 号 包 表 示 了 接连 发 出 的 6 个 并 发 IO 请 求 。 而 且 每 个 IO 针对 的 
文件 Offset 也 都 是 随机 的 。 














我 们 现在 再 使 用 同样 的 IO 地 址 列表 ， 针 对 相同 的 文件 ， 做 相同 的 测 
试 ， 唯 一 区 别 就 是 不 勾 选 FILE_ FLAG_NO_BUFFERING， 也 就 是 使 用 
系统 缓存 。 测 试 结果 如 图 19-12 所 示 (只 列 出 了 部 分 结果 ) 。 


图 19-12 ”使 用 缓存 ， 读 惩罚 





从 以 上 结果 看 来 ，OS 确 实 将 异步 操作 强制 变 为 了 同步 操作 ， 除 此 
之 外 ， 还 有 一 点 最 大 的 不 同 ， 即 IO ”Size 变 为 了 4KB 或 者 8KB 了。 但 是 程 
序 明明 给 出 的 是 1KB 的 IO 请 求 ， 为 何 到 了 底层 反而 被 扩大 了 如 此 之 多 
呢 ? 考虑 到 4KB 和 8KB 这 种 数值 ， 我 们 首先 应 该 想到 操作 系统 的 
Memory Page 大 小 为 4KB， 这 里 是 不 是 OS 使 用 了 Memory Mapping 方 式 来 
将 IO 的 目标 映射 到 页 面 内 存 地 址 空间 了 ， 从 而 针对 这 些 目标 的 读 写 都 会 
以 Page 为 单位 呢 ? 要 调查 这 一 点 ， 我 们 就 要 首先 假设 这 个 结论 成 立 ， 而 
如 果 结 论 成 立 ， 那 么 OS 在 读 取 对 应 Page 的 时 候 一 定 是 从 Page 的 边界 开始 
读 的 ， 也 就 是 说 ， 每 个 IO 请 求 的 Offset 值 必定 可 以 除 4KB 而 除 尽 。 我 们 
可 以 算 一 算 ， 上 图 中 的 每 个 Offset 都 是 可 以 除 尺 4KB 的 ， 所 以 ， 这 束 充 
分 证 明了 这 个 结论 。 男 外 ， 由 于 两 次 测试 需要 读 取 的 文件 偏 移 地 址 列表 
是 相同 的 ， 但 是 第 二 次 测试 结果 中 每 个 IO 的 Offset 却 并 不 等 于 第 一 次 测 
试 结果 中 对 应 的 值 〈( 高 位 大 致 相同 ) ， 这 也 说 明了 ， 第 二 次 测试 ， 
Network IO 模块 并 没有 透 传 上 层 的 IO 请 求 到 CIFS Server 上 ， 而 就 是 走 入 
了 Page Fault 缺 页 处 理 流程 。 








细心 的 读者 可 能 已 经 发 现 ， 测 试 1 中 的 37 号 包 对 应 的 Offset 为 2560 的 
IO 请 求 ， 在 测试 2 的 结果 中 不 见 了 ， 并 没有 对 应 的 IO 被 发 送 到 CIFS 
Server。 这 是 怎么 回 事 呢 ? 我 们 算 一 算 ， 这 个 请 求 的 Offset 是 从 第 2560B 
开始 的 后 1024B，2560 十 1024 二 3584B， 而 文件 被 映射 到 内 存 的 第 一 个 
Page 大 小 是 4096B，3584 二 4096， 洲 入 Page 范 围 内 ， 那 么 OS 应 该 读 入 这 
个 Page 的 啊 ， 为 何 第 二 次 测试 结果 并 没有 读 入 呢 ? 我 们 立即 可 以 推断 ， 


由 于 第 一 个 IO 的 Offset 是 0， 长 度 是 512B， 同 样 也 落 入 第 一 个 Page， 是 不 
是 OS 会 对 已 经 谈 入 的 Page 做 一 定时 间 的 缓存 呢 ? 测试 结果 充分 证 明了 

这 个 行为 ， 正 因为 37 号 包 对 应 的 第 4 个 IO 请 求 发 生 了 Read Cache Hit， 所 
以 第 二 次 测试 时 Network IO 模块 根本 没有 将 这 个 IO 请 求 发 送 给 CIFS 


9Server。 


那么 为 何 会 出 现 8KB 尺 寸 的 IO 呢 ? 要 解释 这 个 问题 很 简单 ， 我 们 依 
然 将 两 次 测试 结果 来 进行 比较 。 在 第 一 次 测试 结果 中 找到 与 二 次 结果 中 
的 63 号 包 相 对 应 的 包 ， 即 42 号 包 ， 一 次 结果 中 42 号 包 对 应 的 IO 请 求 为 : 
从 2334208 开 始 的 1024 字 节 ，2334208 十 1024 王 2335232B， 而 2334208 一 
2335232 这 个 Offset 范 围 会 落 入 哪个 Page 呢 ? 大 家 可 以 计算 一 下 ， 结 果 是 
前 一 部 分 落 入 一 个 Page， 后 一 部 分 洲 入 下 一 个 Page， 这 比较 尴 扒 ， 所 以 
OS 会 读 出 这 两 个 Page， 也 就 是 共 8KB 的 内 容 来 应 对 这 个 IO 请 求 。 








还 可 以 从 测试 结果 发 现 ， 即 使 Open 文 件 的 时 候 ， 程 序 选 择 了 使 用 绥 
存 ， 客 户 端 文件 系统 也 丝毫 不 会 做 任何 程度 哪怕 是 最 小 力度 的 试探 性 预 
读 操作 ， 但 是 却 可 以 缓存 已 经 被 读 入 的 Page。 





在 客户 端 使 用 Filemon 监 测 工 具 图 19-13 Filemon 监测 结果 
同样 监测 到 了 相同 的 结果 ， 在 另 一 个 
测试 中 ， 出 现 了 同样 的 结果 ， 如 图 19-13 所 示 。 带 星 号 的 表示 非 程 序 发 
起 的 IO 请 求 ， 说 明 是 由 OS 内 核 自 己 发 起 的 IO 请 求 。 其 中 IRP_MJ_READ 
是 内 核 IOM 提 供 的 功能 函数 ， 详 见 本 章 后 面部 分 。 





提示 : FILE_FLAG_NO_BUFFERING 或 者 
FILE_FLAG_WRITE_THROUGH 这 两 个 参数 对 于 写 IO 请 求 来 
讲 具 有 大 致 类 似 的 效果 ， 但 是 对 于 读 IO 来 讲 ， 想 越过 FS 缓存 就 
只 能 使 用 前 者 。 如 果 目 标 文 件 位 于 网 络 另 一 端 ， 那 么 





FILE_FLAG_NO_BUFFERING 这 个 参数 只 会 对 客户 端 发 生效 
果 ， 当 请 求 被 传送 到 服务 器 端 时 ， 对 于 读 请 求 ， 这 个 参数 不 会 
产生 任何 效果 ， 服 务 器 总 是 可 以 首先 进行 目标 文件 在 其 本 地 绥 
存 的 Cache Hit 流 程 ， 但 是 对 写 请 求 会 有 效果 ， 服 务 端 在 SMB 协 
议 中 会 检测 这 个 参数 对 应 的 标记 以 便 做 出 相应 动作 ， 设 置 了 标 
记 的 请 求 ， 服 务 端 会 保证 将 其 写 入 硬盘 之 后 才 返 回 完成 信和 号。 
如 图 19-14 所 示 为 只 设置 了 前 者 (上 半 图 ) 和 只 设置 了 后 者 
(下 半 图 ) 时 数据 包 中 不 同 的 位 被 置 1。 另 外 ， 这 两 个 参数 是 
有 本 质 上 的 区 别 的 ， 详 见 下 文 。 

另外 在 其 中 我 们 还 可 以 看 到 其 他 本 章 前 文 所 描述 的 一 些 
FLAG， 比 如 控制 随机 或 连续 IO 的 FLAG。 


图 19-14 Wrtie Through 和 No Buffer 位 











至 此 我 们 得 出 了 结论 : 对 于 小 块 随机 IO 读 ， 使 用 CIFS 方 式 访问 数据 
的 情况 下 ， 客 户 端 在 调用 API 时 使 用 缓存 的 两 个 坏处 是 : 异步 变 同 步 、 


= 不 HL 
读 短 训 。 


说 到 写 惩罚 大 家 很 熟悉 ， 但 是 读 惩罚 确实 也 存在 。 所 以 我 们 要 尽力 
避免 读 惩罚 ， 由 于 开发 人 员 在 设计 程序 时 如 果 没 有 显 式 地 认识 到 这 个 问 
题 ， 一 般 都 会 直接 使 用 默认 参数 ， 没 有 越过 系统 内 核 的 缓存 ， 而 这 恰恰 
就 是 导致 性 能 低下 的 原因 。 而 对 于 大 块 连续 IO 读 ， 更 没有 必要 使 用 客户 
端 缓存 ， 因 为 内 核 在 CIFS 的 IO 方式 下 不 会 预 读 ， 还 要 它 做 什么 甚 呢 ? 
《实验 证 明 ， 即 使 使 用 Async Explorer 在 打开 文件 时 指定 
FILE_FLAG_SEQUENTIAL_SCAN 人 参数 来 刺激 FS 预 读 也 是 无 济 于 事 ， 
试验 结果 就 不 再 引入 了 ) 使 用 客户 端 绥 存 唯一 能 够 有 加 速效 果 的 情况 ， 
是 小 块 连续 IO 读 ， 比 如 512B 的 IO。 这 样 ， 客 户 端 每 读 入 1 个 Page， 就 相 
当 于 预 读 了 后 面 7 个 10 所 需要 的 数据 。 称 这 种 行为 为 预 读 尚且 有 些 自 欺 











其 人 ， 况 且 连 续 小 块 读 这 种 行为 在 应 用 层 束 应 该 尽量 将 这 些 连 续 的 小 块 
合并 为 大 块 才 是 正路 ， 不 应 该 不 负责 任 地 增加 底层 的 负担 。 


曾经 有 人 在 Windows Vista 64B 版 本 上 遇 到 了 同样 的 问题 ， 而 且 读 惩 
训 更 加 严重 ， 每 次 需要 读 入 32KB 的 数据 ， 但 是 这 里 作者 不 能 确认 是 否 
Windows Vista 64B Edition 的 Page Size 确 实 是 32KB。 所 能 确认 的 是 ， 上 
文 测试 中 的 4KB 确 实 是 Page Size 在 起 作用 而 不 是 FS 格式 化 时 指定 的 
Block Size 在 起 作用 。 退 一 步 讲 ，CIFS 协 议 本 身 并 没有 引入 Server 端 问 
Client 端 通告 Server 本 地 FS Block Size 的 机 制 ， 所 以 客户 端 既然 不 知道 
Server 的 FS Block 大 小 ， 那 么 上 文 测试 中 的 4KB 也 就 与 FS Block Size 无 
关 。 为 了 证 明 这 一 点 ， 下 面 做 一 个 试验 给 大 家 看 一 看 。 














如 图 19-15 所 示 ，E 盘 是 一 个 本 地 图 19-15”Filemon 写 惩罚 监测 结果 
做 盘 ， 被 格式 化 为 FS Block Size 三 
2048KB。 图 中 第 一 行 表示 程序 向 F 盘 下 面 的 一 个 文件 发 起 了 Offset 王 
19949，Length 王 1024B 的 随机 Offset 写 IO， 这 一 定 会 产生 写 惩罚 。 果 
然 ， 第 二 行 带 星 号 ， 表 示 这 是 内 核 自动 发 起 的 IO， 是 一 个 读 请 求 ， 可 以 
看 到 这 个 读 请 求 的 Offset 二 16384，Length 二 4096B。 其 Offset 可 以 被 4096 
除 尽 ， 表 示 OS 自 动 读 入 了 1 个 Page 大 小 的 数据 ，Page 在 内 存 中 都 是 以 
4KB 为 单位 的 ， 所 以 这 个 IO 的 起 始 Offset 也 是 出 于 Page 的 边界 上 。 虽 然 
FS 被 格式 化 为 2048B 为 一 个 Block， 但 是 这 里 OS 依 然 使 用 了 4KB 的 IO 
Size， 这 就 充分 说 明了 上 文 的 结论 。 














另外 ， 根 据 这 个 图 我 们 还 可 以 看 得 出 来 ，OS 读 入 这 个 Page 之 后 ， 
第 一 行 的 IO 会 落 入 这 个 Page， 图 中 所 显示 的 所 有 IO 请 求 也 都 落 入 了 这 个 
Page， 所 以 OS 再 没有 发 起 其 他 Page 的 读 IO 请 求 ， 因 为 图 中 所 有 的 IO 都 
会 Cache Hit。 当 然 这 里 只 是 特殊 情况 ， 因 为 可 以 看 到 网 中 的 所 有 IO 的 起 
人 Offset 根 本 没 相 差 几 个 字 节 ， 测 试用 程序 也 是 故意 定制 成 这 样 的 。 如 





果 遇 到 一 个 起 始 oOffset 没 有 落 入 已 读 入 Page 范 围 的 IO 请 求 ， 那 么 内 核 依 
然 还 要 读 取 对 应 的 Page。 本 章 后 面 章节 讲述 的 块 设备 IO 的 IO Size 等 也 都 
会 受 Page Size 的 影响 。 


对 于 小 块 连续 读 ， 使 用 Buffered IO 会 有 一 定 的 缓存 命中 率 ， 但 是 由 
于 后 层 没有 主动 预 读 ， 所 以 带 来 的 提速 是 微乎其微 的 。 








提示 : FS Block Size 大 部 分 情况 下 并 不 决定 FS 预 读 或 者 写 惩 记 
读 的 单位 ，FS 往 往 是 以 内 存 页 面 的 大 小 来 决定 读 入 数据 单位 
的 ， 包 括 下 面 章节 要 讲 的 AIX 系 统 下 FS 预 读 ， 也 是 使 用 Page 来 
作为 单位 的 。FS Block Size 的 最 大 一 个 作用 其 实 就 是 单纯 地 作 
为 FS 对 文件 空间 进行 分 配 时 的 最 小 单位 。 所 以 ， 这 里 请 准确 理 
解 OS RAM Page Size 和 FS Block Size 的 角色 和 作用 。 








上 面 论述 了 CIFS 环 境 下 的 读 行 为 ， 现 在 我 们 再 来 看 看 写 行为 。 对 于 
写 IO， 如 果 程 序 明确 指出 了 使 用 FILE_FLAG_NO_BUFFERING 或 者 
FILE_FLAG_WRITE_THROUGH 的 话 ， 那 么 底层 会 完全 透 传 上 层 程序 
发 出 的 写 IO， 并 且 这 个 请 求 到 了 CIFS Server 端 也 会 被 Server 以 Write 
Through 的 方式 写 入 磁盘 后 才 会 返回 完成 信号 。 而 如 果 程 序 没 有 使 用 这 
两 个 参数 的 任何 一 个 ， 那 么 客户 端 系统 会 默认 使 用 缓存 进行 写 IO。 








我 们 首先 来 调查 系统 对 非 Buffered IO 的 写 行 为 。 非 Buffered IO 又 分 
为 WriteThrough 方 式 和 NO_BUFFER 方 式 ， 上 文 小 提示 中 给 出 了 二 者 的 
本 质 区 别 ， 这 里 我 们 用 实践 来 检验 之 。 


非 Buffered IO (Direct IO ) 模式 下 的 写 行 为 如 下 。 


下 面 我 们 分 析 在 CIFS 访 问 方式 下 ， 使 用 
FILE_FLAG_NO_BUFFERING 参 数 打开 目标 文件 之 后 ， 系 统 内 核 是 否 


还 会 发 生 惩 避 行为 O 


如 图 19-16 所 示 ， 使 用 测试 软件 以 相同 的 其 他 测试 参数 ， 分 别 用 WT 
模式 和 FILE_FLAG_NO_BUFFERING 方 式 打开 目标 文件 进行 513B ( 注 
意 ， 非 512B 对 齐 ) IO Size 的 随机 读 测 试 。 


图 19-16 ”WT 模式 与 NOBUFFER 模 式 读 对 比 测试 

















图 中 右 侧 下 部 1 号 记录 显示 了 在 使 用 FILE_FLAG_NO_BUFFERING 
参数 打开 文件 后 ， 底 层 所 监测 到 的 NoBuffer Access。 下 部 左 侧 的 CIFS 协 
议 数 据 包 中 对 应 的 FLAG“Intermediate Bufferding” 也 置 了 1， 两 者 一 一 对 
应 。 两 次 测试 给 出 的 内 核 IO 每 罚 完全 不 同 : WT 模式 下 和 您 罚 严 重 ， 而 
NoBuffer 模 式 下 根本 没有 惩罚 。 而 且 还 得 出 了 另外 一 个 结论 ， 即 如 果 底 
层 采用 CIFS 协 议 来 访问 目标 文件 ， 则 上 层 程序 在 使 用 
FILE_FLAG_NO_BUFFERING 之 后 ， 可 以 发 出 iosize 不 等 于 扇 区 整数 倍 
的 IO 请 求 ， 而 且 这 些 请 求 被 完全 地 透 传 到 CIFS 层 执行 。 这 个 设计 是 合理 
的 ， 因 为 CIFS 协 议 自身 并 没有 规定 读 写 请 求 的 offset 必 须 与 某 个 单位 对 
齐 。 而 对 于 底层 直接 使 用 物理 磁盘 IO 的 情况 ， 就 必须 要 求 使 用 NoBuffer 
模式 的 程序 发 出 扇 区 对 齐 的 IO 请 求 了 。 

















使 用 了 NoBuffer 模 式 之 后 ， 针 对 CIFS 目 标 文件 的 读 和 写 请 求 均 被 完 
全 透 传 。 如 图 19-17 所 示 为 同样 使 用 了 NoBuffer 模 式 对 目标 文件 进行 
567B 的 随机 写 入 ， 发 现 IO 请 求 被 完全 透 传 到 底层 ， 没 有 任何 读 或 者 写 
惩罚 存在 。 


图 19-17 NoBuffer 模 式 写 测试 


提示 : ”CIFS 访 问 方式 下 ， 使 用 NoBuffer 模 式 打 开 文 件 进 行 IO 
的 程序 没有 必要 一 定 发 出 而 区 对 齐 的 IO 请 求 ， 此 时 内 核 完 全 透 
传 上 层 的 IO 请 求 。 但 是 IO 请 求 到 了 CIFS Server 端 之 后 ， 依 然 会 
在 Server 端 本 地 产生 对 应 的 惩 估 ， 所 以 ， 从 全 局 角度 来 讲 ， 程 
序 任何 情况 下 都 发 出 悄 区 对 齐 的 IO 请 求 是 最 理想 的 状态 。 





5. Buffered IO 模式 下 的 写 行 为 


这 里 需要 区 分 概念 ，Buffered IO 一 样 可 以 使 用 Write 
Through (WT) 。WT 并 不 是 说 IO 请 求 不 经 过 内 核 缓存 ， 而 是 先进 入 组 
存 但 是 系统 需要 将 数据 彻底 写 入 底层 介质 之 后 才 返 回 成 功 。 











对 一 个 文件 进行 写 入 操作 有 两 种 方式 : 一 种 是 妃 加 写 ， 为 一 种 是 窗 
盖 写 。 这 两 种 模式 对 系统 底层 的 IO 行为 影响 迎 异 。 下 面 会 分 别 介绍 。 





1) Buffered IO 下 使 用 WRITE THROUGH 模 式 写 





首先 我 们 对 WT 模 式 做 一 系列 疯狂 实验 。 在 Windows 系 统 下 使 用 某 
测试 工具 打开 CIFS Server 上 菏 文 件 进行 测试 ， 打 开 时 只 指定 WRITE 
THROUGH 参 数 ， 然 后 从 文件 头 部 开始 做 1KB 每 次 的 同步 写 操作 。 从 如 
图 19-18 所 示 的 底层 IO 输出 结果 来 看 ， 产 生 了 严重 的 读 和 写 惩 如 。 


图 19-18 ”WT 模式 连续 小 块 写 测试 


图 中 左 侧 为 Client 与 Server 之 间 的 IO 请 求 输出 ， 右 侧 为 Client 本 地 使 
用 Filemon 底 层 过 滤 驱 动 检测 到 的 本 地 所 发 生 的 IO 请 求 输出 ， 发 现 二 者 
是 一 一 对 应 关系 。 


为 了 满足 第 一 个 offset 二 0 ” length 二 1KB 的 写 操作 ， 系 统 首先 需要 读 
入 4KB 大 小 的 Page0 也 就 是 offset 二 0 length 二 4KB 的 数据 (对 应 右 侧 带 星 
号 的 75 号 记录 ) ， 然 后 将 读 入 的 page 的 前 1KB 在 内 存 中 蔡 换 为 IO 请 求 的 
数据 。 由 于 设置 了 WT 参 数 ， 所 以 此 时 系统 还 必须 再 次 将 此 修改 后 的 
page0 写 入 ， 所 以 紧 接 着 发 生 了 4KB 的 写 入 请 求 〈 对 应 右 侧 带 星 号 的 76 
号 记录 ) ， 第 一 次 1KB 写 IO 至 此 完成 。 第 二 次 程序 继续 发 起 写 IO， 由 于 
是 连续 地 址 写 ， 这 次 IO 为 offset 二 1024， length 二 1024。 但 是 这 次 ， 系 统 
不 再 读 入 page0， 因 为 前 一 轮 修改 后 的 Page0 依 然 在 缓存 中 ， 此 时 系统 直 
接 使 用 这 个 page0 即 可 ， 将 page0 中 从 offset1024 开 始 之 后 的 1024B 蔡 换 为 
本 次 IO 对 应 的 数据 ， 然 后 立即 发 起 向 CIFS Server 的 写 入 请 求 ， 写 入 修改 
后 的 page0。 对 于 再 往 后 的 2 次 写 入 ， 系 统 依 然 不 需要 从 Server 端 读 入 
page0， 所 以 ， 对 一 开始 发 生 的 4 个 写 IO 请 求 ， 系 统 只 读 入 了 一 次 
page0， 却 写 入 了 4 次 修改 后 的 page0。 依 此 类 推 ， 对 下 4 次 写 IO， 系 统 需 
要 读 入 pagel， 人 然后 执行 相同 过 程 。 





忆 体 来 讲 使 用 WT 模式 ， 并 没有 完全 Bypass 系 统 内 核 的 缓存 ， 所 以 
直接 导致 了 严重 的 读 写 惩 吉 ， 产 生 了 4 倍 的 总 惩 避 量 ， 计 算 公 陈 为 〈 总 
读 入 十 总 写 入 一 应 写 入 ) /应 写 入 。 图 中 右 侧 1 号 记录 中 可 以 看 到 过 小 了 驱 
动 监测 到 了 上 层 打开 文件 时 指定 的 WT 参数 ， 禹 星 写 的 记录 表示 这 个 请 
求 是 内 核发 起 的 而 不 是 程序 发 起 的 。 











同 理 ， 如 采 将 上 面 的 测试 程序 发 起 的 IO Size 改 为 2KB， 那 么 推导 可 
得 出 每 2 次 上 层 IO 就 会 对 应 内 核 的 1 次 读 page 和 2 次 写 page 动 作 ， 图 19-19 
给 出 了 结束， 惩罚 倍数 为 2 倍 。 同 理 可 得 ， 如 果 上 层 IO Size 为 512B， 那 
么 每 避 倍 数 将 达到 8 倍 。 





图 19-19 ”WT 模式 2KB 写 入 测试 


同 理 还 可 得 ， 如 果 程 序 发 起 的 IO Size 为 4KB， 那 么 惩罚 倍数 一 1， 
也 就 是 没有 惩罚 ， 如 图 19-20 所 示 。 如 果 程 序 发 起 page size 也 就 是 4KB 对 
齐 的 IO 请 求 ， 系 统 底层 是 否 还 会 产生 惩罚 ? 可 以 看 到 系统 底层 并 未 出 现 
任何 惩 避 量 。 右 侧 的 监测 记录 也 表示 程序 发 起 的 IO 与 与 内 核发 起 的 IO 与 
J 





图 19-20 ”WT 模式 4KB 对 齐 IO 测 试 





上 面 的 测试 用 例 全 部 是 连续 地 址 写 入 ， 从 结果 也 可 以 判断 ， 连 续 地 
址 写 入 模式 下 ， 由 于 会 有 部 分 IO 缓存 命 中 ， 所 以 一 定 程度 上 降低 了 惩 凡 
倍数 ， 惩 加 倍数 =pagesize/iosize， 最 小 为 1。 下 面 我 们 设计 另外 的 用 例 
来 避免 缓存 命中 ， 看 一 看 此 时 惩 坟 倍数 的 变化 。 如 图 19-21 所 示 为 WI 模 
式 下 随机 1KB 写 入 行为 测试 结果 。 可 以 看 到 ， 随 机 模式 下 由 于 绥 存 命中 
率 几 乎 为 0， 所 以 每 次 程序 发 起 的 IO 都 会 导致 内 核 产生 1 个 page 的 读 和 1 
个 page 的 写 操 作 ，1KB 的 惩 基 倍数 为 7 倍 ， 同 理 可 得 512B 的 惩罚 倍数 为 
15 倍 。 


图 19-21 WT 模式 随机 1KB 写 测试 





2) 追加 写 底层 10 行 为 
在 Windows 系 统 中 使 用 测试 工具 从 0 开始 奶 加 写 一 个 文件 ， 每 次 写 
1KB， 同 步 十 连续 十 BufferedIO 模 式 。 结 果 如 图 19-22 所 示 。 
图 19-22 ”以 1KB 为 单位 追加 写 


在 图 19-22 中 ， 左 侧 为 在 操作 系统 底层 过 滤 驱 动 监测 到 的 本 地 IO 行 


为 ， 右 侧 则 为 CIFS 服 务 端 检测 到 的 实际 接收 到 的 客户 端 IO。 在 左 侧 的 窗 
口中 我 们 可 以 看 到 ， 程 序 确实 以 1KB 为 单位 不 断 写 入 文件 。 这 里 无 法 看 
出 是 追加 还 是 覆盖 ， 但 是 我 们 可 以 确定 就 是 追加 ， 因 为 程序 是 以 这 种 模 
式 执行 的 。 由 于 发 生 的 IO 过 多 ， 图 片 中 作者 人 为 地 删 掉 了 1000 多 行 记 
录 ， 最 终 程 序 从 0 写 入 了 共 523264 十 1024 二 524288B。 随 后 ， 程 序 发 起 了 
一 个 FLUSH_BUFFER 操 作 ， 通 知 操作 系统 将 方才 写 入 的 数据 Flush 到 存 
储 介质 ， 当 然 这 里 的 存储 介质 其 实 是 CIFS 服 务 端 。 所 以 我 们 看 到 操作 系 
统 将 缓存 的 数据 写 了 出 去 ， 对 应 左 侧 的 带 星 号 的 记录 ， 同 时 对 应 了 右 侧 
的 632 号 之 前 的 包 。 可 以 看 到 客户 端 是 以 64KB 为 单位 写 入 CIFS Server 
的 。 随 后 ， 系 统 内 核发 起 了 一 个 Cleanup 操 作 ， 这 个 操作 被 透 传 到 了 
CIFS Server 执 行 ， 所 以 在 右 侧 可 以 看 到 Server 接 收 到 了 Flush Request， 
并 在 数据 成 功 写 入 Server 本 地 人 厂 盘 之 后 ， 返 回 Response。 














综 上 所 述 ，Buffered IO 模 式 下 的 追加 写 操作 ， 是 不 会 引发 任何 写 惩 
罚 的 ， 其 原因 是 因为 待 写 入 的 部 分 原来 并 不 存在 ， 文 件 长 度 是 逐渐 增加 
的 ， 所 以 客户 端 内 核 不 可 能 读 入 一 个 并 不 存在 的 Page 映 射 块 。 追 加 写 模 
式 下 ， 内 核 会 将 写 IO 数据 暂 存 并 做 合并 操作 ， 合 并 为 更 大 的 IO， 提 升 了 
效率 ， 所 以 追加 写 使 用 Buffered IO 会 受益 颇 多 。 














3) 履 盖 写 底层 IO 行为 


我 们 再 来 看 一 下 Buffered IO 模式 的 履 兰 写 对 应 的 底层 行为 。 如 果 文 
件 本 号 已 经 有 一 定 尺 寸 ， 其 长 度 并 不 是 0， 当 蓝 盖 号 入 其 中 某 些 区 域 
时 ， 此 时 因为 内 核 已 经 可 以 将 文件 的 对 应 区 域 映射 到 Page _ Cache 中 了 ， 
那么 加 会 产生 写 惩 着 ， 读 入 Page， 修 改 ， 写 回 。 但 是 Buffered IO 模式 下 
的 写 惩 剧 还 是 与 WT 模式 下 有 些 不 一 样 的 地 方 。 





如 图 19-23 所 示 ， 使 用 测试 程序 对 目标 文件 做 从 0 开始 的 履 盖 写 ， 


次 写 1KB 内 容 ， 同 步 十 连续 十 Buffered IO 模式 。 还 是 先 来 看 左 侧 窗口 ， 
可 以 看 到 与 WI 模 式 相 同 ， 产 生 了 与 惩 才 ， 但 是 与 图 19-6 对 比 ， 结 果 是 
有 差异 的 ， 即 本 例 中 只 有 惩 避 恋 ， 并 没有 惩 避 写 。 惩 到 读 的 倍数 与 WT 
模式 下 相同 ， 惩 罚 写 的 倍数 为 1， 即 没有 写 惩 如 。 可 以 看 到 左 侧 带 星 号 
的 记录 ， 这 些 写 操作 都 被 缓存 在 内 核 中 ， 当 程序 发 起 一 个 
FLUSH_BUFFER 操 作 后 ， 内 核 将 这 些 数据 合并 为 多 个 Dirty Page， 以 
64KB (16 个 Dirty Page) 为 单位 ， 发 癌 CIFS Server。 碳 侧 的 结果 也 对 应 
了 这 个 结论 ， 前 面 是 一 系列 连续 的 读 操 作 《〈《 和 省略 了 近 千 行 ) 而 没有 任何 
写 操作 。 而 当 程 序 发 起 FLUSH_BUFFER 操 作 后 ，Server 才 接收 到 以 
64KB 为 单位 的 写 操 作 ， 然 后 又 接收 到 了 FLUSH Request， 这 个 Request 
对 应 了 程序 最 后 所 发 出 的 CLEANUP 操 作 。 








图 19-23 ”以 IKB 为 单位 覆盖 写 


Me = mo pr | pA -i 3 eo 
仆人 灸 训 、 与 你 训 、 佐 训 艾 、 佐 训 与 
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注意 : ”这 里 请 一 定 注 意 这 几 个 词 的 区 别 和 用 法 。 读 惩罚 和 写 
惩罚 是 指 在 程序 发 起 读 操 作 和 写 操作 的 时 候 ， 系 统 底层 产生 了 
不 必要 的 额外 IO， 而 这 些 不 必要 的 IO 可 能 有 读 ， 也 有 写 ， 产 生 
的 惩罚 IO 为 额外 读 ， 那 么 就 叫 和 您 昼 读 ， 如 果 额 外 的 IO0 为 写 ， 那 
么 束 称 惩罚 写 。 比 如 WT 模式 下 的 不 规则 小 块 写 入 ， 会 产生 写 
惩罚 ， 写 惩罚 里 既 有 惩罚 读 ， 也 有 惩罚 写 。 


从 结果 可 以 判断 ， 内 核 的 智能 有 待 进一步 优化 。 比 如 ， 应 当 暂 存 写 
IO 到 一 定 程 度 然后 再 判断 是 否 需 要 读 入 Page， 而 不 是 每 接收 到 一 个 上 层 
的 写 IO 就 先 去 执行 Readpage。 如 末 内 核 在 这 方面 优化 的 足够 彻底 ， 本 实 
验 中 是 不 会 产生 任何 惩罚 读 的 。 


对 于 随机 十 Buffered IO 十 窗 盖 写 十 小 块 属性 的 写 IO， 由 于 数据 合并 
为 连续 的 Dirty ” Page 的 几率 非常 小 ， 所 以 其 产生 的 惩 神 写 和 惩罚 读 几 乎 
相同 ， 与 WT 模式 无 异 。 





对 于 Network IO 来 说 ， 应 用 程序 需要 在 选择 使 用 缓存 和 不 使 用 缓存 
方面 讶 慎 决 定 。 绽 上 所 述 ， 一 般 情 况 下 使 用 CIFS 时 最 好 使 用 NoBuffer 模 
式 以 杜绝 任何 读 写 惩罚 ， 并 且 同 时 保证 iosize 为 4KB 的 整数 倍 ， 这 样 可 
以 杜绝 从 Client 到 Server 端 整个 IO 路 径 中 的 惩 避 现象 。 仅 仅 在 以 下 情况 考 
虑 使 用 Buffered IO 模式 : 小 块 连续 读 、 小 块 连续 写 。 至 于 
WRITETHROUGH 模 式 ， 完 全 是 鸡肋 ， 建 议 不 要 使 用 。 











另外 ， 使 用 Network ”IO 的 程序 还 需要 适当 降低 对 IO 响 应 时 间 的 要 
求 ， 还 有 ， 在 网 络 异 常 中 断 或 者 服务 端 异常 重启 之 后 需要 重新 Open() 对 
应 的 目标 文件 以 便 获得 最 新 的 File Handle。 在 其 他 包括 调用 接口 以 及 程 
序 设 计 等 方面 均 与 本 地 IO 无 异 。 








提示 : Windows 系 统 下 的 Network IO 操作 是 由 操作 系统 内 核 的 
Network IO Redirector CNIR) 完成 的 。Network IO (NIO) 相 
对 本 地 文件 系统 IO 〈LIO) 的 一 个 最 大 不 同 是 NIO 根 本 不 需要 

文件 一 块 映射 计算 ， 由 于 NIO 底 层 使 用 CIFS 等 协议 ， 这 些 网 络 
文件 系统 协议 并 不 像 SCSI 等 块 协议 一 样 规 定 IO Size 必 须 为 而 区 
倍数 大 小 。 既 然 这 样 ，NIR 就 完全 可 以 透 传 上 层 程序 的 IO 请 求 
直接 给 CIFS Server 处 理 ， 然 后 由 CIFS Server 上 自身 来 做 文件 一 块 
映射 运算 。 所 以 ， 在 Client 端 ，NIR 根 本 用 不 到 本 地 文件 系统 比 
如 NTFS 的 块 映射 运算 ， 用 到 的 只 是 本 地 文件 系统 的 表示 层 

( 见 19.1.2 节 1) 功能 。NIR 管 理 着 NIO 层 的 缓存 ， 这 个 缓存 使 

用 Page 为 单位 进行 Page In 和 Page Out 操作 〈 见 19.1.4 节 ) 。 如 果 
用 户 程序 使 用 Buffered IO 模式 ， 则 NIR 会 首先 进行 Read Cache 


Hit 或 者 Cache Write Back 操 作 ， 如 果 读 未 命中 ， 则 进行 Page In 
操作 读 入 对 应 的 Page。 既 然 涉及 到 Page 操 作 ， 那 么 NIO 对 CIFS 
Server 的 IO 单 位 束 会 从 原来 的 不 规则 程度 变 为 以 Page Size 为 单 
位 对 齐 规则 长 度 的 ID。 当然， 如 宁 用 户 程序 使 用 DIO， 则 可 以 
完全 越过 系统 内 核 任何 的 Page _ Cache， 在 用 户 绥 存 空间 与 NIR. 
驱动 之 间 建 立 一 条 直通 路 径 ， 这 样 ， 程 序 的 不 规则 长 度 IO 束 又 
会 被 透 传 到 CIFS Server 了 。 











如 图 19-24 所 示 为 NIR 在 系统 IO 路 径 中 所 处 的 逻辑 位 置 以 及 其 与 内 核 
其 他 组 件 之 间 的 关系 。 





图 19-24 NIR 在 系统 路 径 中 的 位 置 
4) 多 进程 访问 缓存 一 致 性 问题 解决 办 法 : Opportunistic Lock 


本 节 前 文 所 叙述 的 全 部 都 是 在 单 Client 单 进程 访问 目标 文件 时 所 发 
生 的 情况 。 而 网 络 文件 系统 的 一 个 最 大 好 处 是 可 以 同时 让 多 台 Client 共 
同 访问 同一 个 文件 ， 当 然 这 不 应 该 算是 个 好 处 ， 本 来 就 是 它 应 该 做 到 
的 ， 因 为 CIFS/NFS 等 协议 本 里 就 是 本 地 文件 系统 访问 接口 的 一 种 网 络 
化 透 传 实现 方法 。 既 然 本 地 文件 可 以 被 多 个 进程 同时 访问 ， 那 么 网 络 上 
的 文件 也 没有 理由 不 可 以 被 多 个 进程 或 者 多 个 Client 访 问 。 涉 及 多 进程 
同时 访问 ， 就 一 定 会 涉及 到 缓存 一 致 性 问题 。 











对 于 本 地 文件 的 共 吝 式 访 问 方法 有 多 种 ， 有 具体 如 下 。 


第 一 种 最 普通 ， 就 是 在 Open() 的 时 候 什 么 也 不 做 ， 不 使 用 额外 的 
参数 ， 默 认 方 式 下 ， 目 标 文 件 是 可 以 共享 读 写 访问 的 ， 即 可 以 同 
时 被 多 个 进程 打开 并 读 写 。 显 然 这 样 做 有 很 大 的 安全 问题 以 及 数 
据 同 步 问 题 ， 如 果 使 用 Buffered IO 方式 ， 每 个 进程 都 会 有 自己 的 


缓存 。 比 如 在 读数 据 的 时 候 ， 内 核 会 将 所 请 求 的 数据 复制 到 用 户 
程序 缓存 ， 如 果 有 多 个 程序 都 恋 取 这 个 文件 ， 那 么 每 个 程序 自身 
缓存 都 会 被 复制 入 对 应 的 被 请 求 数据 ， 这 些 缓存 在 用 户 程序 缓存 
中 的 数据 随后 可 以 被 程序 多 次 参考 而 无 顷 再 向 内 核发 起 读 请 求 ; 
而 此 时 这 个 程序 并 不 知道 ， 可 能 有 其 他 的 程序 早已 修改 了 目标 文 
件 的 一 些 数据 ， 而 这 些 被 修改 的 内 容 并 没有 实时 地 被 更 新 到 自 号 
的 缓存 中 ， 上 自身 正在 参考 的 是 早已 过 期 的 数据 。 

第 二 种 共享 访问 方法 高 级 一 些 ， 程 序 在 Open() 目 标 文件 的 时 候 可 
以 指定 Share ”Mode， 比 如 不 允许 其 他 进程 对 目标 文件 进行 读 、 
写 、 读 或 号 、 删 等 操作 ， 相 当 于 对 目标 文件 加 了 一 个 全 局 锁 。 这 
样 ， 加 锁 的 程序 就 可 以 肆 无 忌 尽 地 在 程序 上 自身 缓存 空间 对 文件 进 
行 读 或 者 写 缓存 而 不 用 担心 其 他 人 中 途 对 文件 进行 修改 。 

第 三 种 更 高 级 ， 由 于 全 局 锁定 一 个 文件 会 导致 其 他 进程 根本 无 法 
访问 文件 的 任何 部 分 ， 有 时 候 某 个 程序 只 是 想 要 更 改 文 件 中 的 一 
小 部 分 地 址 上 的 数据 ， 此 时 程序 可 以 使 用 内 核 提 供 的 LockfileO) 功 
能 ， 对 文件 进行 以 字 节 为 单位 的 而 不 是 整个 文件 的 锁定 ， 想 要 操 
作 哪 些 字 节 段 ， 就 加 锁 哪 些 字 节 段 。 多 个 程序 可 以 共同 加 锁 一 个 
文件 不 同 的 字 节 段 ， 加 锁 后 的 字 节 段 可 以 复制 到 程序 缓存 进行 读 
写 ， 然 后 适当 时 刻 批 量 向 内 核发 起 IO 请 求 以 永久 保存 到 底层 存储 
介质 ， 这 样 效率 承 有 了 整体 提高 。 

第 四 种 最 高 级 ， 程 序 可 以 使 用 mmap0 功 能 来 将 目标 文件 映射 到 程 
序 自 映 缓 存 但 是 并 不 复制 其 内 容 ， 程 序 针对 映射 缓存 的 读 写 就 等 
于 读 写 了 目标 文件 。 多 个 程序 如 果 都 使 用 这 种 mmap() 功 能 进行 共 
享 映射 ， 那 么 目标 文件 在 任何 时 刻 只 有 一 份 复制 ， 处 于 系统 内 核 
当中 ， 任 何 用 户 程 序 在 任何 时 刻 所 看 到 的 文件 内 容 都 是 一 样 一 致 
的 ， 在 mmap0 的 基础 上 ， 程 序 依然 可 以 使 用 Lockfile() 来 对 文件 
进行 Byte Range 加 锁 以 排 开 其 他 进程 的 访问 。 



























































a 第 五 种 ， 也 惑 是 将 要 介绍 的 Oplock， 见 下 文 详 述 。 


缓存 和 数据 一 致 性 有 多 个 层次 ， 有 时 序 上 的 一 致 性 (保证 每 个 程序 
所 读 入 的 部 是 最 新 的 源 数 据 ，， 也 有 化 辑 上 的 一 致 性 (保证 多 个 进程 轮 
流 对 东 一 区 域 进行 更 改 而 不 是 同时 并 行 号 入 ) 。 只 有 Lockfile0 才 能 够 保 
证 最 高 级 别 的 一 致 性， 即时 序 和 化 辑 上 共同 的 一 臻 性。 也 就 是 说 同一 个 
文件 的 同一 个 区 域 ， 任 何 时 刻 只 能 有 1 个 进程 对 其 做 写 入 操作 ， 多 个 进 
程 同 时 对 同一 区 域 写 入 时 ， 必 须 轮流 串 行 地 进行 。 既 然 多 个 进程 访问 同 
一 个 文件 区 域 ， 那 么 这 多 个 进程 一 定 都 知道 目 己 在 做 什么 ， 谁 先 谁 后 都 
是 进程 之 间 决 定好 的 ， 如 果 本 来 应 该 后 写 入 的 进程 却 先 写 入 了 ， 那 么 后 
来 的 写 入 就 会 覆盖 之 前 的 数据 ， 造 成 逻辑 上 的 不 一 致 。 如 果 不 使 用 
Lockfile()， 如 果 进 程 之 间 通 过 男 外 的 机 制 来 实现 串 行 写 入 ， 也 是 可 以 
的 ， 但 终 完 不 保险 。 而 对 于 使 用 共享 式 mmapO 进 行文 件 访问 的 多 个 进 
程 ， 里 然 此 时 可 以 保证 读 时 序 上 的 一 致 性 ， 但 如 条 不 使 用 Lockfile0， 一 
样 也 无 法 保证 写 逻 辑 上 的 一 致 性 。 








而 对 于 网 络 文件 系统 ， 同 样 需 要 解决 多 客户 并 访问 同一 个 目标 时 的 
绥 存 一 人 臻 性 问题 。 网 络 文件 系统 的 处 理 方法 基本 上 就 是 本 地 文件 系统 处 
理 方法 的 透 传 。 网 络 上 每 个 Client 端 内 核 的 NIO 层 绥 存 就 相当 于 使 用 本 
地 文件 系统 IO 时 单 台 机 器 上 每 个 应 用 程序 自身 的 缓存 ， 而 对 于 CIFS 
Server 端 来 说 ， 每 个 Client 端 怠 仿 佛 是 一 个 用 户 程序 ， 这 些 程序 所 发 送 的 
文件 操作 请 求 会 由 Server 问 的 NIR 模 块 翻译 为 针对 Server 端 本 地 文件 系统 
的 请 求 。CIFS 协 议 其 实 本 质 上 是 将 大 部 分 本 地 文件 系统 的 操作 API 翻 译 
封装 到 网 络 数据 包 里 了 。 


CIFS 协 议 处 理 多 客户 端 共 享 同 一 目标 文件 的 方法 包 侣 了 上 文 描述 的 
四 种 。 第 一 种 就 是 没有 任何 限制 的 自由 访问 模式 ， 这 种 模式 下 根本 不 能 
保证 缓存 一 致 性 。 第 二 种 也 就 是 ShareMode 模 式 全 局 锁 ， 当 Client 端 程序 





在 Open0 时 指定 这 个 参数 内 容 之 后 ，CIFS 协 议会 将 这 个 信息 放 到 网 络 数 
据 包 中 传递 给 Server 端 ，Server 端 NIR 驱 动 解析 之 后 做 对 应 的 处 理 动作 ， 
安全 透 传 程 序 的 请 求 给 Server 辣 。 如 图 19-25 所 示 为 一 个 CIFS 协 议 的 
Open() 操 作 数 据 包 内 表示 ShareMode 的 字段 ， 可 以 看 到 这 个 程序 允许 其 
他 程序 对 目标 进行 读 和 写 但 是 不 允许 删除 操作 。 











图 19-25 “Share Mode 字 段 


第 三 种 Se 图 19-26” 字 节 Lock 字 段 
第 三 种 为 Byte Range Lock 方 法 ， 字 节 Lock 字 段 


程序 对 某 个 远程 文件 发 起 Lockfile0 操 

作 之 后 ，CIFS 协 议 完 全 透 传 这 个 请 求 给 Server 端 。 如 图 19-26 所 示 为 一 个 
程序 发 起 的 Lockfile0 请 求 被 封装 在 数据 包 之 后 的 表示 ， 可 以 看 到 这 一 个 
数据 包 中 包含 了 三 段 字 节 锁 ， 每 个 长 度 都 是 1B， 这 是 用 MS ”Office 程 序 
打开 一 个 Word 文 档 时 抓 取 的 ， 被 锁 的 1B 看 来 是 文档 中 的 关键 字 节 。 








第 四 种 方式 ， 也 就 是 任何 时 刻 ， 目 标 文 件 只 有 一 个 副本 ，CIFS 方 式 
下 要 做 到 这 一 点 ， 唯 有 让 所 有 访问 这 个 目标 文件 的 程序 都 使 用 DIO 模 式 
打开 ， 这 样 所 有 程序 所 做 的 更 改 部会 即刻 被 体现 到 CIFS Server 闯 内核 组 
存 中 。 这 样 的 话 束 可 以 保证 Server 闻 任何 时 刻 只 保存 目标 文件 的 一 份 复 
制 ， 在 Server 奖 内 核 之 外 没有 任何 缓存 的 数据 。 


网 络 I0 与 本 地 IO 最 大 的 一 个 不 同 就 是 本 地 IO 的 调用 处 理 过 程 都 发 生 
在 内 存 中 ， 只 有 底层 数据 块 读 写 发 生 在 比较 慢 速 的 存储 介质 处 ， 而 网 络 
IO 过 程 的 调用 处 理 过 程 本 身 需 要 通过 慢 速 网 络 发 送 到 Server 端 处 理 ， 实 
体 数据 的 读 写 也 要 经 过 同一 个 网 络 ， 相 对 于 本 地 IO 来 讲 效率 是 比较 低 
的 。 既 然 这 样 ， 如 果 在 客户 端 使 用 缓存 则 会 大 大 降低 一 些 不 必要 的 网 络 
传输 但 是 却 无 法 保证 缓存 一 臻 性。 当然， 如 果 程 序 都 使 用 Lockfile0， 那 
么 不 会 有 任何 问题 ， 即 使 缓存 在 客户 端 也 不 会 出 现任 何不 一 致 情况 











(Lockfile0 之 后 ， 绥 存 依然 不 允许 Write Back， 只 人 允许 Read ”Ahead 
Hit) ， 但 是 不 是 任何 程序 都 去 考虑 字 节 锁 的 ， 有 些 程序 不 需要 尿 辑 上 

一 致 ， 而 只 需要 在 时 序 上 一 致 且 可 。 使 用 DIO 模 式 更 加 直截了当 地 避免 
了 时 序 一致 性 问题 ， 但 同时 可 能 增加 网 络 流量 。 不 想 加 锁 又 要 同时 实现 
客户 端 本 地 缓存 ， 还 要 保证 时 序 上 的 一 致 性 ， 似 乎 挺 复杂 。 





面 对 这 种 情况 ， 内 核 提 供 了 另外 一 种 独立 的 缓存 一 致 性 管理 方法 ， 
称 为 Opportunistic Lock 〈Oplock) ， 强 行 翻译 过 来 就 是 机 会 锁 ， 当 然 也 
可 以 叫 它 撞 大 运 锁 。Oplock 为 Windows 内 核 的 功能 ， 而 并 不 局 限于 网 络 
IO， 多 个 进程 本 地 IO 也 可 以 使 用 Oplock 来 申请 程序 自身 缓存 一 致 性 保 
Ul 





试想 ， 如 果 某 个 时 刻 只 有 一 个 CIFS 客 户 端 打开 文件 进行 操作 而 其 他 
客户 并 都 没有 打开 这 个 文件 ， 那 么 此 时 这 个 文件 的 内 容 可 以 被 缓存 在 这 
个 客户 端 上 ， 可 以 Read Hit 也 可 以 Write Back， 不 存在 缓存 一 致 性 问题 。 





而 如 果 在 这 个 客户 端 尚 未 CloseO) 这 个 文件 之 前 ， 男 有 一 个 客户 端 也 
向 Swerver 发 起 针对 这 个 文件 的 Open0O 请 求 ， 那 么 Server 端 必须 通知 第 一 
个 打开 这 个 文件 的 客户 端 将 其 缓存 中 的 Dirty Page 全 部 Flush 到 Server 并 ， 
因为 有 另外 的 人 要 看 ， 需 要 最 新 的 数据 。 同 时 第 一 个 客户 端 也 被 告知 它 
将 不 再 允许 Write ”Back〈 每 次 写 都 需要 直接 将 数据 发 回 Server 端 ， 类 似 
DIO 模 式 ) ， 而 Read Hit 还 是 可 以 的 ， 因 为 第 二 个 客户 端 此 时 并 没有 问 
文件 中 写 入 任何 内 容 ， 第 一 个 客户 端 缓存 中 的 数据 依然 是 最 新 的 。 随 
后 ， 客 户 端 2 打算 同文 件 中 写 入 内 容 ， 那 么 在 写 入 内 容 之 前 ，Server 会 通 
知 第 一 个 客户 端 其 缓存 全 部 作废 ， 因 为 客户 端 2 已 经 发 起 了 写 操 作 ， 已 
经 不 能 保证 客户 端 1 的 缓存 中 都 是 最 新 的 数据 了 ， 客 户 问 1 接 到 这 个 通知 
后 的 IO 行为 会 转变 DIO 模 式 ， 完 全 Bypass 反 内核 的 缓存 了 。 

















同样 ， 客 户 端 2 从 一 开始 惑 以 DIO 模 式 行动 了 ， 因 为 此 时 已 经 有 两 
个 客户 端 同 时 读 写 同一 个 文件 ， 任 何 一 方 也 不 能 保有 缓存 ， 双 方 均 以 
DIO 模 式 运 行 〈 一 种 情况 除外 ， 束 是 如 果 某 客户 问 问 Server 申 请 了 
Lockfile0 字 节 锁 ， 则 对 应 的 字 节 段 可 以 被 读 缓存 ， 但 依然 不 能 被 写 组 
存 ) 。 以 上 这 种 思想 就 是 Oplock 的 设计 思想 ， 即 Oplock 充 分 保证 在 只 有 
一 台 客 户 端 打 开 文 件 的 时 候 能 够 给 其 充分 的 缓存 自由 ， 一 旦 有 其 他 客户 
端 打 开 文 件 ， 但 是 没有 做 写 入 操作 时 ， 所 有 客户 端 都 有 保有 Read Hit 绥 
存 也 就 是 恋 绥 存 的 自由 ， 一 旦 某 个 客户 问答 试 写 入 文件 了 ， 那 么 所 有 人 
的 读 绥 存 自由 也 被 剥夺 ， 全 部 以 DIO 模 式 运 行 。 所 以 称 其 为 撞 大 运 锁 ， 
如 碰巧 你 是 第 一 个 来 的 ， 那 么 你 就 能 获得 缓存 ， 如 果 再 有 人 来 ， 对 不 
起 ， 写 绥 存 剥夺 ， 如 果 其 他 人 也 要 写 ， 对不起， 所 有 人 都 别 缓存 了 。 


注意 : ”一切 Write Back 组 存在 没有 电池 保护 的 内 存 的 情况 下 均 
会 导致 Down 机 之 后 的 数据 丢失 ，Network IO 的 缓存 也 不 例 
外 。Oplock 只 能 保证 数据 时 序 一 致 性 ， 不 能 保证 数据 不 丢失 。 


Oplock 在 Windows 7 之 前 的 操作 系统 有 4 种 ，Windows 7 开始 增加 了 4 
种 。 这 里 只 介绍 前 面 4 种 中 的 3 种 : Batch Oplock()、Exclusive/Levell 
Oplock (RW Lock) 、Level2 Oplock (ReadOnly Lock) ， 第 4 种 也 就 是 
Filter Oplock 不 做 介绍 《因为 笔者 也 没 读 懂 它 的 具体 规范 ) 。 


注意 : Oplock 的 申请 是 由 Network Redirector 自 行 问 CIFS Server 
端 进 行 的 ， 一 般 在 用 户 程序 调用 OpenO0 时 ，NIR 会 自动 在 发 回 
CIFS Server 端 的 Open 请 求 包 中 请 求 Batch 十 Exclusive 的 
Oplock，Server 在 应 答 包 中 给 出 审批 结果 ， 客 户 端的 NIR 根 据 
结 末 来 判断 是 否 使 用 缓存 、 读 写 还 是 只 读 绥 人 存 。 

然而 ， 用 户 程 序 也 可 以 主动 发 起 Oplock 申 请 ， 不 过 只 能 够 在 打 
开本 地 文件 时 才 可 以 ， 也 就 是 说 Oplock 在 多 进程 共同 访问 同一 

















个 本 地 文件 时 也 可 用 。 但 是 要 注意 一 点 ， 申 请 本 地 文件 Oplock 
时 ， 用 户 程序 必须 使 用 异步 IO 方式 打开 文件 ， 因 为 锁 的 申请 和 
批准 以 及 断 锁 通 知 过 程 必须 使 用 异步 通知 机 制 。 本 地 Oplock 的 
申请 和 批准 过 程 都 是 在 本 地 内 存 中 进行 的 。 网 络 Oplock 则 需要 
将 信息 通过 网 络 发 送 到 Server 端 申请 。 


客户 端 程序 直接 申请 CIFS Server 上 文件 的 Oplock 是 不 被 允许 的 ， 
NIR 会 自动 为 程序 申请 。 


(1) Exclusive/Levell Oplock 


申请 到 这 种 锁 的 客户 端 可 以 进行 Read Ahead/Hit 以 及 Write Back 模 式 
的 缓存 ， 读 和 写 都 可 以 在 本 地 缓存 内 进行 ， 在 适当 的 触发 条 件 下 ，Dirty 
Page 才 会 被 批量 Flush 到 CIFS Server 端 ， 贡 约 了 不 必要 的 网 络 流量 。 
Exclusive Oplock 又 被 称 为 Level1 Oplock。 





(2) Level2 Oplock 


相对 于 Levell Oplock， 这 种 Lock 在 效果 上 下 降 了 一 级 。 如 果 客 户 端 
申请 到 的 是 这 种 Lock， 则 表示 目前 有 多 个 客户 端 同时 打开 了 目标 文件 ， 
但 是 并 没有 客户 并 尝试 修改 这 个 文件 ， 所 以 所 有 客户 问 都 可 以 保有 读 绥 
存 ， 绥 存 中 的 内 容 与 Server 上 目标 文件 的 内 容 一 致 。 


(3) Batch Oplock 





申请 到 这 种 Lock 的 客户 端 是 最 幸运 的 ， 因 为 不 仪 恋 和 写 等 操作 可 以 
在 客户 端 本 地 缓存 中 执行 ， 就 连 Open0、Close0 都 可 以 在 本 地 执行 。 一 
些 批 处 理 脚本 经 常会 在 执行 脚本 的 每 一 行 时 都 对 目标 进行 打开 操作 ， 执 
行 完 后 就 关闭 ， 然 后 在 执行 下 一 行 时 再 次 打开 关闭 ， 如 果 批 处 理 脚本 有 








太 多 行 ， 每 次 打开 关闭 操作 就 会 耗费 太 多 不 必要 的 网 络 流量 。Netwrok 
Redirect 在 申请 到 Batch Oplock 之 后 ， 用 户 程 序 每 次 针对 目标 文件 的 打开 
和 关闭 操作 不 会 再 被 发 送 到 CIFS _ Server 端 处 理 ， 而 是 由 NIR 拦 截 并 擅自 
做 了 响应 。Batch Oplock 在 级 别 上 与 Levell Oplock 相 同 ， 只 不 过 后 者 不 
能 缓存 Open0 和 Close0)。 





(4) Oplock 申 请 与 批准 过 程 示例 


这 里 只 举 出 Batch Oplock 申 请 和 批准 交互 实例 ， 对 于 Exclusive 
Oplock 的 交互 过 程 相 比 Batch ”Oplock 除 了 在 客户 问 Open()、CloseO 时 必 
须发 送 到 Server 端 之 外 ， 其 他 没有 任何 区 别 。 如 图 19-27 所 示 为 几 轮 
Oplock 申 请 和 批复 的 动作 流程 。 

















图 19-27 ”Oplock 申 请 和 批准 过 程 























Q) ”客户 端 A 同 服务 端 发 起 Open() 请 求 打 开 文 件 “test*"， 并 同时 申请 
Batch Lock。 


@ 由 于 目前 客户 端 A 是 唯一 一 个 请 求 打 开 这 个 文件 的 客户 端 ， 所 以 
服务 端 把 Batch Lock 给 客户 端 A。 


(3) 客户 端 A 发 起 读 请 求 。 


由 服务 端 返 回 读 请 求 的 数据 ， 这 些 数 缓存 在 客户 端 A， 随 后 针对 同 
地 址 的 读 请 求 可 以 不 必 发 回 服务 疾 。 同 样 ， 写 请 求 也 不 必 立 即 友 问 服务 


端 。 


@ 客户 端 A 随 后 对 这 个 文件 进行 的 Open0、Close0、SeekO0 等 操作 
全 部 可 以 在 缓存 中 执行 ， 由 Network IO Redirector 向 程序 返回 成 功 响 
应 ， 不 再 发 向 服务 端 。 


G) 客户 端 B 回 服务 端 发 起 Open0) 请 求 打 开 *test”" 文 件 ， 在 Open0O 请 求 
的 Access Mask 中 并 没有 指定 任何 写 Flag， 只 有 读 Flag， 同 时 也 在 请 求 中 
申请 Batch Lock。 











@ 服务 端 暂 挂 对 B 的 响应 ， 首 先 发 送 一 个 Lock Break 请 求 数据 包 给 
A， 并 在 这 个 数据 包 中 通知 将 锁 降 级 为 Level2 Oplock。 《如果 步骤 6) 中 
的 打开 操作 指定 了 任何 与 写 相 关 的 Flag， 则 本 步 中 只 会 Break Lock 而 不 
会 同时 灌 以 Level2 Lock。 ) 





客户 端 A 接 收 到 Lock Break 通 知 后 ， 如 果 当 前 这 个 文件 处 于 打开 
状态 ， 并 未 Close， 则 客户 端 A 会 将 Write Back 绥 存 里 的 Dirty Page 写 入 
Server， 然 后 加 服务 端 回应 一 个 Lock ”Break 啊 应 包 ， 或 者 不 回复 啊 应 包 
而 直接 同 服务 端 发 起 Close()， 根 据 程 序 设计 决定 。Close() 之 后 束 不 会 保 
有 目标 文件 的 任何 缓存 了 。 如 果 A 接 收 到 Lock Break 通知 时 ， 目 标 文 件 
已 经 处 于 Close 状 态 ， 由 于 Batch Lock 模 式 的 缓存 不 会 将 之 前 的 Close0 发 
送 给 服务 端 ， 所 以 接收 到 Lock Break 通 知 后 需要 由 Network IO Redirector 
同 服 务 端 再 发 起 一 个 Close() 操 作 以 表示 接受 。 


(@) 本 例 选 择 了 步骤 里 的 第 二 种 情况 ，A 发 送 Close0， 服 务 端 返回 
啊 应 。 


服务 端 继续 处 理 步 骤 @ 中 和 暂 挂 的 对 B 的 响应 ， 将 响应 发 送 给 B。 
由 于 A 已 经 在 步骤 8) 中 Close 了 目标 文件 ， 所 以 当前 只 有 B 一 个 人 预 打 开 
这 个 文件 ， 所 以 服务 端 在 啊 应 中 灌 以 Batch Lock 给 B。 





中 客户 端 A 再 次 发 起 OpenO 请 求 打开 目标 文件 ， 并 在 请 求 中 置 了 写 
相关 Flag， 同 时 请 求 Batch Oplock。 


(3 服务 端 暂 挂 A 的 请 求 ， 同 时 发 送 一 个 Lock Break 通 知 给 B， 通 知 
中 并 没有 将 锁 降 级 为 Level2 Oplock， 因 为 当前 A 的 Open0 请 求 中 有 写 入 
期 望 。 


(3 B 接 收 到 断 锁 通 知 后 执行 Dirty Page Flush 操 作 ， 然 后 可 以 返回 一 
个 Lock Ack 给 服务 端 (Lock Ack 基 本 上 是 Lock Break 数 据 包 的 复制 ) ， 
或 者 干脆 发 送 一 个 Close0 给 服务 端 表示 不 再 操作 这 个 文件 。 


(9 服 务 端 继续 处 理 A 的 暂 挂 Open0 请 求 。 如 果 上 一 步 中 客户 端 B 以 
Close0 回 应 ， 则 响应 中 会 灌 以 Batch ”Lock 给 A; 如果 上 一 步 客户 端 B 以 
Lock Ack 回 应 ， 则 表明 B 尚 未 关闭 目标 文件 ， 那 么 针对 A 的 啊 应 就 不 会 
洪 以 任何 Oplock。 


如 图 19-28 所 示 为 男 外 一 个 Oplock 交 互 过 程 。 其 中 在 客户 端 C 发 出 
Open() 之 前 ，A 和 B 都 已 经 拥有 了 Level2 Oplock。 但 是 客户 端 C 的 带 有 写 
Flag 标 记 的 Open0O 操 作 将 一 切 美 梦 打 碎 ， 服 务 端 强 行 收回 了 A 和 了 B 的 
Oplock，C 自 身 也 没有 得 到 任何 Oplock， 最 终 所 有 客户 端的 IO 请 求 都 被 
透 传 到 服务 端 执行 。 

















图 19-28 ”Oplock 申 请 和 批准 过 程 























注意 : ” 人 针对 Level2 ”Oplock 的 断 锁 通知 ， 服 务 端 都 不 会 要 求 
Lock Ack。 而 针对 其 他 类 型 的 Oplock 的 断 锁 通知 ， 服 务 端 都 要 
求 一 个 Lock Ack 或 者 Close()。 因 为 Level2 Oplock 所 绥 存 的 都 是 
源 文件 尚未 改变 的 信息 ， 通 知 发 过 去 之 后 可 以 不 再 理会 。 但 是 
其 他 类 型 的 Oplock 绥 存 中 可 能 有 尚未 Flush 的 Dirty Page， 上 所 
以 ， 在 客户 端 Flush Dirty Page (一 个 或 者 多 个 Write0 请 求 ) 之 
后 ， 服 务 端 一 定 还 需要 一 个 Lock Ack 来 感知 客户 端 已 经 完成 了 
所 有 Dirty Page 的 Flush 工 作 ， 然 后 才 会 继续 处 理 其 他 客户 端的 





OpenO 请 求 。 


如 图 19-29 所 示 为 一 轮 Oplock Break 过 程 的 4 个 数据 包 。1.1.1.3 (A) 
这 人 台 客 户 端 已 经 打开 了 服务 端 1.1.1.1 上 的 1.rar 这 个 文件 并 取得 了 Batch 
Oplock， 随 后 ，1.1.1.2(B)〉 也 发 起 打开 请 求 ， 我 们 的 数据 包 Trace 过 程 
从 这 里 开始 。 























图 19-29 ”Oplock 申 请 和 批准 过 程 实际 数据 包 交 互 

















在 178 号 数据 包 中 我 们 可 以 看 到 这 个 Open0 请 求 《CIFS 协 议 中 
Create() 与 Open() 使 用 同一 类 数据 包 ) 中 明确 请 求 Batch Oplock〈 包 中 没 
有 与 写 相 关 的 Flag， 图 片 未 截 出 ) 。 但 是 由 于 A 已 经 打开 这 个 文件 尚未 
关闭 ， 所 以 服务 端 需要 首先 癌 A 必 送 一 个 Lock Break 请 求 ， 有 反映 在 179 号 
包 中 (注意 被 置 1 的 Flag 含 义 ) 。 











注意 : “请 注意 加 亮 的 字段 ，“Oplock Level Level 2Oplock 
currently held by dient (1) ”， 意 思 也 就 是 原来 是 Batch 
Oplock， 服 务 端 要 求 A 降 级 为 Level2 Oplock。 由 于 Break 的 是 
Batch Oplock， 所 以 服务 端 需要 等 待 A 的 回应 。A 的 回应 反映 在 
180 号 包 中 。 可 见 中 途 并 没有 发 生 A 向 服务 端的 Write0， 证 明 A 
自从 打开 文件 之 后 并 未 对 其 进行 任何 修改 。180 号 包 是 一 个 
Lock Ack 包 (内 容 基 本 都 是 Lock Break 包 的 复制 ) 而 不 是 Close 
包 ， 证 明 A 此 时 还 不 想 Close0， 所 以 服务 端 只 能 对 B 也 灌 以 
Level2 ”Oplock。181 号 包 为 服务 端 对 B 的 啊 应 ， 注 意 加 亮 的 字 
段 :“Level II Oplock Granted (3) ”。 

(1) 或 者 (3) 不 表示 数量 ， 而 是 字段 值 ， 根 据 协 议 规定 ， 
个 值 代表 一 种 Oplock Level。 

Lock Break 通 知 /应 答 信 息 与 Lockfile0 字 节 锁 信息 被 封装 的 数据 














包 使 用 的 是 同一 种 数据 包 即 SMB_COM_LOCKING_ANDX， 

在 图 19-23 中 所 示 的 是 这 个 数据 包 中 最 后 的 部 分 字段 ， 这 个 字 
段 包 含 了 字 节 锁 的 偏 移 量 和 长 度 。 在 图 19-25 中 所 截取 的 则 是 
这 个 数据 包 另 外 的 字段 ， 这 个 字段 给 出 了 当前 Oplock 的 操作 信 


自 


5) 关于 Oplock Break 过 程 的 一 些 细 节 


在 确定 是 否 Break 掉 Level2 lock 之 前 ，Server 需 要 谨慎 判断 ， 尽 可 能 
地 不 Break。 比 如 ，Server 首 先 检 碍 目标 文件 的 Share Mode， 如 果 第 一 个 
客户 端 OpenO 时 不 允许 其 他 客户 端 写 入 而 只 允许 谈 ， 那 么 等 于 给 文件 加 
了 全 局 锁 ， 此 时 如 果 有 其 他 进程 尝试 打开 这 个 文件 而 Open(0 时 在 Access 
Mask 中 指定 了 某 项 写 操作 Flag， 那 么 Server 就 不 会 允许 这 个 Open() 操 作 
(返回 一 个 共享 冲突 错误 ) ， 从 而 也 不 会 去 Break 第 一 个 客户 端的 
Exclusive Lock 或 者 Level2 Oplock〈 虽 然 协 议 是 这 样 设 计 的 ， 但 是 另外 
的 根据 实验 结果 判断 ， 实 际 至 少 在 WinXP 系 统 并 未 这 么 做 ， 而 是 掠 过 检 
查 ShareMode 直 接 Break 其 他 客户 端的 Level1 或 者 Batch 锁 ) 。 





如 图 19-30 所 示 ， 图 中 显示 了 Open0O 数 据 包 中 包含 的 Access ”Mask 的 
一 系列 Flag;， 而 如 果 某 个 客户 端 在 Open0 时 只 附带 了 只 读 Flag， 那 么 
Server 不 但 不 会 Break 其 他 客户 端的 Level2 Oplock， 同 时 也 会 给 这 个 客户 
端 灌 以 Level2 Oplock， 但 是 如 果 已 用 拥有 Level2 Oplock 的 任何 客户 端 发 
起 了 写 请 求 ， 那 么 Server 会 立即 剥 村 所 有 客户 端的 任何 形式 的 Oplock。 








图 19-30 ”Share Mode 对 Lock Break 过 程 的 影响 





另外 ， 在 赋予 某 个 客户 端 Level2 的 时 候 ，Server 端 不 会 检查 当前 其 
他 已 经 Open0 目 标 文 件 之 后 的 客户 端 之 前 在 Open0 时 是 否 指定 了 Write 相 


关 的 Flag。 一 般 情 况 下 Server 端 在 Break Levell Oplock 之 后 都 会 在 Break 
的 同时 赋予 Level2 Oplock， 而 且 对 于 新 执行 Open0 操 作 的 客户 端 也 会 赋 
予 Level2 Oplock《〈 有 其 他 客户 端 已 经 打 开 目 标的 时 候 ， 人 否则 会 直接 赋予 
其 Levell Oplock) ， 但 是 一 旦 服务 问 发 现 随 后 有 任何 客户 端 〈 包 括 当前 
拥有 Level2 锁 的 客户 端 自身 ) 发 起 写 请 求 时 ，Server 会 将 之 前 赋予 的 
Level2 Oplock 也 和 剥夺 掉 。 





如 图 19-31 所 示 ，1.1.1.3 (A) 客户 端 某 个 程序 正在 对 服务 端的 文 
件 “1” 进 行 持续 的 写 入 ， 此 时 我 们 在 客户 端 1.1.1.2 (B) 上 打开 这 个 文件 
进行 读 操作 ， 服 务 端 与 B 之 间 的 数据 包 Trace 从 这 里 开始 。 











图 19-31 OPplock 申 请 和 批准 过 程 实际 数据 包 交 互 (1) 











1 号 数据 包 表 示 B 明 确 要 求 Batch Oplock。2 号 数据 包 表 示 服 务 端 并 没 
有 因为 A 在 对 目标 文件 持续 地 写 入 而 拒绝 给 B 任 何 Oplock， 相 反 ， 服 务 
端 给 了 B 一 个 Level2 Oplock， 很 够 意思 了 。 


但 是 在 上 取 眼 间 ， 由 于 A 持 续 地 回 服 务 端 发 起 目标 文件 的 写 入 请 求 ， 
在 把 Level2 ”Oplock 给 B 之 后 ， 服 务 端 接收 到 的 第 一 个 A 的 写 请 求 ， 将 导 
致 服务 器 收回 刚才 给 B 的 Level2 Oplock。 所 以 我 们 看 见 11 号 包 ， 是 服务 
问 发 给 B 的 Lock Break， 其 中 标明 了 和 剥夺 B 的 一 切 锁 。 


前 文中 我 们 说 过 ， 当 一 切 锁 被 剥夺 之 后 ， 客 户 端 读 写 缓存 被 完全 屏 
和 若 ，IO 行 为 与 DIO 模 式 无 异 。 我 们 看 一 下 图 19-31 最 下 部 ， 两 个 方 框 中 ， 
上 面 方 框 表 示 Lock 尚 未 被 剥夺 之 前 的 系统 IO Size 显 然 为 Page Size， 而 之 
后 ， 却 完全 透 传 上 层 的 IO Size， 这 里 是 512B 的 连续 读 IO。 前 文中 也 说 
过 ， 读 缓存 只 对 小 块 连续 IO 效果 最 大 ， 这 里 由 于 读 缓存 的 失败 ， 造 成 了 
网 络 流量 升 高 ， 而 客户 端的 实际 吞吐 量 却 并 未 增加 ， 网 络 流量 所 升 高 的 





部 分 都 由 抵 层 网 络 传输 协议 的 消耗 页 献 。 


我 们 再 来 看 一 下 当 客 户 端 B 挫 和 进来 之 后 ， 客 户 端 A 上 的 行为 变 
化 。 如 图 19-32 所 示 ， 原 本 客户 端 A 上 的 程序 是 在 以 JO Size 二 2048B 针 对 
目标 文件 做 连续 并 且 持 续 写 入 动作 的 。 当 B 发 起 Open0 之 后 ， 我 们 看 
11062 号 包 ， 服 务 喘 当然 要 和 剥夺 A 上 原本 的 Batch Oplock， 并 且 同 时 灌 以 
Level2 Oplock。11068 号 包 表 示 A 接 受 了 断 锁 请 求 ， 现 在 A 只 有 读 绥 存 ， 
写 缓存 被 失效 。 


图 19-32 ”Oplock 申 请 和 批准 过 程 实际 数据 包 交 互 (2) 























但 是 好 景 不 长 ， 肯 眼 间 ， 在 11073 号 包 中 ， 服 务 端 无 情 地 剥夺 了 A 
的 Level2 Oplock， 为 何 呢 ? 正如 前 文 所 述 ， 拥 有 Level2 锁 的 客户 端 对 写 
是 很 敏感 的 ， 一 旦 有 任何 一 个 客户 病 妾 试 对 目标 进行 写 入 操作 ， 那 么 整 
个 范围 内 所 有 客户 端 上 的 Oplock 将 发 后 埋 场 ， 全 部 被 剥 千 。11073 号 包 
与 图 19-31 中 的 11 写 包 是 由 服务 端 在 南 塌 过 程 中 同时 间 所 有 客户 端 发 出 
的 。 


如 图 19-33 所 示 ，11068 号 包 之 后 ，Batch ”Oplock 被 剥夺 ， 只 剩 读 组 
存 ，A 上 程序 的 写 IO 请 求 被 完全 透 传 到 服务 端 ， 而 之 前 却 不 是 。 很 显 
然 ， 之 前 有 严重 的 写 惩 罚 存 在 〈 见 上 部 方 框 内 ) ， 而 之 后 ， 写 惩罚 消失 
汉人 


图 19-33 ”OPplock 申 请 和 批准 过 程 实际 数据 包 交 互 (3) 




















6) NIR 的 字 节 锁 绥 释 行 为 以 及 对 Oplock Break 的 影响 





在 下 面 的 狗 狂 实验 中 ， 我 们 将 调查 NIR 的 另 一 个 怪诞 行为 ， 即 笔者 
乱 起 的 一 个 名 字 “ 字 节 锁 缓 释 ">。NIR 的 这 种 行为 ， 其 流程 如 下 (有 客户 





端 A 和 B 以 及 服务 端 ) 。 
A 首 先 打开 目标 文件 并 取得 Batch Olock。 


随后 A 对 目标 文件 的 茶 些 部 分 使 用 Lockfile0 加 入 字 节 锁 ， 按 理 说 
NIR 应 该 将 这 些 加 锁 请 求 发 送 给 服务 端的 ， 但 是 由 于 此 时 是 A 独占 这 个 
文件 ， 所 以 NIR 认 为 没有 必要 将 这 些 锁 请 求 发 到 服务 端 ， 而 是 擅自 暂 存 
了 这 些 锁 请 求 。 如 果 随 后 A 解 锁 了 其 中 某 些 或 者 全 部 的 锁 ， 那 么 NIR 也 
会 将 这 些 解 锁 操 作 与 当前 暂 存 的 加 锁 操作 做 抵消 。 


随后 ，B 也 申请 打开 这 个 文件 ， 服 务 端 首先 问 A 发 送 锁 降级 通知 ， 
降级 为 Level2 只 读 锁 ， 那 么 此 时 因为 LockfileO 操 作 被 内 核 视 为 一 种 对 文 
件 的 独占 操作 ， 现 在 有 其 他 客户 端 要 来 读 这 个 文件 ， 那 么 A 上 的 NIR 必 
须 将 这 些 暂 存 的 锁 发 送 到 服务 端 执 行 。 服 务 端 接受 了 这 些 锁 请 求 之 后 ， 
A 才 会 发 送 Oplock Break Ack， 之 后 服务 端 才 可 以 啊 应 B 的 打开 请 求 。 这 
就 是 字 市 锁 绥 释 行 为 。 


这 个 实验 使 用 分 别处 于 两 台 客户 端 上 的 MS Office Word 程 序 先后 打 
开 同 一 个 位 于 服务 端的 文件 ， 分 析 整 个 过 程 中 的 关键 CIFS 数 据 包 以 调查 
NIR 以 及 Oplock 行 为 。 


在 客户 端 1.1.1.3(A) 首先 打开 目标 文件 ， 并 使 用 Filemon 过 小 驱动 
工具 监测 底层 行为 ， 发 现 Word 程 序 每 次 都 会 对 文件 的 固定 处 进行 一 系 
列 加 锁 和 解锁 过 程 ， 如 图 19-34 所 示 〈 图 中 去 除了 一 些 非 关 键 记录 ) ， 
可 以 算出 经 过 加 解锁 过 程 之 后 ， 程 序 最 终 保留 的 锁 只 有 3 个 ， 即 偏 移 量 
2147483539、2147483559 和 2147483599 三 处 的 长 度 为 1B 的 锁 。 但 是 在 本 
时 间 段 的 CIFS 数 据 包 中 却 并 没有 出 现任 何 发 向 服务 端的 加 解锁 请 求 ， 证 
明 NIR 驱 动 擅自 暂 存 了 这 些 请 求 。 我 们 在 接 下 来 的 分 析 中 可 以 发 现 NIR 





对 最 终 的 三 个 有 效 锁 的 缓 释 行 为 。 


随后 ， 客 户 端 1.1.1.2(B)〉 也 申请 打开 这 个 文件 并 申请 Batch 
Oplock， 同 时 B 的 Word 程 序 在 打开 时 指定 了 Access Mask 里 面 的 与 写 相 关 
的 Flag， 以 及 在 Share Mode 里 面 也 指定 了 排他 性 访问 ， 只 允许 其 他 进程 
读 取 。 如 图 19-35 所 示 ， 在 B 的 这 个 OpenO 请 求 中 ， 充 满 了 B 上 的 Word 程 
序 想 要 以 独占 形式 打开 这 个 文件 的 欲望 。 因 为 B 此 时 并 不 知道 A 已 经 打 
开 了 这 个 文件 ， 所 以 B 的 目的 注定 不 能 得 途 ， 因 为 此 时 A 已 经 以 排他 性 
模式 打开 了 这 个 文件 ， 所 以 服务 端 一 定 会 返回 共享 模式 冲突 的 通知 。 























图 19-34 ”程序 加 字 节 锁 的 过 程 图 19-35”B 预 使 用 独占 方式 访问 目标 文件 





如 图 19-36 所 示 ，216 号 包 。 很 遗憾 ， 服 务 端 并 没有 按照 Oplock 的 本 
来 设计 思想 而 首先 去 判断 是 否 B 的 这 个 打开 请 求 与 其 他 已 经 打开 这 个 文 
件 的 客户 端 存 在 共享 冲突 ， 而 略 过 了 这 一 步 直 接 打算 通知 A 汤 开 它 的 
Batch Oplock， 降 级 为 Level2 Oplock。 











图 19-36 A 将 隐瞒 的 字 贡 锁 发 癌 服 务 端 


而 217 号 包 为 A 对 服务 端的 回应 ， 我 们 看 到 这 个 Lock 数 据 包 中 表示 
的 东西 并 不 是 一 个 Lock Break Ack， 其 中 所 包含 的 是 A 同 服务 端 申 请 的 
三 个 字 节 锁 ， 也 束 是 说 服务 问 癌 A 通 知 断 开 Btach 锁 ，A 却 先 不 应 答 反 而 
同 服 务 端 申请 字 节 锁 。 这 里 与 上 文 遗留 的 那 三 个 锁 对 应 ，A 上 的 程序 早 
在 打开 文件 之 初 束 做 了 一 系列 加 解锁 过 程 而 最 终 保留 了 这 三 个 锁 ， 由 于 
NIR 的 擅自 暂 存 而 一 直 没 被 发 送 到 服务 端 。 











现在 ，A 知 道 服 务 端 要 剥夺 它 的 Batch 锁 了 ， 所 以 NIR 不 能 再 隐瞒 
了 ， 只 能 乖 冬 地 将 暂 存 的 三 个 锁 发 癌 服 务 端 执行 ， 对 应 217 号 包 。218 号 


包 为 服务 端 对 字 节 锁 请 求 的 回应 ， 我 们 不 去 看 它 。 我 们 来 看 219 号 包 ， 
这 个 包 就 是 一 个 Lock Break Ack 包 了 ， 其 接受 了 Batch 锁 降级 为 Level2 锁 
的 通知 。 


在 服务 端 剥 夺 A 的 锁 之 后 ， 可 以 对 B 的 打开 请 求 做 应 答 了 。 如 图 19- 
37 所 示 ， 果 然 以 STATUS_SHARING_VIOLATION 告 终 。 但 是 我 们 的 B 
依然 穷 妃 不 舍 ， 在 230 号 包 中 再 次 发 送 了 Open0 请 求 ， 这 次 ，B 吃 一 秘 长 
一 智 ， 不 在 Access Mask 中 设置 任何 写 相 关 的 Flag， 但 是 Share Mode 中 依 
然 设 置 了 排他 性 的 只 读 模式 ， 即 不 允许 其 他 进程 写 ，B 依 然 抱 有 幻想 它 
可 以 独占 打开 这 个 文件 ， 所 以 它 的 约 想 依然 还 要 破灭 ，230 号 包 显 示 服 
务 端 再 次 拒绝 。 











图 19-37 B 先 后 三 次 尝试 打开 目标 文件 


但 是 B 上 的 程序 是 很 有 煞 力 的 ， 它 感知 到 只 在 Access Mask 里 妥协 是 
不 行 的 ， 只 有 全 部 妥协 才 可 能 有 机 会 ， 所 以 B 叉 一 次 发 起 Open()。 这 次 
它 在 Share Mode 里 允许 其 他 进程 读 和 写 ， 见 235 写 包 相 比 230 号 包 的 变化 
部 分 。236 号 包 中 服务 问 返 回 了 成 功 啊 应 ， 这 一 次 ，B 终 于 如 愿 以 偿 获得 
了 服务 端 给 的 File Handle。 








但 是 遗憾 的 是 ， 服 务 端 并 没有 给 B 任 何 Oplock， 见 236 号 包 。 这 似乎 
有 点 不 可 思议 ， 因 为 前 文中 曾经 提 到 过 ， 服 务 端 给 出 Level2 锁 时 并 不 判 
晰 之 前 其 他 客户 端的 打开 请 求 中 是 人 否 带 有 写 相 关 的 Flag， 但 是 这 次 为 何 
服务 端 没 有 给 B 呢 ? 原因 就 在 于 A 上 被 释放 的 字 节 锁 。 任 何 字 节 锁 均 会 
导致 除 加 锁 客 户 端 之 外 其 他 所 有 客户 端的 Oplock 锁 夫 声 ， 有 锁 的 交 出 
来 ， 没 锁 的 不 再 给 。 接 下 来 我 们 就 会 看 到 ， 客 户 端 A 的 Level2 锁 随后 也 
因为 此 被 剥 村 了 了。 











打开 了 文件 之 后 ，B 上 的 Word 程 序 也 需要 对 文件 进行 字 节 区 段 加 解 
锁 过 程 ( 至 于 为 何 加 锁 锁 哪些 区 域 我 们 在 此 不 管 它 ， 程 序 设计 决定 ) ， 
如 图 19-38 所 示 。 





图 19-38 B 对 文件 加 字 节 锁 引 起 A 上 的 Level2 锁 夫 塌 


图 19-38 中 上 半 部 分 是 在 B 上 检测 的 Word 程 序 实 际 所 做 的 操作 ， 下 
半 部 分 为 这 些 操作 被 发 送 到 服务 端 时 的 监测 数据 ， 可 以 看 到 二 者 一 一 对 
应 ， 除 了 一 个 包 ，247 号 包 。 服 务 端 发 给 了 客户 端 A 一 个 Lock 相 关 的 
包 ， 可 以 看 到 图 中 最 底部 对 应 这 个 包 的 内 容 ， 是 一 个 Level2 锁 断 开 通 
知 。 所 以 ，B 对 文件 的 字 节 锁 操 作 ， 会 导致 ALevel2 锁 的 替 声 ， 至 此 所 
有 客户 端 都 没有 Oplock 锁 了 。 


对 六 作 进行 了 守节 贷 保 作 才 0 
后 ，B 上 的 Word 程 序 会 提示 一 个 窗口 
让 用 户 选择 ， 如 图 19-39 所 示 。 





这 里 可 能 有 些 需 要 解释 的 地 方 ， 按 理 说 程序 应 该 在 收 到 
STATUS_SHARING_VIOLATION 之 后 立即 提示 这 个 窗口 ， 但 是 在 此 笔 
者 也 不 知 为 何 程序 会 在 底层 尝试 最 终 打 开 文件 并 且 做 了 字 节 锁 操 作 之 后 
才 提示 。 在 此 猜测 可 能 因为 程序 需要 保证 用 户 选 择 了 只 读 打 开 后 ， 程 序 
必须 可 以 打开 ， 所 以 程序 会 预先 打开 测试 ， 如 果 能 打开 才 提 示 。 这 当然 
只 是 猜测 。 














注意 : 如果 一 个 客户 端 打 开 了 文件 ， 获 取 了 Oplock， 如 果 在 
CIFS Server 上 某 个 程序 通过 本 地 文件 系统 也 打开 这 个 文件 ， 那 
么 Server 会 按照 同样 的 策略 来 Break ”Lock。 男 外 ， 如 果 同 一 台 
客户 端 上 的 同一 个 程序 先后 两 次 打开 一 个 文件 ， 那 么 第 一 次 获 





得 的 Batch Oplock 将 被 降级 为 Level2 Oplock， 第 二 次 打开 时 获 
得 Level2 Oplock。 也 就 是 说 服务 端 并 不 管 打 开 有 目标 文件 的 进程 
是 不 是 同一 个 ， 或 者 进程 是 服务 端 本 地 进程 还 是 客户 端 进 程 ， 
统一 对 待 。 

己 经 被 剥夺 的 锁 不 可 能 上 自动 再 获得 ， 比 如 当 所 有 客户 端 都 关闭 
目标 文件 ， 只 剩 下 一 个 客户 端 时 ， 服 务 端 不 会 再 将 锁 重 新 洪 给 
这 个 客户 端 ， 协 议 中 没有 这 样 的 设计 。 要 想 申 请 锁 ， 必 须 重新 
Open(0) 一 过 才 有 可 能 获得 。 

客户 端 可 以 在 使 用 Oplock 的 基础 上 使 用 LockfileO0 字 节 锁 。 前 者 
是 靠 运气 而 且 是 全 局 的 ， 后 者 是 注定 的 、 局 部 的 。 








总 的 来 讲 ， 对 于 CIFS 方 式 的 Network IO 模式 下 ， 系 统 内 核 缓存 的 效 
率 很 低 ， 多 数 情况 下 都 是 因为 惩罚 值 太 高 而 帮 了 倒 忙 ， 所 以 我 们 还 是 不 
用 为 好 。Oplock 只 在 特定 情况 下 能 够 发 挥 一 点 作用 ， 程 序 设计 人 员 需 要 
注意 ， 要 时 刻 知道 底层 都 在 做 什么 。 本 书 的 目的 就 是 让 读者 对 整个 存储 
系统 架构 有 一 个 深刻 理解 ， 以 方便 今后 的 管理 维护 和 开发 工作 。 


7) NFS 下 的 缓存 和 IO 机 制 


同 为 NAS 网 络 文件 访问 协议 ，NFS 不 管 在 数据 包 结 构 上 还 是 在 交互 
逻辑 上 相 比 CIFS 要 简化 许多 ， 但 是 简化 的 结果 就 是 并 不 如 CIFS 强 大 ， 
CIFS 之 所 以 复杂 是 因为 CIFS 协 议 中 几乎 可 以 透 传 本 地 文件 系统 的 所 有 
参数 和 属性 ， 而 NFS 携 带 的 信息 很 有 限 。 简 化 同样 也 带 来 了 高 效 ， 执 行 
类 似 的 操作 ，NFS 交 互 的 数据 包 在 单个 包 的 大 小 上 和 整体 发 包 数 量 都 相 
对 CIFS 有 很 大 的 降低 。 





与 CIFS 不 同 的 是 ，NFS 提 供 诸 多 更 改 的 参数 来 控制 操作 系统 内 核 底 
层 IO 行 为 。Windows 系 统 可 以 安装 SFU 软 件 来 实现 NFS 的 客户 端 或 者 服 


务 端 功能 ， 同 样 也 提供 了 少量 可 更 改 的 参数 。 


在 了 解 NFS 底 层 行 为 之 前 ， 我 们 先 看 一 看 NFS 方 面 的 4 个 比较 典型 的 
参数 设置 。 这 4 个 参数 中 ， 前 三 个 都 是 在 mount 的 时 候 可 以 指定 的 ， 包 括 
sync、Irsize、wsize， 第 四 个 参数 O_DIRECT 是 需要 在 程序 对 文件 打开 调 
用 时 指定 的 。 下 面 我 们 分 别 来 调查 这 4 个 参数 对 系统 底层 IO 行 为 的 影 
响 ， 但 是 首先 要 来 看 一 下 默认 mount 参 数 下 NFS 底 层 行为 。 测 试 基于 
RHEL5 系 统 ， 内 核 版 本 2.6.18。 

















(1) 默认 mount 参 数 下 的 IO 行为 


NFS 默 认 的 mount 参 数 为 async、rsize 二 wsize 二 65536。async 参 数 表 
示 系 统 内 核 不 会 透 传 程序 的 IO 请 求 给 NFS ”Server， 对 于 写 IO 会 延 绥 执 
行 ， 积 累 一 定 的 时 间 以 便 合 并 上 层 的 IO 请 求 以 提高 效率 ， 不 管 是 读 还 是 
写 请 求 ，async 都 会 具有 一 定 效 果 ， 尤 其 是 连续 地 址 的 IO。 





如 图 19-40 所 示 ， 上 半 部 分 为 使 用 dd if=/mnt/3 of 王 /devnull bs 三 
1500 ”count 二 100 来 读 取 NFS 文 件 ， 使 用 底层 抓 包工 具 抓 取 的 奔 层 IO 结 
果 ， 下 半 部 分 为 使 用 dd if==/mnt/3 of 二 /dev/null bs 二 150 count 王 100 时 的 
结果 。Linux 下 的 dd 是 一 个 使 用 同步 调用 十 Buffered ” IO 模式 的 程序 ， 但 
是 在 图 中 上 半 部 分 却 显示 出 明显 的 底层 异步 IO 行为 ， 即 IO 批量 发 送 ， 数 
据 批 量 返 回 。 这 种 IO 行为 是 由 于 文件 系统 的 预 读 造 成 的 〈 这 里 并 不 是 读 
IO 被 合并 的 结果 ， 见 下 文 ) 。 可 以 看 到 ， 由 于 dd 进行 的 是 连续 读 操作 ， 
所 以 导致 了 文件 系统 最 大 力度 的 预 读 ， 每 次 发 向 存储 设备 的 IO 字 节 数 为 
65536， 也 是 Linux 下 rsize 的 最 大 值 。 可 以 算出 系统 共 读 入 了 409600 十 
65536 王 475136B 的 内 容 ， 但 是 dd 所 读 取 的 一 共 是 1500x100 王 150000B， 
所 以 ， 系 统 预 读 造 成 了 475136 一 150000 二 325136B 的 浪费 。 再 来 看 下 半 
部 分 ， 系 统 共 读 入 了 81920B，dd 请 求 了 150x100= 二 15000B， 浪 费 掉 








81920 一 15000 王 66920B 。 


图 19-40 ”dd 测试 结果 





还 记得 CIFS 么 ? 相 比 NFS 来 讲 ， 在 连续 读 的 情况 下 ，CIFS 低 效 得 
多 ，CIFS 根 本 没有 做 主动 预 读 的 意思 ， 只 有 被 动 预 读 。 





我 们 再 来 看 图 19-41， 使 用 测试 软件 对 NFS 文 件 做 随机 读 操 作 ， 每 次 
请 求 200B 的 数据 ， 可 以 看 到 ， 读 惩 如 产生 了 。 随 机 读 情况 下 ， 内 核 底 层 
该 入 了 1 个 Page 的 内 容 。 这 里 需要 提 一 下 ， 对 于 本 地 文件 系统 ，Linux 同 
样 使 用 Page _ Cache 映射 方式 。 在 Windows 下 ，CIFS 在 随机 读 情况 下 也 产 
生 类 似 的 读 惩 可 ， 但 是 二 者 有 本 质 不 同 : Windows 下 的 CIFS 的 读 惩 昼 是 
因为 Page Fault 过 程 ， 底 层 必 须 以 Page 为 单位 ， 而 Linux 下 NEFS 的 读 惩 避 
只 是 因为 文件 系统 预 读 的 单位 为 Page。 二 者 虽然 表象 相同 ， 但 是 其 出 发 
点 却 不 同 。 








图 19-41 产生 惩罚 现象 














我 们 再 来 看 看 写 行 为 。 写 有 两 种 方式 : 追加 写 和 上 履 盖 写 。 如 网 19- 
42 所 示 ， 使 用 dd f= 二 /dev/zero of 二 /mnt/3 bs 王 1 count 三 100 来 对 /mnt3 这 
个 文件 进行 追加 写 操作 ， 可 以 看 到 17 号 包 对 应 的 SETATTR 请 求 ，dd 程 
序 将 已 经 存在 的 文件 的 Size 设置 为 0， 然 后 从 头 开 始 退 加 写 入 这 个 文件 ， 
每 次 写 1B， 写 100 次 。 但 是 内 核 在 研 层 可 并 没有 问 NFS 服 务 端 友 起 100 次 
写 ， 实 际 上 只 发 送 了 一 个 写 请 求 ， 对 应 19 号 包 。offset 二 0，length 二 
100， 也 就 是 从 头 开 始 写 100B， 证 明 内 核 将 dd 发 送 的 写 请 求 数据 全 部 组 
存 并 且 合 并 了 起 来 发 送 给 NFS 服 务 端 。 





图 19-42” 写 合并 的 发 生 














图 中 最 底部 的 部 分 是 在 使 用 dd if==/dev/zero of 二 /mnt/3 bs 二 1500 
count 王 1000 时 抓 取 的 底层 IO 结果 ， 可 以 看 到 dd 为 同步 调用 ， 到 了 底 
层 ， 内 核 将 dd 的 写 IO 数 据 合并 ， 并 且 以 异步 的 方式 高 效 发 向 NFS 服 务 


端 。 


注意 : 仔细 的 人 可 以 注意 到 ，590 号 包 的 Length 并 不 是 65536， 
这 是 因为 合并 之 后 的 数据 本 里 就 并 不 对 齐 ， 所 以 最 后 系统 将 余 
量 完全 透 传 到 NFS 服 务 器 ， 而 并 不 会 发 生 读 入 一 个 对 齐 的 单 
位 ， 修 改 之 ， 然 后 再 写 入 惩罚 现象 。 














再 来 看 一 下 敌 畜 写 。 徐 疙 0 续 窗 冀 写 oe 
这 里 要 理解 ， 追 加 写 一 定 是 连续 写 ， be 定 是 入 盖 














如 图 19-43 所 示 ， 使 用 测试 工具 对 一 个 NFS 文 件 进 行 以 1B 为 单位 的 
履 盖 写 入 操作 ， 上 半 部 分 为 连续 写 情 况 下 的 底层 IO 监测 结果 ， 而 下 半 部 
分 则 为 随机 写 的 监测 结果 。 











图 19-43” 履 盖 写 测试 结果 





可 以 看 到 ， 连 续 窗 荔 写 情况 下 ， 内 核 同 样 是 对 写 操 作 进 行 了 合并 操 
作 。 而 随机 写 情 况 下 ， 内 核 根本 无 法 合并 写 IO， 所 以 内 核 的 做 法 是 完 
透 传 用 户 程序 发 起 的 IO0， 而 且 ， 没 有 任何 写 惩 昼 。 


还 记得 Windows 下 的 CIFS 么 ? 在 Windows 下 使 用 CIFS， 患 有 严重 的 
罚 综 合 症 ， 不 但 读 有 ， 写 更 严重 。Linux 下 使 用 NFS， 对 于 写 操作 ， 
不 管 offset 是 否 为 Page 或 者 512B 对 齐 ， 都 没有 任何 写 和 您 神 的 存在 ， 而 对 


仿 
你 


于 该 操作 ， 也 只 有 在 随机 该 的 情况 下 出 现 了 读 每 在 ， 其 他 任何 情况 下 都 


没有 惩罚 。 
(2) 指定 sync 参 数 后 的 IO 行为 


默认 mount 使 用 的 是 async 模 式 ， 内 核 可 以 对 IO 进行 合并 以 提高 效 

率 。 这 里 有 一 点 需要 理解 ， 即 内 核 处 理 的 async 或 者 sync 与 上 层 程 序 调用 
时 的 sync 与 async 紧 密 相 关 。 如 果 上 层 使 用 sync 调 用 ， 则 其 产生 的 读 IO 一 
定 在 内 核 处 也 是 同步 执行 的 ， 因 为 只 有 在 前 一 个 读 请 求 数据 成 功 地 被 返 
回 给 程序 ， 程 序 才 会 发 起 下 一 个 读 请 求 ， 对 于 异步 读 调 用 ， 内 核 可 以 在 
短 时 间 内 接收 到 多 个 读 请 求 ， 此 时 内 核 可 以 将 这 些 读 请 求 合 并 处 理 ， 这 
就 是 异步 过 程 了 。 对 于 同步 写 调用 ， 程 序 只 有 在 前 一 个 写 操作 完成 之 后 
才 会 发 起 下 一 个 写 ， 而 如 果 程 序 使 用 了 Buffered IO 模式 ， 那 么 一 个 写 操 
作 会 迅速 瞬时 完成 。 因 为 内 核 只 要 将 待 写 数据 复制 到 系统 内 核 缓存 即 可 
通知 程序 完成 ， 继 而 接着 发 起 下 一 个 写 操作 ， 那 么 内 核 在 短 时 间 内 即 可 
只 累 硝 干 待 写 数据 ， 这 些 数据 并 不 是 没 接收 到 一 次 就 必须 回 底层 存储 介 
质 写 一 次 的 ， 此 时 内 核 可 以 合并 这 些 写 ， 这 也 是 一 个 异步 过 程 。 而 对 于 
上 层 的 异步 写 调用 ， 内 核 处 理 过 程 就 更 是 异步 了 。 所 以 ， 内 核 的 异步 过 
程 ， 只 对 Buffered IO 模 式 下 的 同步 写 、 异 步 写 、 异 步 谈 有 意义 。 























我 们 这 就 来 将 内 核 的 这 种 行为 改 一 下 ， 不 让 它 缓存 IO， 要 求 它 江 即 
执行 每 一 个 IO。 在 mount 的 时 候 我 们 使 用 mount -o sync 来 挂 载 一 个 NFS 
Export。 然 后 分 别 使 用 dd 程序 对 目标 文件 进行 1500B 为 单位 的 读 操作 和 
以 1B 为 单位 的 写 操作 。 如 图 19-44 所 示 ， 上 半 部 分 为 读 操作 的 监测 结 
果 ， 下 半 部 分 为 写 操作 的 监测 结 





图 19-44 ”sync 参 数 的 影响 


我 们 可 以 看 到 ， 对 于 读 操作 ， 底 层 是 不 是 似乎 将 程序 发 起 的 读 IO 合 
并 了 呢 ? 根 本 不 是 ， 上 文 曾经 分 析 过 ， 除 非 程 序 自 己 使 用 异步 读 IO 调 
， 和 否则 内 核 底层 不 可 能 在 单位 时 间 内 接收 到 多 个 由 同一 个 进程 发 起 的 
该 请 求 ， 所 以 也 束 无 从 合并 。 出 现 这 种 现象 的 根本 原因 是 文件 系统 预 读 
行为 导致 的 。sync 参 数 表 示 IO 需 要 被 立即 执行 而 不 得 延迟 ， 但 是 对 于 读 
立即 执行 和 写 立 即 执行 ， 内 核 却 有 不 同 的 处 理 方 式 。 读 立即 执行 ， 不 一 
定 表示 不 可 以 进行 Prefetch 和 Cache ”Hit 操作 ， 但 是 对 于 写 立 即 执行 ， 却 
绝对 不 可 以 将 待 写 的 数据 缓存 起 来 延 人 运 处 理 。 正 因 如 此 ， 图 中 下 半 部 分 
说 明 内 核对 写 IO 不 缓存 、 不 延迟 ， 再 接收 到 之 后 ， 立 即 透 传 给 了 NFS 服 
务 端 处 理 。 














8) 指定 rsize/wsize 人 参数 后 的 IO 行为 


NFS 客 户 端 在 mount 服 务 端 的 exports 时 ， 服 务 端 会 癌 客 户 端 通告 服 
务 端 自身 所 能 接受 的 最 大 IO Length。 客 户 端 根据 这 个 Length 来 决定 ， 如 
果 用 户 程 序 发 起 的 IO Length 大 于 这 个 值 ， 那 么 NFS 客 户 端 有 员 任 将 程序 
的 IO 分 割 为 小 于 等 于 这 个 值 ， 如 果 小 于 这 个 值 ， 可 以 直接 透 传 ， 也 可 以 
合并 成 这 个 值 来 发 送 。 

使 用 mount -o rsize 二 1024， 我 们 将 rsize 从 默认 的 64KB 改 为 IKB， 看 
看 底层 会 发 生 什么 事情 。 首 先 使 用 dd 产生 连续 读 IO 来 触发 内 核 的 预 读 操 
作 ， 如 图 19-45 所 示 ， 内 核 预 读 依 然 发 生 ， 但 是 向 底层 存储 系统 发 起 的 
IO Length 降 为 IKB， 效 率 大 大 降低 。 


图 19-45 rsize 参 数 的 影响 


如 图 19-46 所 示 ， 使 用 测试 程序 产生 小 块 随机 读 操 作 ， 此 时 内 核 会 
产生 读 惩 吉 ， 针 对 每 个 读 操作 都 会 读 入 一 个 Page。 但 是 由 于 rsize 的 改 


变 ， 本 来 一 个 IO 就 可 以 读 入 的 Page， 现 在 必须 被 分 割 为 4 个 IO 才 可 以 读 
入 。 注 意 方 框 中 的 offset。 


图 19-46 ” 读 惩 罚 产 生 





使 用 mount -o wsize 王 1024 将 wsize 改 为 1IKB， 使 用 dd 程序 进行 连续 


写 入 操作 ， 内 核 昌 然 合 并 了 这 些 写 IO， 但 是 无 奈 ， 合 并 的 IO 最 终 还 会 被 
分 割 成 1KB 的 IO 发 送 到 NES 服务 端 ， 如 图 19-47 所 示 。 





图 19-47 ”wsize 参 数 的 影响 





可 以 看 到 ， 改 变 rsize/wsize， 对 NFS 的 IO 逻辑 没有 任何 影响 ， 受 到 
影响 的 只 是 底层 传输 的 数据 包 数 量 和 大 小 。 任 何 情况 下 均 不 要 降低 rsize 
或 者 wsize， 百 害 而 无 一 利 。 这 个 参数 的 调节 只 是 为 了 使 用 NFS 服 务 问 的 
要 求 而 已 。 





注意 : 在 RHEL5 以 及 其 他 一 些 Linux 系 统 上 ， 如 果 使 用 mount 一 
orsize 二 32KB 这 种 命令 格式 来 更 改 rsize 或 者 wsize 的 话 ， 那 么 系 
统 虽 然 在 执行 命令 之 后 没有 任何 错误 信息 报 出 ， 但 是 系统 内 核 
在 底层 却 并 没有 按照 给 出 的 这 个 值 来 分 割 IO 请 求 ， 而 是 统统 使 
用 了 4KB 为 单位 ， 如 图 19-48 所 示 。 

图 19-48 ”底层 使 用 4KB 为 分 割 单位 


























而 如 果 使 用 mount -o rsize 二 32768 这 种 命令 格式 ， 此 时 就 没有 
任何 问题 了 ， 如 图 19-49 所 示 。 虽 然 32KB 二 32768B， 但 是 内 核 
似乎 并 不 认同 前 者 ， 使 用 时 一 定 要 倍加 注意 。 分 割 单位 在 不 知 
情 的 情况 下 变 小 ， 会 增加 存储 系统 负担 。 

图 19-49 ”底层 使 用 命令 给 出 的 值 为 分 割 单位 


























9) 程序 使 用 O_DIRECT 参 数 后 的 IO 行为 





Linux 下 的 NFS 比 Windows 下 的 CIFS 优 异 ， 表 现在 ， 前 者 有 明显 预 读 
力度 ， 只 在 特定 条 件 下 有 读 惩罚 ， 写 惩罚 一 点 没有 。 正 因 NFS 的 缓存 如 
此 高 效 ， 所 以 在 Linux 2.6 内 核 中 ， 在 mount 时 并 没有 提供 Direct IO 的 选 
项 (内 核 编译 时 被 禁止 ，， 但 是 单个 程序 在 Open() 的 时 候 依 然 可 以 指定 
O_DIRECT 参 数 来 对 单个 文件 使 用 DIO 模 式 。 与 Windows 下 CIFS 实 现 方 
式 相 同 ， 如 果 选 择 使 用 了 DIO 模 式 ， 那 么 NFS 层 就 会 完全 透 传 程序 层 的 
IO 请 求 。 如 图 19-50 所 示 ， 以 DIO 方 式 恋 取 文件 ， 每 次 1B， 底 层 完全 透 
传 了 上 层 的 IO 请 求 。 





图 19-50 ”DIO 模 式 测试 结果 
10) 多 进程 访问 下 的 缓存 一 致 性 解决 办 法 


在 绥 存 一 致 性 的 保证 方面 ，NFS 相 比 CIFS 来 讲 要 差 一 些 。CIFS 使 用 
Oplock 机 制 来 充分 保证 文件 的 时 序 一 致 性 ， 而 对 于 NFS， 除 了 使 用 字 节 
锁 或 者 干脆 使 用 DIO 模 式 之 外 ， 没 有 其 他 方法 能 够 在 使 用 缓存 的 情况 下 
严格 保证 时 序 一 致 性 ，NEFS 只 提供 “尽力 而 为 ”的 一 致 性 保证 ， 而 且 这 种 
保证 全 部 由 客户 端 自行 实现 ，NFS 服 务 端 在 这 个 过 程 中 不 作为 。 下 面 我 
们 就 来 看 一 下 NFS 提 供 的 尽力 而 为 的 一 致 性 保证 机 制 。 








比如 ， 有 两 个 客户 站 共同 访问 同一 个 NFS 服 务 端 上 的 文件 ， 而 且 这 
两 个 客户 端 都 使 用 本 地 NFS 绥 存 ， 那 么 客户 端 A 首 先 打开 了 文件 并 且 做 
了 预 恋 ， 而 且 A 本 地 缓存 内 还 有 被 缓存 的 写 数据 。 此 时 客户 病 B 也 打开 
了 这 个 文件 ， 并 且 做 了 预 读 ， 如 果 被 读 入 的 数据 部 分 恰好 是 A 被 缓存 的 
尚未 写 入 的 部 分 ， 那 么 此 时 就 发 生 了 时 序 不 一 致 。 而 这 种 情况 在 CIFS 下 
是 不 会 及 生 的 ， 因 为 B 打 开 时 ， 服 务 站 会 强制 让 A 来 将 自己 的 写 缓存 


Flush， 然 后 才 允 许 B 打 开 ， 此 时 B 读 入 的 就 是 最 新 的 数据 。 


再 回 到 NFS 来 ，B 上 某 进程 打开 了 这 个 文件 之 后 ， 内 核 会 将 文件 的 
属性 缓存 在 本 地 ， 包 括 访问 时 间 、 创 建 时 间 、 修 改 时间 、 文 件 长 度 等 信 
轧 ， 任 何 需 要 读 取 文件 属性 的 操作 ， 都 会 Cace ”Hit， 直 到 这 个 Attribute 
Cache (ac) 达到 失效 时 间 为 止 ， 如 果 ac 达 到 了 失效 时 间 ， 那 么 内 核 NFS 
层 会 回 服 务 端 发 起 一 个 GETATTR 请 求 来 重新 取 回 文件 最 新 的 属性 信息 
并 组 存在 本 地 ，ac 失 效 计 时 器 被 置 0， 重 新 开始 计时 ， 往 复 执 行 这 个 过 
程 。 在 ac 缓存 未 超时 之 前 ， 客 户 端 不 会 癌 服 务 端 肥 起 GETATTR 请 求 ， 
除非 收 到 了 某 个 进程 的 OpenO 请 求 。 其 他 诸如 stat 命 令 等 读 取 文件 属性 
的 操作 ， 不 会 触 太 GETATTR。 














在 任何 时 刻 ， 任 何 针对 NFS 文 件 的 Open0) 操 作 ， 内 核 均 会 强制 触发 
一 个 GETATTR 请 求 被 发 送 至 服务 端 以 便 取 回 最 新 的 属性 数据 。 这 样 做 
是 合理 的 ， 因 为 对 于 Open() 操 作 来 说 ， 内 核 必须 提供 给 这 个 进程 最 新 的 
文件 数据 ， 所 以 必须 查看 最 新 属性 以 与 ac 缓存 中 的 副本 对 比 。 如 果 新 取 
回 的 属性 信息 中 mtime 相 对 于 本 地 缓存 的 信息 没有 变化 ， 则 内 核 会 擅自 
替代 NEFS 服 务 端 来 响应 程序 的 Open0， 并 且 随 后 程序 发 起 的 读 操作 也 都 
首先 去 伴 绥 存 命 中 ， 不 命中 的 话 再 将 请 求 发 给 服务 端 ， 这 一 点 类 似 CIFS 
下 的 Batch Oplock; 但 是 如 果 新 取 回 的 文件 属性 中 对 应 的 mtime 比 绥 存 副 
本 晚 ， 那 么 就 证 明 有 其 他 客户 端的 进程 修改 了 这 个 文件 ， 也 就 意味 着 本 
地 的 缓存 不 能 体现 当前 最 新 的 文件 数据 ， 全 部 作废 。 所 以 此 时 ， 内 核 
NEFS 会 将 这 个 Open0 请 求 透 传 到 服务 端 ， 随 后 发 生 的 读 写 数据 的 过 程 依 
旧 先 Cache ”Hit (由 于 之 前 缓存 作废 ， 所 以 第 一 次 读 请 求 一 定 是 不 命中 
的 ) ， 未 命中 则 从 服务 端 读 取 。 随 着 缓存 不 断 被 填充 以 最 新 读 入 的 数 
据 ， 命 中 率 会 越 来 越 高 ， 而 且 直 到 下 次 出 现 同 样 的 过 程 之 前 这 些 缓存 的 
文件 属性 副本 和 数据 副本 不 会 作废 。 























ac 的 超时 值 是 可 控 的 ， 在 mount 的 时 候 可 以 指定 “actimeo 三 秒 数 "这 
个 参数 来 设 定 。 当 然 ， 这 个 值 设 定 的 越 低 ， 客 户 端 发 送 GETATTR 到 服 
务 端的 频率 也 就 越 高 ， 就 能 更 快 地 感知 到 目标 文件 的 变化 。 如 果 将 其 设 
置 为 0， 意 味 着 不 缓存 文件 属性 信息 ， 那 么 客户 器 上 的 进程 每 次 查询 文 
件 属性 的 操作 “比如 stat 命 令 ) 均 会 触发 一 个 GETATTR 被 发 送 到 服务 


端 。 








Mount NEFS 时 还 有 一 个 选项 叫做 “noac”， 即 No_ Attribute Cache 缩 
写 ， 这 个 选项 与 actimeo 王 0 的 区 别 是 ，noac 等 价 于 “actimeo 一 
02” 十 “Sync”。 


对 于 读 操作 ， 使 用 noac 或 者 actimeo 王 0 选项 的 情况 下 ， 如 果 程 序 没 
有 使 用 DIO， 那 么 内 核 依然 有 预 读 行为 。 但 是 ， 为 了 确保 程序 读 入 的 数 
据 是 最 新 的 ， 每 次 程序 发 起 read0， 如 果 内 核 判 断 这 个 read0 命 中 了 当前 
的 缓存 ， 则 会 同时 触发 getattr 发 同 服务 端 。 如 果 取 回 的 属性 mtime 未 变 ， 
则 从 绥 存 中 将 数据 返回 给 程序 ， 如 果 mtime 有 变 ， 则 回 服 务 问 发 起 read0 
取 回 最 新 数据 。 如 果 程 序 发 起 的 read0 未 命中 ， 则 无 须 触发 GETATTR， 
直接 向 服务 端 发 起 read0 取 回 数据 。 这 种 做 法 的 好 处 是 极 大 地 利用 了 预 
读 缓 存 ， 每 个 read() 用 一 个 GETATTR 为 代价 来 探寻 缓存 的 文件 属性 是 否 
为 最 新 ， 一 旦 走运 为 最 新 ， 那 么 即 可 不 需要 癌 服 务 端 发 起 read0)。 

















如 果 使 用 DIO 模 式 ， 每 个 程序 发 起 的 read0 就 均 会 被 映射 为 内 核 向 服 
务 端 发 起 的 read0， 享 受 不 到 预 读 缓存 的 效果 。 使 用 上 面 这 种 方法 ， 虽 
然 每 个 read0 均 会 导致 发 送 一 次 GETATTR， 但 是 GETATTR 消 耗 的 资源 
相 比 read0) 来 讲 是 很 少 的 。 但 是 这 样 做 依然 对 性 能 有 很 大 的 影响 ， 如 果 
整个 环境 中 只 有 一 台 客 户 端 ， 那 么 使 用 noac 是 严重 浪 引 网 络 和 系统 资源 
的 ， 一 个 进程 可 能 在 单位 时 间 内 发 起 大 量 的 read0 操 作 ， 就 算是 这 些 
read(0) 均 命中 了 缓存 ， 那 么 依然 不 能 避免 内 核 在 底层 会 发 向 与 read0 调 用 











等 同 数 量 的 GETATTR 请 求 数据 包 给 NFS 服 务 问 。 网 络 上 可 以 看 见 成 干 
上 万 的 GETATITR， 这 是 多 此 一 举 的 行为 ， 缓 存 的 提速 作用 都 被 外 部 网 
络 的 速度 给 制约 了 ， 根 本 没有 体现 出 来 ， 所 避免 的 仅仅 是 被 假设 的 可 能 
需要 从 服务 端 读数 据 的 过 程 。 


CIFS 的 Oplock 模 式 一 旦 某 个 客户 端 锁 被 剥夺 ， 那 么 除非 进程 再 次 
Open0， 人 否则 不 可 能 再 使 用 本 地 缓存 。 但 是 NFES 下 可 以 随时 使 用 缓存 ， 
只 要 GETATTR 取 回 的 信息 中 mtime 未 变 。 就 算 mtime 变 了 ， 本 地 缓存 作 
废 ， 之 后 还 会 积累 新 的 缓存 数据 可 供 Read Cache Hit， 直 到 下 一 次 作废 
为 止 。 





总 结 : Linux 下 的 NFS 绥 存 一 致 性 解决 办 法 ， 从 严格 到 不 严格 依次 
为 程序 使 用 DIO 模 式 、 使 用 noac 选 项 来 mount、 降 低 actimeo 闵 值 到 尽量 
低 的 值 、 默 认 mount 参 数 。 按 照 这 个 顺序 ， 客 户 端 获得 的 性 能 是 递减 
的 ，DIO 模 式 根本 无 法 使 用 缓存 ，noac 模 式 只 能 靠 发 送 GETATTR 来 碰 
运气 使 用 预 读 缓存 ，actimeo 超 时 周期 内 则 可 以 肆 无 忌 习 地 使 用 本 地 缓存 
而 不 需要 疝 服 务 端 发 起 GETATTR 来 探 询 。 默 认 mount 参 数 的 actimeo 王 
60， 也 惑 是 1 分 钟 ， 所 以 缓存 发 挥 的 作用 更 大 。GETATTR 是 多 客户 端 访 
问 环 境 下 NFS 实 现 缓存 一 致 性 的 法 宝 。 





11) Linux 上 使 用 CIFS 与 Windows 上 使 用 NFS 





我 们 知道 ，Linux 上 现在 已 经 可 以 直接 以 CIFS 协 议 来 mount 一 个 CIFS 
服务 端的 共享 目录 ， 同 时 Windows 上 也 可 以 通过 安装 Microsoft 提 供 的 
Windows Services for UNIX (SFU) 开 发 包 来 实现 对 NFS 服 务 端 的 
mount。 现 在 我 们 来 调查 一 下 这 两 者 的 一 些 行为 与 原配 情况 下 有 什么 异 
同 。Linux 使 用 RHEL5， 自 带 了 对 CIFS 的 文 持 ，Windows 使 用 WinXP 
SP3， 安 装 SFU 3.5 开 发 包 。 











我 们 首先 调查 Linux 上 使 用 CIFS 的 情况 。 使 用 默认 参数 mount -t cifs 
命令 来 mount 服 务 端 的 一 个 共享 目录 。 如 图 19-51 所 示 ， 图 中 第 一 项 结果 
对 应 用 dd 进行 同步 十 Buffered IO 模式 从 目录 某 文件 中 读 出 lbyte 的 内 容 的 
过 程 ; 第 二 项 结果 对 应 用 dd 进行 同步 十 Buffered IO 模 式 每 次 1B 读 入 
10000 次 的 过 程 ;， 第 三 项 结果 对 应 使 用 测试 程序 进行 Buffered IO 十 同步 
调用 模式 以 1B 为 单位 持续 随机 读 取 文件 的 过 程 ; 第 四 项 结 末 对 应 使 用 测 
试 程 序 进 行 Buffered IO 十 同步 调用 十 WriteThrough 模 式 以 1B 为 单位 持续 
随即 履 盖 写 入 文件 的 过 程 。 























图 19-51 Linux 下 使 用 CIFS 


从 上 图 的 各 项 测试 结果 来 看 ，Linux 下 的 CIFS 访 问 方式 同样 存在 读 
写 惩 可 ， 究 其 原因 还 是 由 于 Page _ Cache 导致。 看 来 Linux 下 除了 使 用 NEFS 
可 以 避免 惩 基 之 外 ， 本 地 文件 系统 和 CIFS 文 件 系 统 均 无 法 避免 读 写 惩 
训 。Linux 下 还 是 使 用 原配 的 NFS 最 好 。 





我 们 再 来 看 一 看 Windows 上 使 用 NFS 访 问 的 情况 。 如 图 19-52 所 示 ， 
第 一 项 结果 对 应 使 用 测试 工具 进行 Buffered IO 十 同步 调用 模式 下 以 1B 为 
单位 对 文件 进行 随机 读 的 过 程 ， 第 三 项 结果 对 应 使 用 测试 工具 进行 
Buffered IO 十 同步 调用 十 WriteThrough 模 式 下 以 1B 为 单位 对 文件 进行 随 
机 写 的 过 程 ， 第 三 项 结果 对 应 用 测试 工具 进行 Buffered IO 十 同步 调用 模 
式 下 以 1B 为 单位 对 文件 进行 连续 地 址 写 的 过 程 。 





图 19-52 Windows 下 使 用 NFS 


古人 否 产生 读 写 惩罚 与 操作 系统 的 具体 实现 有 关系 ， 不 能 将 这 种 惩 昼 
归于 某 个 协议 的 缺陷 ， 协 议 上 自身 是 没有 这 种 惩罚 缺陷 的 。 每 个 协议 作为 


一 个 模块 嵌入 操作 系统 的 驱动 链 ， 产 生 惩罚 的 原因 在 于 OS 与 模块 之 间 
的 接口 设计 。 


Windows 与 Linux 对 竺 本 地 文件 都 使 用 Page ”Cache 映射 方式 ，Linux 
对 块 设备 也 使 用 Pcache 映 射 。 两 个 操作 系统 均 有 读 写 惩 吉 现象 。 
Windows 对 待 NTFS 与 CIFS 文 件 系 统 是 一 视 同仁 ， 而 Linux 下 则 进行 有 区 
别 的 对 待 ， 充 分 考虑 了 NEFS 网 络 IO 的 效率 等 因素 。 但 是 遗憾 的 是 Linux 
与 CIFS 之 间 的 接口 尚 待 完善。 而 Windows 与 NFS 模 块 之 间 则 为 彻底 的 
DIO 模 式 ， 完 全 透 传 ， 这 也 不 失 为 一 种 快刀 斩 乱 厅 的 实现 方式 。 








19.1.2 ”文件 系统 层 


文件 系统 是 系统 IO 路 径 中 首当其冲 的 一 个 比较 大 的 模块 。IO 离 开 应 
用 层 之 后 ， 便 经 由 OS 相关 操作 被 下 到 了 文件 系统 层 进行 处 理 。 文 件 系 
统一 个 最 大 的 任务 就 是 负责 在 逻辑 文件 与 底层 卷 或 者 磁盘 之 间 做 映射 ， 
并 且 维 护 和 优化 这 些 映射 信息 。 文 件 系统 还 需要 负责 同上 层 提 供 文 件 IO 
访问 API 接 口 ， 比 如 打开 、 读 、 写 、 属 性 人 修改、 裁剪、 扩充、 锁 等 文件 
操作 。 另 外 ， 还 需要 维护 缓存 ， 包 括 预 读 、Write Back、Write 
Through、Flush 等 操作 ;还 需要 维护 数据 一 致 性 ， 比 如 Log、FSCK 等 机 
制 ; 还 需要 维护 文件 权限 、Quota 等 。 








可 以 把 一 个 文件 系统 逻辑 地 分 为 上 部 、 中 部 和 下 部 。 访 问 接口 属于 
上 部 ;缓存 管理 、 文 件 管理 等 属于 中 部 ;文件 映射 、 一 致 性 保护 、 底 层 
存储 卷 适 配 等 属于 下 部 。 





1. 文件 系统 上 部 











文件 系统 对 用 户 的 表示 层 处 于 最 上 部 ， 比 如 Linux 下 的 表示 


法 “rootUa.txt”、“devwsdal”、“/mntnfs” 或 者 Windows 下 的 表示 

法 “D:atxt”、“Z 在 192.168.1.1 上 的 Share\l.txt>?。 文 件 系统 表示 层 给 用 户 
提供 了 一 种 简洁 直观 的 文件 目录 ， 用 户 无 须 关 心路 径 对 应 的 具体 实体 处 
于 底层 的 哪个 位 置 ， 处 于 网 络 另 一 端 ， 还 是 磁盘 上 某 个 磁道 忆 区 。 这 种 
FS 最 顶层 的 抽象 称 为 Virtual File System (VFS) 。 








文件 系统 访问 接口 层 也 位 于 上 部 。 由 于 接口 层 直 接 接受 上 层 IO， 而 
IO 又 有 14 种 〈 见 表 19-1) ， 文 件 系统 会 受到 这 14 种 IO 的 挫 残 。 面 对 这 种 
挫 残 ， 文 件 系统 还 是 有 点 对 策 的 。 在 Windows 系 统 下 ，NTFS 提 供 了 两 
种 适 配 IO 类 型 的 API: FILE_FLAG SEQUENTIAL_SCAN 和 
FILE_FLAG_RANDOM_ACCESS。 在 应 用 程序 打开 一 个 文件 时 可 以 在 
调用 相关 函数 的 时 候 给 出 对 应 的 Flag。 前 者 表示 应 用 准备 对 这 个 文件 进 
行 连续 读 写 LBA 地址 连续 ) 访问 ， 如 果 使 用 这 个 参数 而 且 使 用 系统 内 
核 缓 存 ， 那 么 文件 系统 会 加 大 默认 的 预 读 力度 和 频率 ， 这 个 参数 在 不 使 
用 系统 内 核 缓 存 时 是 无 效 的 ， 后 者 则 表示 应 用 准备 对 这 个 文件 进行 随机 
读 写 访问 ， 那 么 文件 系统 就 会 降低 默认 的 预 读 力度 和 频率 以 避免 不 必要 
的 浪费 。 





我 们 在 此 做 一 个 “ 沁 狂 实验 ”来 折磨 一 下 文件 系统 ， 笔 者 用 
Asynchronous Explore 进行 使 用 系统 内 核 缓存 的 随机 IO， 但 同时 又 指定 
了 连续 IO 参数 ， 通 告 FS 程序 要 进行 连续 IO 但 实际 却 给 出 随机 IO。 这 显 
然 是 矛盾 的 。 我 们 利用 这 个 矛盾 来 调查 文件 系统 是 否 也 跟着 我 们 矛盾 。 
如 图 19-53 所 示 ， 在 抓 取 的 iSCSI 包 结果 中 我 们 可 以 看 到 ， 在 一 开始 瞬间 
的 21 写 包 表 示 FS 辐 底层 存储 发 起 了 一 个 长 度 为 128B 的 读 IO， 这 显然 受 
到 了 那个 参数 的 影响 ， 随 后 的 几 个 长 度 为 128B 的 IO 表明 FS 接连 预 谈 了 
几 次 。 随 后 ， 再 也 没有 发 生 超 长 度 IO， 表 明 FS 从 此 不 再 进行 预 读 了 (后 
续 还 有 数 百 个 ID， 图 中 没有 截 出 ) 。 这 说 明 FS 是 很 有 智能 的 ， 它 一 开始 





参考 给 出 的 参数 ， 但 是 随后 它 发 现 上 层 给 出 的 IO 并 不 是 连续 的 ， 受 统 
了 ， 所 以 愤然 不 再 预 读 。 





图 19-53 ”验证 FS 预 读 行为 


2. 文件 系统 中 部 


绥 存 位 于 文件 系统 中 部 。 预 读 和 Write Back 是 文件 系统 的 最 基本 功 
能 ， 可 以 参考 上 文中 的 示例 来 理解 文件 系统 预 读 机 制 。 绥 存 预 恋 对 不 同 
IO 类 型 的 优化 效果 也 是 不 同 的 ， 参 考 表 19-2。 








表 19-2 不 同 IO 类 型 的 缓存 效果 


OS 可 以 提供 一 些 可 供用 户 自行 设置 的 参数 来 控制 文件 系统 预 读 力 
度 ， 比 如 AIX 系 统 便 提供 了 j2_maxpagereadahead 参 数 来 控制 JS2 文 件 系 
统 的 预 读 力度 ， 这 个 参数 的 值 表 示 FS 做 预 恋 操 作 时 癌 底 层 肥 起 的 IO 
Size。 比 如 ， 将 其 设置 为 4 则 表示 每 个 预 恋 IO Size 为 4 个 缓存 Page， 也 就 
征 4x4KB 王 16KB。 下 面 我 们 用 数据 来 说 明 FS 预 读 的 效果 。 首 先 看 一 下 
将 j2_maxpagereadahead 改 为 4 之 后 ，cp 一 个 文件 所 耗费 的 时 间 以 及 底层 
向 存储 系统 发 起 的 IO 情况 。 其 中 Read Ops 表 示 每 秒 读 操 作 数 ，Read KB 
表示 每 秒 读 带宽 否 吐 量 。 





aix-cn22:/#i00 -0 Jj2_maxPageReadAhead=4 
Setting j2_maxPageReadAhead to 4 
aix-cn22:/#mount /dev/fslv02 /mnt3 
aix-cn22:/#time cp /mnt3/c /mnt2 

real Om17 .07S 


UsSer omo .28s 


sys Om11.00s 


Read Write Other QFull Read Write Average Queue Lun 


Ops Ops Ops kB kB Latency Length 
3994 0 0 0 63888 0 0.00 0.08 /vol 
3116 0 0 © 49872 0 0.00 0.07 /vol 


我 们 看 到 cp 耗费 了 17 秒 ， 底 层 预 读 发 起 的 IOPS 为 3000 一 4000 之 间 。 
再 来 看 一 看 将 j2_maxpagereadahead 改 为 64 之 后 的 结果 。 可 以 看 到 cp 耗费 
了 11 秒 ， 大 大 加 快 了 ， 而 且 底 层 预 读 耗费 的 IOPS 仅 为 400 左 右 ， 差 不 多 
是 前 者 的 十 分 之 一 ， 同 时 带宽 也 达到 了 测试 用 的 1Gb/s 的 iSCSI 以 太 网 链 
路 的 极限 。 








aix-cn22:/#i00 -0 j2 maxPageReadAhead==64 
Setting j2 maxPageReadAhead to 64 
aix-cn22:/#mount /dev/fslv02 /mnt3 
aix-cn22:/#time cp /mnt3/c /mnt2 

real Om11.67s 

USer Om0 ,22S 


sys gm9 .34s 


Read Write Other QFull Read Write Average Queue Lun 


Ops Ops Ops kB kB Latency Length 
383 0 0 9 97856 0 1.04 0.03 /vol 
437 0 0 0 95936 0 0.90 0.03 /vol 


我 们 再 来 看 一 看 图 19-54， 这 个 实验 中 ， 在 Windows 系 统 中 使 用 测试 
工具 对 某 个 文件 使 用 以 200B 为 单位 的 连续 读 操 作 ，NTFS 文 件 系统 此 时 


的 预 读 力度 达到 了 最 大 ， 左 侧 显 示 了 系统 底层 发 癌 存 储 设 备 的 IO， 每 个 
IO 的 长 度 几 乎 都 是 128， 即 64KB。 





图 19-54 FS Aggressive Prefetch 


右 侧 显 示 了 测试 程序 所 在 的 操作 系统 底层 的 行为 ， 可 以 看 到 7 号 记 
录 是 一 个 由 于 读 惩 因而 产生 的 惩罚 谈 《〈 带 星 号 记录 ， 几 是 由 于 Page 
Fault 导 致 的 Page im 操作 ， 都 带 星 号 ) ， 但 是 后 续 再 也 没有 出 现 惩 凡 读 ， 
因为 需要 读 入 的 数据 早已 被 预 谈 ， 不 再 产生 Page Fault。 





对 于 应 用 程序 的 写 IO 操 作 ， 文 件 系统 使 用 Write _ Back 模式 提 高 写 IO 
的 啊 应 速度 。 这 种 模式 下 ， 应 用 程序 的 写 IO 数据 会 在 被 复制 到 系统 内 核 
缓存 中 之 后 而 被 通告 为 完成 ， 而 此 时 FS 可 能 尚未 将 数据 写 入 磁盘 ， 所 
以 ， 如 果 此 时 系统 发 生 Down 机 ， 那 么 这 块 数据 将 丢失 ， 而 应 用 程序 可 
能 并 不 知道 数据 已 经 丢失 从 而 造成 错乱 的 逻辑 ， 可 能 造成 严重 的 后 果 。 
这 种 担忧 在 关键 业务 应 用 中 是 绝对 要 杜绝 的 。NTFS 文 件 系 统 提供 了 另 
一 个 参数 : FILE_FLAG_WRITE_THROUGH， 只 要 程序 在 打开 某 个 文 
件 时 给 出 这 个 参数 ， 那 么 程序 的 写 IO 数 据 依然 会 先 被 复制 到 系统 内 核 绥 
存 ， 文 件 系统 随即 立即 将 这 份 数 据 写 入 磁盘 ， 然 后 向 程序 返回 完成 的 信 
号 。 这 个 参数 与 FILE_FLAG_NO_BUFFERING 不 同 ， 后 者 表示 读 和 写 
IO 均 不 使 用 缓存 ， 而 前 者 读 IO 依然 使 用 缓存 。 所 以 ， 数 据 库 类 程序 局 动 
时 在 打开 Log 文 件 时 都 会 给 出 这 个 参数 。Write ”Back 叉 可 以 称 为 Delay 
Write 或 者 Lazy “Write， 即 数据 并 不 是 立即 就 被 写 入 底层 存储 的 。Write 
Back 模 式 除了 会 丢失 数据 这 个 致命 缺点 之 外 ， 剩 下 的 全 是 优点 ， 比 如 ， 
大 大 降低 IO 响应 时 间 ， 还 有 大 大 增加 写 命中 率 。 











提示 : 何谓 “ 写 命中 ”? 读 命中 率 大 家 都 理解 ， 即 符 读 取 的 数据 








己 经 存在 于 缓存 中 而 无 须 从 磁盘 读 入 缓存 。 而 对 于 写 IO， 每 个 
写 IO 数 据 都 将 首先 被 放 入 缓存 ， 然 后 才 会 被 号 入 磁盘 ， 电 不 是 
每 个 写 IO 都 会 命中 缓存 么 ?哪里 来 的 “命中 率 ” 呢 ? 试想 这 样 一 
种 情况 ，T1 时 刻 有 针对 地 址 LBA1 的 B1 数 据 待 号 入 ，B1 进 入 绥 
存 后 ， 由 于 Write Back 机 制 ，B1 尚 未 被 号 入 硬盘 之 前 ，T2 时 刻 
应 用 又 发 起 了 针对 同 地 址 的 写 IO 操 作 B2， 那 么 此 时 FS 是 否 
必要 让 B2 来 占用 新 的 缓存 空间 呢 ? 随后 当 FS 需 要 将 数据 写 入 
硬盘 时 ， 先 写 入 B1， 然 后 又 写 入 了 B2， 这 是 没 问 题 的 。 但 是 
如 果 先 写 入 了 B2， 后 写 入 了 B1 呢 ? 这 时 候 就 是 大 问题 了 。 实 
际 上 ，FS 在 接收 到 B2 数 据 后 ， 会 将 B2 履 盖 B1， 因 为 从 时 间 历 
史 角 度 看 ，B1I1 已 经 不 复 存 在 ， 在 随后 的 写 盘 动作 时 ， 只 需要 一 
次 而 不 是 两 次 写 入 动作 ， 节 约 了 后 端 IO 资源 。 这 便 是 写 命中 ， 
即 待 写 入 的 数据 对 应 的 地 址 在 缓存 中 恰好 存在 之 前 的 尚未 被 写 
盘 的 IO 数据 。 

















文件 系统 还 使 用 另外 一 种 IO 优化 机 制 ， 叫 做 IO “Combination。 假 设 
TI1 时 刻 有 某 个 IO 目标 地 址 段 为 LBA0 一 1023， 被 FS 收 到 后 暂 存 于 IO 
Queue 中 ; TI2 时 刻 ，FS 尚 未 处 理 前 一 个 IO， 此 时 又 有 一 个 与 第 一 个 IO 同 
类 型 〈 读 / 写 ) 的 IO 被 收 到 ， 目 标 地 址 段 为 LBA1024 一 2047。EFS 将 这 个 
IO 追加 到 IO Queue 末 尾 。T3 时 刻 ，FS 准 备 处 理 Queue 中 的 IO，FS 会 扫描 
Queue 中 一 定数 量 的 IO 地 址 ， 此 时 FS 发 现 这 两 个 IO 的 目标 地 址 是 相 邻 
的 ， 并 且 都 是 读 或 者 写 类 型 ， 则 FS 会 将 这 两 个 IO 合并 为 一 个 目标 地 址 为 
LBA0 一 2047 的 ID， 并且 向 底层 存储 系统 发 起 这 个 IO， 待 数据 返回 之 
后 ，FS 再 将 这 个 大 IO 数据 按照 地 址 段 拆 分 成 两 个 IO 结果 并 且 分 别 返回 
给 请 求 者 。 这 样 做 的 目的 是 节约 后 端 IO0 资 源 ， 增 加 IOPS 和 带宽 否 叶 
量 。 每 发 起 一 个 IO，SCSI 协 议 层 以 及 底层 传输 协议 层 都 会 有 相应 的 开 
销 ， 如 果 能 够 将 本 来 需要 多 次 发 送 的 IO 合并 为 一 次 IJO， 那 么 对 应 的 协议 





开销 就 会 避免 。 
3. 文件 系统 下 部 


文件 系统 下 部 包括 文件 一 块 映 射 、Flush 机 制 、 日 志 记 录 、FSCK 以 
及 与 底层 卷 接口 等 相关 操作 。 


位 于 FS 下 部 的 一 个 重要 的 机 制 是 文件 系统 的 Flush 机 制 。 在 WB 模式 
下 ，FS 会 暂 存 写 IO 实 体 数 据 与 文件 的 Metadata。FS 当 然 不 会 永久 地 暂 存 
下 去 而 不 写 入 磁盘 。 文 件 系 统 会 在 适当 的 条 件 下 将 暂 存 的 写 IO 数 据 写 入 
磁盘 ， 这 个 过 程 叫 做 Flush。 有 多 种 条 件 可 以 触 友 Flush: 距 上 次 Flush 时 
间 、 茶 个 缓存 Page 在 缓存 中 符 的 最 长 时 间 、 应 用 强制 触发 的 Flush、FS 
自身 为 了 实现 菏 功 能 《比如 快照 ) 而 目 行 Flush 以 及 其 他 各 种 原因 。 











同样 ， 位 于 文件 系统 的 下 部 还 有 文件 映射 处 理 模块 。 在 NTFS 文 件 
系统 中 ， 一 种 被 称 为 Sparse File 的 处 理 机 制 可 以 大 大 节约 文件 实际 占用 
人 磁盘 的 空间 ， 而 且 还 可 以 加 快 恋 写 速度 。 某 些 文件 本 里 非常 大 ， 但 是 文 
件 中 包含 的 数据 大 部 分 都 是 二 进 制 0， 如 果 考 虑 压缩 这 些 0 从 而 降低 实际 
物理 占用 空间 ，NTEFS 自 身 的 压缩 机 制 是 可 以 做 到 的 ， 但 是 压缩 融 来 的 
一 个 坏处 就 是 在 读 写 被 压缩 数据 的 时 候 需 要 耗费 太 多 的 系统 资源 ， 影 啊 
速度 。 取 而 代 之 ，EFS 提 供 另 一 种 机 制 : Sparse File。 如 果 某 个 应 用 程序 
认为 自己 生成 的 文件 符合 Sparse 的 特性 ， 那 么 程序 可 以 将 这 个 文件 设置 
为 Sparse 模 式 ， 对 已 有 文件 和 新 建文 件 都 可 以 这 样 操 作 。 已 有 的 文件 设 
置 为 Sparse 模 式 之 后 ， 程 序 需要 显 式 地 将 其 中 全 0 的 部 分 使 用 相关 函数 通 
告 FS，FS 会 将 这 些 部 分 存放 在 一 个 特殊 的 列表 中 备查 。 当 某 个 程序 向 
Sparse 文 件 中 写 入 大 片 连续 0 的 时 候 ，FS 会 感知 到 并 且 将 对 应 的 地 址 追 
加 到 列表 中 而 无 顷 真 正 写 入 和 磁盘， 只 有 当 待 号 入 的 数据 为 非 0 时 才 会 被 
真正 写 入 磁盘 。 当 读 取 Sparse File 的 时 候 ，FS 会 首先 查询 列表 ， 如 果 发 





























现 匹 配 的 地 址 则 直接 返回 0 给 应 用 程序 而 无 须 从 磁盘 中 读 。 








在 很 多 情况 下 ， 某 些 应 用 程序 需要 创建 一 个 文件 但 是 暂时 不 向 其 中 
写 入 数据 ， 一 般 这 种 情况 下 所 创建 的 文件 大 小 为 0B， 占 用 磁盘 空间 仅 为 
元 数据 所 占用 的 空间 ， 一 般 初 始 时 为 一 个 文件 系统 块 比 如 4KB 大 小 ， 此 
时 文件 并 没有 实际 内 容 ， 所 以 文件 本 体 被 保存 于 元 数据 中 存放 。 随 着 程 
序 对 文件 的 写 入 ， 文 件 会 逐渐 增 大 。 但 是 ， 在 其 他 一 些 情况 下 ， 程 序 希 
望 预先 让 这 个 文件 占用 一 定 的 空间 以 防止 随后 一 旦 出 现 磁盘 空间 不 够 时 
的 厂 礁 ， 为 了 实现 这 一 点 ， 程 序 可 以 用 Writefile0 逐 渐 疝 文件 中 写 入 0 一 
直到 期 望 的 大 小 为 止 ， 或 者 使 用 SetEndOfFile0 CNTFS) 和 
Setfilevaliddata0 之 类 的 函数 来 扩充 文件 的 长 度 。 











调用 不 同 的 方法 ， 会 得 到 不 同 的 结果 ， 合 NTFS 举 例 ， 每 个 文件 有 
三 种 长 度 属 性 ， 也 就 是 标 称 长 度 、 分 配 长 度 和 所 辑 占用 长 度 。 标 称 长 度 
没什么 可 说 的 ， 分 配 长 度 就 是 文件 在 磁盘 上 实际 分 配 的 占 空 大 小 ， 而 逻 
辑 占 用 长 度 则 是 指 文 件 自 创建 之 后 被 实际 写 入 到 哪个 长 度 《〈 注 意 ， 不 是 
被 实际 写 入 了 的 总 长 度 ， 而 是 实际 写 入 地 址 的 高 水 位 线 ) 。 











如 果 调 用 Setendoffile()， 比 如 用 这 个 函数 把 文件 大 小 从 0 字 节 设置 为 
1GB 字 节 ， 那 么 OS 会 为 这 个 文件 在 磁盘 上 分 配 实际 的 1GB 空 间 ， 也 就 是 
在 文件 分 配 表 记 录 中 分 配 实际 的 空间 指针 ， 并 且 同 时 会 更 新 文件 所 在 的 
卷 的 bitmap 文 件 ， 但 是 却 不 会 回 每 个 被 占用 的 局 区 写 0， 所 以 这 个 动作 
会 瞬间 就 完成 ， 此 时 这 个 文件 的 标 称 长 度 和 实际 分 配 长 度 都 是 1GB， 但 
是 逻辑 占用 长 度 是 0， 因 为 还 没有 任何 数据 被 写 入 ， 此 时 如 果 发 起 针对 
这 个 文件 任意 地 址 的 读 操 作 ，OS 会 在 内 存 里 生成 0x00 返 回 给 应 用 程 
序 ， 不 需要 读 盘 。 但 是 随后 如 果 发 生 任何 针对 这 个 文件 任意 偏 移 地 址 的 
写 操作 ， 比 如 向 其 位 于 500MB 处 的 地 址 写 入 1MB 的 数据 ， 那 么 OS 会 在 
后 台 同 时 将 这 个 文件 的 0 字 节 开始 一 直到 第 500MB 之 前 的 所 有 空间 写 

















0《〈 写 到 该 地 址 所 占用 的 磁盘 扇 区 里 ) ， 但 是 501MB 到 文件 尾部 的 那 
499MB 空 间 不 会 写 0， 同 时 设 定 该 文件 的 逻辑 占用 长 上 度 为 501MB， 如 果 
发 生 任意 针对 501MB 之 前 偏 移 地 址 的 读 写 操作 ，0OS 均 会 读 写 磁 盘 ， 如 
果 发 生 501MB 到 1GB 之 间 地 址 的 读 操 作 ，OS 不 会 读 盘 ， 会 在 内 存 中 生 
成 0x00， 写 操作 ， 则 重复 刚才 的 动作 ， 在 高 水 位 线 之 前 的 未 被 填 0 的 所 
有 地 址 上 填 0。 所 以 ， 如 果菜 个 应 用 预先 创建 了 一 个 大 文件 占 位 之 后 ， 
后 续 如 果 发 生 针 对 这 个 文件 的 随机 写 操作 ， 那 么 OS 势必 会 在 后 台 发 生 
很 多 填 0 操 作 ， 会 非常 影响 性 能 




















提示 : ”诸如 迅雷 等 下 载 工 具 ， 一 般 都 会 预先 占用 文件 空间 ， 
但 是 由 于 迅雷 针对 文件 的 下 载 并 不 是 顺序 的 ， 会 有 多 个 线程 从 
文件 的 多 个 部 分 开始 并 行 号 入 ， 此 时 如 果 使 用 Setendoffile() 来 
占 位 ， 性 能 就 会 很 甜 。 但 是 可 以 使 用 另 一 个 函数 也 就 是 
Setfilevaliddata0， 这 个 函数 与 Setendoffile0 的 区 别 就 是 OS 任 何 
情况 下 都 不 会 在 后 台 同 文件 中 填 0， 这 样 做 的 好 处 是 明显 的 ， 
但 是 也 会 市 来 安全 性 问题 ， 为 文件 分 配 了 对 应 大 小 的 届 区 但 是 
不 同 这 些 局 区 中 写 入 0， 那 么 这 些 司 区 之 前 的 内 容 就 会 变 为 这 
个 文件 当前 的 内 容 。 所 以 ， 除 非 程 序 明 确 知道 自己 在 做 什么 ， 
否则 稀里糊涂 地 使 用 这 个 函数 可 能 造成 驴 唇 不 对 马 嘴 的 后 条 。 
通 弟 使 用 这 种 方法 的 典型 例子 就 是 下 载 工 具 。 

大 家 可 以 做 一 个 试验 ， 使 用 迅 ee 将 其 保存 在 
一 个 曾经 被 塞 满 过 的 分 区 上 。 迅 雷 在 获取 到 这 个 文件 的 大 小 之 
后 会 立即 创建 相应 大 小 的 文件 ， 而 创建 文件 的 过 程 是 瞬时 完成 
的 ， 并 没有 长 时 间 磁 盘 IO 操 作 。 此 时 我 们 立即 退出 迅雷 。 碍 看 
这 个 文件 的 属性 ， 发 现 其 大 小 和 磁盘 占用 空间 相同 。 然 后 用 十 
六 进 制 编辑 器 打开 这 个 文件 ， 可 以 发 现 其 中 并 非 全 0， 而 是 被 
考 满 了 竣 乱 的 数据 。 这 充分 证 明 迅 雷 使 用 的 就 是 

















SetFileValidData0) 函 数 来 扩展 文件 大 小 的 。 随 着 文件 不 断 地 被 
下 载 ， 新 的 数据 将 会 覆盖 这 些 面 区 原 有 的 内 容 。 

笔者 曾经 遇 到 过 更 有 趣 的 现象 。 茶 个 分 区 中 曾经 存 有 多 部 电 

影 ， 随 后 删除 把 一 些 。 茶 次 笔者 使 用 迅雷 下 载 一 部 新 电影 存放 
到 这 个 分 区 ， 但 是 下 到 70% 左 右 没 有 速度 了 ， 于 是 强行 播放 下 
载 的 文件 ， 奇 迹 发生 了 : 在 电影 播放 到 茶 个 时 间 点 处 ， 突 然 出 
现 了 力 一 部 电影 的 画面 ， 这 部 电影 恰好 就 是 笔者 之 前 删除 的 那 
些 的 其 中 一 部 。 这 个 巧遇 绝对 属实 ， 但 是 由 于 懒 懈 ， 没 有 做 重 
现 试验 。 








1) 文件 分 布 映 射 


由 于 底层 存储 卷 也 是 由 物理 磁盘 经 过 层 层 虚 拟 化 操作 而 生成 的 ， 最 
终 影 响 IO 性 能 的 根本 因素 和 最 大 因素 还 是 物理 磁盘 的 机 械 寻 道 。RAID 
的 做 法 可 以 利用 起 所 有 RAID 组 成 员 人 磁盘 的 寻 道 时 际 来 提高 总 体 性 能 
《附录 1 的 问题 8) ， 但 是 这 种 做 法 具有 很 高 的 盲 操作 性 〈 参 考 本 书 4.2.6 
一 节 ) 。 想 要 让 一 个 RAID ”Group 发 挥 出 最 大 的 并 发 IO 性 能 ， 就 首先 需 
要 保证 RAID 控 制 器 接收 到 的 针对 这 个 RAID 组 的 一 个 IO 或 者 一 批 IO0 可 以 
一 次 性 发 送 给 组 内 的 所 有 磁盘 进行 操作 。 将 一 个 IO 友 散 给 多 个 磁盘 操作 
贡献 为 系统 带宽 吞吐 量 增加 ， 而 将 多 个 IO 同时 发 送 给 组 内 磁盘 操作 【每 
个 磁盘 操作 一 个 IO) 则 贡献 为 系统 IOPS 增 加 。 



































提示 : ”为 了 实现 增加 系统 带宽 吞吐 量 的 目的 ，RAID 3 将 Stripe 
Size 调 到 最 低 ， 比 如 一 个 FS 的 IO 单位 大 小 ， 这 样 就 可 以 盲 性 地 
保证 每 个 FS 层面 的 IO 都 一 定 会 被 分 散在 组 内 所 有 磁盘 上 。 如 果 
FS 发 起 的 是 连续 IO 类 型 ， 那 么 这 种 情况 整个 系统 的 带宽 吞吐 量 
将 会 非常 高 ， 这 也 是 RAID ”3 唯一 表现 优秀 的 情况 。 而 如 果 FS 
层面 发 起 的 是 随机 小 块 的 DO， 这 时 系统 性 能 将 会 非常 差 。 因 为 








RAID 3 注定 一 个 组 一 次 只 能 处 理 一 个 IO 操作 “〈 因 为 每 个 IO 都 
要 占用 所 有 物理 磁盘 ) ， 大 量 随 机 的 IO 不 但 得 不 到 并 发 ， 而 且 
加 上 磁盘 寻 道 的 影响 ， 造 成 所 有 物理 磁盘 在 处 理 下 一 个 IO 时 总 
要 全 体 寻 道 ， 加 之 现代 缩水 版 RAID 3 并 不 保证 组 内 磁盘 转速 同 
步 ， 造 成 磁盘 旋转 延迟 都 不 同 ， 先 达到 目标 扇 区 的 磁盘 会 处 于 
等 待 状态 ， 这 又 浪费 了 系统 性 能 。 

RAID 3 是 一 个 古老 的 RAID 类 型 。 那 时 的 应 用 程序 和 业务 要 求 
并 没有 现代 这 么 苛刻 。 而 现代 的 业务 系统 对 存储 的 要 求 越 来 越 
苛刻 ， 既 要 求 高 IOPS 即 IO 并 发 度 ， 又 要 求 差不多 的 带宽 吞吐 
量 。 为 了 增加 系统 IOPS， 顺 便 解 决 RAID 3 不 能 并 发 IO 的 问 
题 ，RAID 5 出 现 了 。RAID 5 相对 RAID 3 的 最 大 改进 其 实 是 增 
加 了 条 带宽 度 而 不 是 引入 分 布 式 校 验 ， 这 里 很 多 人 的 理解 都 有 
误区 ， 总 以 为 分 布 式 校 验 才 是 RAID 5 性 能 提高 的 最 大 因素 。 为 
了 说 明 这 一 点 ， 我 们 假设 只 在 RAID 3 基础 上 将 单 Parity 盘 变 为 
分 布 式 Parity， 而 Stripe 宽 度 不 变 ， 仍 为 一 个 FS 层面 的 IO 大 小 
(一 个 FS ”Block， 一 般 为 4KB) 。 试 问 ， 这 种 情况 下 ， 管 它 
Parity 是 不 是 分 布 式 ， 对 系统 性 能 有 提升 么 ? 每 次 整个 RAID 组 
依然 只 可 以 处 理 一 个 IO， 同 样 都 是 整 条 读 或 者 号，Parity 放 到 
条 带 的 哪个 位 置 有 关系 么 ? 根本 没有 ， 人 性 能 没有 一 点 提升 ， 反 
而 还 会 由 于 分 布 式 Parity 运 算 复 杂 度 升 高 而 导致 的 计算 延迟 增 
加 。 所 以 ，RAID 5 相对 RAID 3 的 根本 进化 在 于 提高 了 Stripe 
Size， 可 以 设置 为 很 大 ， 比 如 1MB 或 者 更 大 。 在 这 个 基础 上 ， 
对 于 小 块 随机 IO 的 并 发 度 就 会 大 大 增加 ， 因 为 条 带 增加 使 得 每 
个 磁盘 对 应 的 Segment《〈 条 带 深 度 ) 也 增加 ， 使 得 一 个 IO 仅 落 
在 一 个 磁盘 上 的 几率 也 增加 ， 多 个 IO 同时 分 别 落 在 一 块 磁盘 的 
几率 也 增加 ， 也 就 是 IO 可 以 并 发 执行 了 。 这 一 步 改 进 对 应 
RAID 4。 然 而 ，RAID 4 的 读 IO 可 以 并 发 了 ， 但 是 写 IO 却 依然 














不 可 以 并 发 ， 因 为 每 次 写 IO 过 程 中 都 需要 修改 Parity 盘 上 的 校 
验 值 ， 所 以 Parity 盘 就 会 被 这 个 IO 占用 ， 此 时 其 他 的 写 IO 只 能 
等 待 ， 因 为 所 有 写 IO 都 要 更 改 Parity。 为 了 解决 这 个 问题 ， 
RAID 5 出 现 了 ， 分 布 式 校 验 就 这 样 诈 生 了 ， 其 诞生 在 逻辑 顺序 
上 是 处 于 增加 条 带宽 度 之 后 的 。 改 为 分 布 式 校 验 后 ， 写 IO 也 可 
以 并 发 了 ， 只 不 过 并 发 几率 远 低 于 读 IO。 

RAID 5 的 并 发 几率 属于 守株待兔 型 而 不 是 主动 型 ， 合 理 地 布 好 
网 ， 猎 物 是 否 成 群 结 队 地 进来 就 靠 运 气 了 。 所 以 这 种 设计 是 盲 
性 的 。 但 是 RAID 3 的 做 法 并 不 是 言 性 的 而 是 釜底抽薪 型 ， 不 管 
任何 情况 下 ， 每 个 IO 必定 由 组 内 所 有 盘 同时 操作 ， 但 是 这 样 做 
也 注定 了 RAID 3 的 局 限 性 。RAID 5 的 写 IO 并 发 几率 远 低 于 
读 ， 三 块 盘 的 RAID 5 根本 不 能 并 发 写 IO， 小 块 写 IO 性 能 非常 
低下 。 就 算 增 加 磁盘 ， 盲 并 发 几率 提高 也 很 缓慢 ， 再 加 上 碰 运 
气 ， 实 际 获得 的 并 发 几率 低 之 又 低 。 此 时 ， 需 要 一 种 机 制 来 增 
加 写 IO 并 发 几率 。FS 下 层 已 经 是 黔 驴 技 穷 了 ， 唯 一 能 折腾 折腾 
的 地 方 只 有 在 FS 层面 了 。 如 果 猪 物 能 够 自 投 罗 网 ， 那 就 是 再 好 
不 过 的 事情 了 。 























作者 一 直 认 为 ， 文 件 系统 是 系统 IO 路 径 中 的 一 个 很 重要 的 角色 ， 而 
文件 在 后 层 存 储 卷 或 者 磁盘 上 的 分 布 算 法 是 重 中 之 重 ， 成 败 在 此 一 举 。 
传统 的 文件 系统 只 是 将 底层 的 卷 当做 一 个 连续 局 区 空间 ， 并 不 感知 这 个 
连续 空间 的 物理 承载 设备 的 类 型 或 者 数量 等 ， 所 以 也 就 不 知道 目 己 的 不 
同类 型 的 IO 行 为 会 给 性 能 市 来 多 大 的 影响 。 











将 IO 比 作 昆虫 ， 抵 层 的 RAID 比 作 不 同类 型 的 蜘蛛 网 。 我 们 部 见 过 
那 种 藏匿 于 灌木 从 中 的 密度 很 大 几乎 是 一 块 白布 样 的 蜘蛛 网 ， 也 见 过 稀 
壬 政 下 孔 状 的 八卦 样 蜂 蛛网 ， 走 路 时 也 偶尔 会 碰 到 一 根 蜘蛛 丝 纪 在 你 脸 





上 的 情况 。 当 然 ， 昆 虫 永远 也 不 会 自己 投向 蜘蛛 网 。 而 文件 系统 要 想 获 
得 最 优 的 IO 性 能 ， 就 必须 在 感知 底层 RAID 类 型 的 情况 下 按照 对 应 的 策 
略 自 投 罗 网 。 比 如 ， 如 果 蜂 蛛网 是 白布 状 ， 那 么 任何 一 个 小 昆虫 都 逃 不 
过 ; 如果 是 稀疏 孔 状 ， 那 么 过 小 的 昆虫 可 能 漏网 ， 只 有 一 根 蜂 蛛 丝 的 情 
况 往往 用 于 探测 某 个 信号 ， 比 如 一 个 庞大 的 东西 走 过 。 同 样 ， 现 行 的 做 
法 就 是 底层 存储 设备 布 网 等 待 上 层 的 IO 到 来 。 如 果 我 们 在 FS 层 对 底层 的 
RAID 类 型 和 磁盘 类 型 等 各 种 因素 做 出 分 析 和 判断 ， 然 后 制定 对 应 的 策 
略 ， 让 文件 能 够 按照 预期 的 效果 有 针对 性 地 在 RAID 组 内 进行 分 布 ， 这 
样 就 会 和 谐 。 比 如 ， 在 格式 化 文件 系统 时 ， 或 者 在 程序 调用 时 ， 给 出 显 
式 参 数 : 尽量 保持 每 个 文件 只 存放 在 一 个 物理 硬盘 中 ， 那 么 当 创建 一 个 
文件 的 时 候 ， 文 件 系统 便 会 根据 底层 RAID 的 Stripe 边 界 来 计算 将 哪些 局 
区 地 址 段 分 配给 这 个 文件 ， 从 而 让 其 物理 地 只 分 布 到 一 个 磁盘 中 。 这 种 
文件 分 布 方式 在 需要 并 行 访问 大 量 文件 时 是 非常 有 意义 的 ， 因 为 底层 

RAID 的 盲 并 发 度 很 低 ， 如 果 在 FS 层面 手动 地 将 每 个 文件 只 分 布 在 一 个 
磁盘 上 上， 那么 N 个 磁盘 组 成 的 RAID 组 理论 上 就 可 以 并 发 N 个 针对 文件 的 
读 操 作 ， 写 操作 并 发 度 仍 相对 很 低 但 是 至 少 可 以 保证 为 理论 最 大 值 。 




















总 之 ， 文 件 系统 必须 与 底层 完美 配合 才能 够 获取 最 大 的 性 能 。 这 方 
面 WAFL 的 做 法 为 文件 系统 与 底层 配合 的 典范 ， 不 过 WAFL 也 存在 着 自 
号 不 可 避免 的 问题 。 关 于 WAFL 机 制 的 简要 论述 见 本 书 第 4 曹 。 将 来 的 
文件 系统 设计 可 能 会 考虑 更 多 的 底层 适 配 因素 ， 让 我 们 拭目以待 。 


2) 卷 IO 





卷 IO 策略 处 于 文件 系统 的 最 底层 ， 负 责 将 数据 从 卷 中 读 出 或 者 问卷 
中 写 入 。 这 个 层次 需要 用 最 少 的 IO 做 最 多 的 事情 。 数 据 库 类 程序 的 Log 
机 制 是 耗费 IO 最 多 的 情况 之 一 ， 每 次 Checkpoint 都 会 将 日 志 以 Write 
Through 模 式 写 盘 ， 由 于 Bypass 了 FS 的 缓存 ，FS 来 不 及 做 过 多 优化 ， 所 








以 造成 对 底层 的 IO 过 频 ， 影 响 性 能 。 另 外 ， 保 证 卷 1TO Queue 随 时 充满 、 
异步 操作 等 ， 都 是 榨取 撒 层 存储 系统 性 能 的 有 效 方式 。 





19.1.3” 卷 管理 层 


卷 管 理 层 在 茶 种 程度 上 来 讲 是 为 了 弥补 确 层 存储 系统 的 一 些 不 足 之 
处 的 ， 比 如 LUN 空 间 的 动态 管理 等 。 卷 管理 层 最 大 的 任务 是 做 Block 级 
的 映射 ， 对 于 IO 的 处 理 ， 卷 层 只 是 做 了 一 个 将 映射 翻译 之 后 的 IO 同 下 转 
发 的 动作 以 及 反 回 过 程 。 另 外， 应 用 程序 可 以 直接 对 茶 个 卷 进 行 IO 操作 
而 不 经 过 文件 系统 。 











注意 : 这 里 的 不 经 过 文件 系统 并 不 是 说 Bypass 系 统 内 核 缓 存 的 
Direct IO， 而 是 完全 不 需要 FS 处 理 任 何 块 映射 关系 。 这 时 就 需 
要 由 应 用 程序 目 行 管理 底层 存储 空间 ， 而 且 此 时 不 能 对 这 个 卷 
进行 FS 格式 化 或 者 其 他 未 经 应 用 程序 允许 的 更 改 操作 ， 一 旦 发 
生 将 导致 数据 被 破坏 。 











卷 管 理 层 将 底层 磁盘 空间 虚拟 化 为 灵活 管理 的 一 块 块 的 卷 ， 然 后 又 
将 卷 同时 抽象 为 两 种 操作 系统 设备 : 块 设 备 和 字符 设备 。 比 如 在 AIX 系 
统 下 ，/dev/lv、/dev/fslv、/dev/hdisk 等 字样 表示 块 设备 ， 

而 /dev/rlv、/dev/rfslv、/dev/rhdisk 等 带 有 r 字 样 的 设备 一 般 就 是 字符 设 
备 。 同 一 个 物理 设备 会 同时 被 抽象 为 字符 和 块 两 种 逻辑 设备 。 用 户 程 序 
可 以 直接 对 块 设 备 和 字符 设备 进行 IO 操作 。 这 两 个 设备 也 是 用 于 上 层 程 
序 直 接 对 卷 进行 访问 的 唯一 接口 ， 有 各 自 的 驱动 一 一 块 设备 驱动 和 字符 
设备 驱动 ， 在 IO 路 径 的 层 层 调 用 过 程 中 ，IO Manager 访 问卷 的 时 候 其 实 
就 是 访问 对 应 的 设备 驱动 (这 一 点 在 系统 IO 模 块 架构 图 中 并 没有 体 

现 ) ， 回 它们 发 起 SystemCall 的 。 











1. 块 设备 





在 UNIX 类 操作 系统 下 ， 块 设备 表现 为 一 个 文件 ， 而 且 应 用 程序 可 
以 向 块 设备 发 起 任何 长 度 的 IO， 就 像 对 文件 进行 IO 时 一 样 ， 比 如 
512B、1500B、5000B 等 ，IO 长 度 可 以 为 任何 字 节 ， 而 不 需 为 磁盘 而 区 
的 整数 倍 。 然 而 ， 块 设备 也 是 由 底层 物理 设备 抽象 而 来 的 ， 而 底层 物理 
设备 所 能 接受 的 IO 长 度 必 须 为 扇 区 的 整数 倍 。 所 以 块 设备 具有 一 个 比较 
小 的 缓存 来 专门 处 理 这 个 映射 转换 关系 。 





块 设备 一 般 使 用 Meomory Mappin 的 方式 被 映射 到 内 存 地 址 空间 ， 
这 段 空 间 以 Page〔 一 般 为 4KB)〉 为 单位 ， 所 以 访问 块 设备 束 需 要 窑 扯 到 
OS 缺 页 处 理 (Page Fault) 方式 来 读 写 数据 。 比 如 应 用 程序 向 某 个 块 设 
备 卷发 起 一 个 长 度 为 1500B 的 IO 读 ， 卷 管理 层 接收 到 这 个 IO 之 后 将 计算 
这 个 1500B 的 IO 所 占用 的 扇 区 总 数 以 及 所 落 入 的 Page 地 址 ， 并 且 进 入 缺 
页 处 理 流 程 从 底层 物理 设备 将 这 个 Page 对 应 的 扇 区 读 入 ， 这 里 的 IO 请 求 
为 1500B， 所 以 OS 会 从 底层 物理 设备 读 取 对 应 的 1 个 Page 大 小 的 数据 进 
入 缓存 ， 然 后 从 缓存 中 再 将 对 应 的 1500B 返 回 给 应 用 程序 。 











应 用 程序 对 块 设备 发 起 读 IJO， 块 设备 就 得 同时 问 底 层 物理 设备 发 起 
对 应 的 转换 后 的 IO， 不 管 应 用 程序 向 块 设备 发 起 多 少 长 度 的 IO， 块 设备 
向 底层 物理 设备 所 发 起 的 IO 长 度 总 是 恒定 的 〈 一 般 为 4KB， 即 缓存 Page 
大 小 ) 。 所 以 块 设备 向 底层 物理 设备 发 起 的 读 IO 属 性 永远 为 小 块 IJO， 而 
且 对 同一 个 线程 发 起 的 IO 不 会 并 发 只 能 顺序 ， 对 多 个 线程 共同 发 起 的 IO 
才 会 并 行 ， 也 就 是 说 每 个 线程 在 底层 的 IO 都 为 顺序 执行 《限于 读 IO) 。 
这 一 点 是 块 设备 非常 致命 的 缺点 ， 比 如 一 个 应 用 程序 256KB 的 读 IO 操 
作 ， 会 被 块 设备 切 开 成 为 64 个 4KB 的 读 IO 操 作 ， 这 无 疑 是 非常 浪费 的 ， 
会 更 快 地 耗 尽 底层 存储 的 标 称 IOPS。 但 是 对 于 写 IO 来 讲 ， 块 设备 底层 








会 有 一 定 的 merge_request 操 作 ， 即 可 以 对 写 IO 进 行 合 并 、 禾 关 、 重 排 等 
操作 ， 这 方面 内 容 详 见 下 面 的 章节 。 





我 们 来 举例 说 明 一 下 。 下 列 数据 为 在 AIX 系 统 上 使 用 IO 测试 工具 对 
一 个 块 设备 〈/dewfslv01) 进行 IO  ” Size 为 0.5KB、1KB、2KB、4KB、 
8KB、16KB、513B 的 单线 程 顺 序 连 续 IO 读 操作 时 ， 在 存储 系统 端 统计 
的 结果 。 其 中 Read Ops 表 示 每 秒 读 操 作 数 ，Read KB 表示 每 秒 读 带宽 否 
吐 量 ，Queue Length 表 示 当 前 LUN (/vo/LUN/LUNaix)〉 的 IO Queue 中 的 
IO 数 。 我 们 可 以 发 现 ， 不 管 哪 一 组 的 测试 数据 ， 用 带宽 除 以 IOPS 得 出 
的 IO Size 恒定 为 4KB， 也 就 表示 主机 向 存储 系统 《〈 块 设备 向 底层 物理 设 
备 ) 发 起 的 读 IO Size 恒 定 为 4KB。 


其 实 UNIX 类 系统 下 的 块 设备 与 文件 系统 管理 下 的 一 个 文件 无 异 ， 
唯一 区 别 就 是 直接 对 块 设备 进行 IO 操作 的 话 ， 无 须 执行 文件 一 块 映射 碍 
询 而 已 。 


该 操作 对 于 块 设备 来 讲 还 不 至 于 产生 太 过 恶劣 的 性 能 影响 ， 而 写 IO 
则 会 更 加 严重 地 摧残 存储 设备 的 性 能 。 由 于 块 设备 向 底层 发 起 的 所 有 IO 
均 以 缓存 Page 大 小 为 单位 ， 现 代 操 作 系 统 的 Page 一 般 为 4KB 大 小 ， 如 果 
某 应 用 程序 需要 写 入 0.5KB 数 据 ， 或 者 4.5KB 数 据 ， 那 么 很 可 怕 ， 块 设 
备 不 能 直接 把 对 应 长 度 的 数据 直接 写 入 底层 设备 ， 而 必须 先 读 入 这 个 IO 
占用 的 4KB 单 位 Block， 然 后 修改 之 ， 然 后 再 将 数据 写 回 到 底层 设备 。 
其 浪费 可 谓 是 惊人 而 且 无 法 容忍 的 ! 我 们 来 看 一 个 例子 。 下 列 数据 显示 
了 AIX 系 统 上 使 用 IO 测试 工具 对 一 个 块 设备 进行 4096B、2000B、 
2048B、5000B 写 IO 时 系统 底层 发 回 物 理 磁盘 的 IO 统 计 情 况 如 图 19-55 所 
示 ， 程 序 发 起 写 IO 时 ， 不 对 齐 4KB 的 IO Size 会 导致 0S 首 先 读 入 对 应 的 
Page 数 据 ， 修 改 ， 然 后 再 写 入 对 应 的 Page 数 据 。 所 以 可 以 看 到 写 动作 伴 
随 了 一 定 程度 的 读 动作 ， 也 就 是 写 惩罚 。 








图 19-55” 块 设备 写 IO 测 试 


如 图 19-56 所 示 ， 当 程序 向 块 设 5 Pa 和 和 人 
备 发 起 从 0 地 址 开始 的 2000B 单 位 的 
连续 写 IO 时 ， 在 接收 到 第 一 个 IO 请 求 之 后 ，OS 内 核 必须 首先 从 磁盘 读 
出 Pagel 到 缓存 ， 然 后 将 前 2000B 内 容 在 缓存 中 履 盖 为 程序 所 IO 的 内 容 ， 
然后 再 将 修改 后 的 Page1l 写 入 磁盘 ; 


sn OS 接 收 到 第 二 个 IO 之 后 ， 由 于 第 二 个 IO 是 请 求 从 1999 一 3999 这 
段 地 址 ， 依 然 钞 入 Page1， 所 以 OS 还 需要 再 次 读 入 Page1， 但 是 此 
时 需要 考虑 以 下 两 种 情况 。 

Pagel 当 前 最 新 的 数据 应 为 第 一 次 IO 所 修改 的 数据 ， 如 果 第 一 次 
IO 的 Pagel 疝 未 被 写 入 磁盘 而 依然 在 缓存 中 ， 那 么 此 时 OS 必 须 在 
绥 存 中 将 最 新 的 Page1 数 据 保留 为 第 二 次 IO 使 用 ， 同 时 又 不 影响 
第 一 次 IO 的 Pagel 的 写 盘 动作 。 这 样 ， 这 个 读 请 求 就 算 Cache Hit 
了 ， 就 不 需要 从 物理 磁盘 读数 据 。 





如 果 在 第 二 次 IO 发 起 之 前 第 一 次 IO 的 Pagel 已 经 被 写 入 磁盘 ， 那 么 
第 二 次 IO 必 须 从 磁盘 读 入 Pagel 然 后 执行 与 第 一 次 IO 相 同 的 过 程 。 第 三 
次 IO 情况 就 更 复杂 了 ， 由 于 第 三 次 IO 的 地 址 为 4000 一 5999 这 段 地 址 ， 跨 
越 了 两 个 Page，4000 一 4095 地 址 沙 入 了 Pagel，4096 一 5999 地 址 段落 入 
了 Page2， 那 么 此 时 OS 内 核 必须 同时 读 入 Pagel 和 Page2， 同 时 修改 然后 
同时 写 入 磁盘 。 同 理 ， 如 果 IO _ Size 选择 为 5000B 等 ， 还 有 可 能 发 生 同 时 
跨越 3 个 Page 的 ， 那 写 惩 避 会 更 大 。 





细心 的 读者 可 能 会 及 现 ， 即 使 上 层 IO 不 是 4KB 对 齐 的 情况 下 ， 底 层 


的 IO 应 该 也 都 是 4KB 对 齐 的 ， 因 为 不 管 谈 还 是 写 都 是 以 Page 为 单位 ， 但 
是 为 何在 图 19-55 的 结果 中 用 KBPS 一 栏 的 值 除 以 4 却 除 不 尽 呢 ? 这 个 问 
题 很 好 ， 确 层 的 IO 并 不 是 4KB 对 齐 的 原因 ， 是 因为 在 块 设备 驱动 处 ， 
OS 做 了 Merge_request， 对 此 下 面 的 章节 会 有 详细 描述 。 





系统 IO 路 径 中 的 读 惩罚 和 写 惩罚 : ”在 系统 IO 路 径 中 ， 有 多 处 
可 以 发 生 读 惩罚 和 写 惩 避 ， 其 中 包括 文件 系统 层 、 卷 管理 层 、 
块 设备 层 和 底层 RAID 管 理 层 等 位 置 。 所 谓 “ 惩 者? 就 是 说 要 完 
成 某 件 事 ， 必 须 付 出 一 些 额外 的 牺牲 和 浪费 。 到 底 什 么 情况 下 
会 出 现 惩 加 呢 ? 

读 惩罚 :” 当 某 个 读 IO 请 求 的 IO Size 不 可 被 OS Page Size 或 者 
Disk ”SectorSize 任 何 一 个 除 尽 为 整数 时 ， 这 个 读 请 求 束 会 产生 
读 惩 训 ， 但 是 可 被 除 尽 并 不 代表 一 定 就 不 产生 惩 估 。 比 如 某 个 
IO 的 IO _ Size 为 从 Offset 0 开始 读 后 续 的 512B， 则 怎么 都 好 说 ， 
退 一 万 步 讲 ， 如 果 这 个 IO 是 针对 某 个 文件 的 ， 而 所 请 求 的 这 上 段 
数据 恰好 就 在 磁盘 一 整个 扇 区 上 ， 那 么 OS 只 要 将 对 应 磁盘 上 
的 这 个 扇 区 的 内 容 读 出 来 即 可 ， 上 下 一 一 对 应 ， 没 有 浪费 ， 而 
如 果 这 个 IO 的 起 始 Offset 不 为 0， 比 如 为 5， 那 么 就 很 那 门 了 ， 
FS 在 分 配 文件 占用 空间 的 时 候 是 以 512B 对 齐 的 ， 从 0 开始 往 后 
的 512B〈 包 括 0) 就 一 定 会 对 应 到 底层 磁盘 的 1 个 扇 区 上 ， 但 是 
如 有 果 从 5 开始 往 后 的 512B， 束 一 定 不 会 只 落 在 一 个 忆 区 上 ， 肯 
定 是 跨 两 个 扇 区 ， 那 么 此 时 OS 就 不 得 不 读 出 这 两 个 扇 区 来 ， 
从 其 中 各 自 取 出 对 应 这 个 IO 的 部 分 ， 然 后 合 起 来 回 传 给 程序 。 
并 且 ，OS 内 核 往往 都 是 以 Page 为 单位 ， 也 就 是 读 出 IO 地 址 段 
所 落 入 的 整个 或 者 多 个 Page。 

具体 惩罚 的 细节 与 不 同 操 作 系 统 有 关 ， 按 照 系统 内 核对 IO 请 求 
的 计算 处 理 过 程 不 同 ， 一 定 条 件 下 是 否 产生 、 产 生 多 少 程度 的 




















读 答 罚 随 OS 不 同 而 不 同 ， 随 着 调用 的 方式 不 同 而 不 同 。 比 如 
同样 为 1KB 的 读 IO， 如 果 针 对 FS ”Block 二 1KB 的 文件 系统 进行 
越过 绥 存 的 DIO， 那 么 就 不 会 产生 读 征召; 同样 的 IKB 的 IO 
Size， 如 果 和 针对 某 个 块 设备 进行 IO， 那 么 就 会 产生 额外 3KB 的 
浪费 的 读 (内 核 会 读 出 底层 的 1 个 Page 也 就 是 4KB 大 小 的 数据 
来 对 应 这 个 IO) 。 

写 惩 罚 : 当 某 个 写 IO 请 求 的 IO Size 不 可 被 FS Block、OS Page 
Size 或 者 Disk Sector Size 任 何 一 个 除 尽 为 整数 时 ， 必 定 会 产生 
写 惩罚 。 写 惩罚 程度 同样 随 OS 的 不 同 而 不 同 ， 也 随 调用 方式 
的 不 同 而 不 同 。 写 惩罚 的 表现 是 既 有 额外 读 操作 ， 又 有 额外 写 
操作 ， 比 读 惩罚 浪费 更 多 的 资源 。 比 如 某 个 程序 发 起 一 个 
Offset 0 开始 的 513B 的 读 IO， 恰 好 比 一 整个 忆 区 多 了 1B， 但 是 
底层 又 不 可 能 只 写 1B 给 磁盘 ， 磁 盘 接 受 的 必须 是 扇 区 整数 倍 的 
IO Size， 那 么 此 时 唯一 办 法 就 是 写 两 个 而 区 ， 第 一 个 是 0 一 511 
这 512B， 然 后 再 写 入 512~1023 这 后 512B， 剩 余 的 那 1B 就 是 这 
后 512B 的 第 1 个 字 市 ， 那 么 对 于 后 512B 中 减 掉 这 1 字 市 剩余 的 
511B 的 数据 ， 我 们 只 能 先 从 磁盘 将 后 512 字 节 对 应 的 扇 区 读 出 
来 ， 将 第 1 个 字 节 内 容 替 换 成 程序 IO 所 给 的 内 容 ， 然 后 再 将 这 
个 扇 区 写 回 去 。 这 就 是 写 惩 罚 ， 既 多 了 511B 的 读 ， 又 多 了 
511B 的 写 。 

读 征 罚 和 写 惩罚 的 例子 在 本 章 下 面 的 章节 随处 可 见 。 





























2 字符 设备 


传统 的 字符 设备 本 来 是 专 指 一 类 接受 字符 流 的 设备 比如 物理 终端 、 
键盘 等 ， 这 种 设备 的 特点 是 可 以 直接 对 设备 进行 最 底层 的 操作 而 不 使 用 
绥 存 (但 是 必须 有 Queue) ， 而 且 每 次 IO 必须 以 一 个 字符 为 单位 〈 卷 所 








抽象 出 来 的 字符 设备 以 一 段 连续 而 区 为 一 个 单位 ) 。 所 以 具有 这 种 特点 
的 实际 设备 或 者 抽象 设备 都 被 称 为 字符 设备 。 而 将 卷 抽象 为 字符 设备 并 
不 是 说 将 IO 从 书 区 改 为 字符 ， 而 只 是 抽象 出 字符 设备 所 具有 的 特点 。 


在 任何 操作 系统 下 ， 对 字符 设备 进行 IO 操作 必须 遵循 底层 的 最 小 单 
位 对 齐 规则 ， 比 如 对 于 卷 字 符 设 备 来 讲 ， 每 个 IO 长 度 只 能 是 扇 区 的 整数 
倍 ， 如 果 IO 长 度 没有 以 扇 区 为 单位 对 齐 〈 比 如 513、1500) ， 那 么 将 会 
收 到 错误 通知 而 失败 。 虽 然 UNIX 类 操作 系统 下 的 字符 设备 也 表现 为 一 
个 文件 ， 但 是 这 个 文件 却 不 像 块 设备 一 样 可 以 以 任意 字 节 进行 ID， 因为 
OS 没 有 为 字符 设备 设置 任何 缓存 〈 但 是 存在 Queue) 。 











字符 设备 的 一 个 最 大 好 处 是 可 以 友 起 底层 协议 允许 的 
(SCSIATA，256KB ) 任意 而 区 倍数 长 度 的 IO 而 且 可 以 完全 透 传 上 层 
应 用 程序 的 IO。 所 以 字符 设备 可 以 对 底层 对 应 的 物理 设备 发 起 任何 属性 
的 OO， 比如 大 块 连续 并 发 IO， 这 样 束 非常 好 地 适 配 了 上 层 应 用 程序 对 IO 
的 要 求 ， 可 以 获得 很 高 的 性 能 。 字 符 设 备 是 一 个 设备 最 底层 的 抽象 ， 其 
本 质 等 于 物理 设备 本 喘 。 下 面 的 测试 数据 说 明了 上 述 结论 。 

















从 上 面 的 结果 可 以 看 到 ， 底 层 发 出 的 IO 长 度 与 应 用 层 发 起 的 IO 长 度 
一 一 对 应 。 


3. 裸 设备 与 文件 系统 之 争 


字符 设备 又 被 称 为 裸 设备 。 应 用 程序 可 以 选择 使 用 文件 系统 提供 的 
各 项 功能 进行 对 文件 的 IO 操作 ， 当 然 也 可 以 选择 直接 对 裸 设 备 进行 IO 操 
作 ， 只 不 过 直接 对 裸 设备 操作 需要 应 用 程序 自行 维护 数据 一 山区 映 冉 以 
及 预 读 缓存 、 写 缓存 、 读 写 优 化 等 。 比 如 数据 库 类 程序 自身 都 具有 这 些 
功能 ， 所 以 没有 必要 再 使 用 文件 系统 来 读 写 数据 。 而 由 于 块 设备 的 诸多 

















不 便 和 恶劣 性 能 影响 ， 不 推荐 直接 使 用 。 那 基于 文件 系统 的 IO 和 基于 裸 
设备 的 IO 方 式 到 后 绿 优 新 务 呢 ? 我 们 就 此 讨论 一 下 。 











文件 系统 拥有 诸多 优点 是 她 庸 置疑 的 ， 但 是 对 于 某 一 类 程序 ，FS 提 
供 的 这 些 “ 方 便 ? 的 功能 似乎 就 显得 很 有 局 限 性 了 ， 比 如 绥 存 的 管理 等 ， 
由 于 文件 系统 是 一 个 公用 平台 ， 同 时 为 多 个 应 用 程序 提供 服务 ， 所 以 它 
不 可 能 只 为 一 个 应 用 程序 而 竭尽 全 力 服务 ; 况且 最 重要 的 是 ，FS 不 会 感 
知 应 用 程序 实际 想 要 什么 ， 而 且 FS 自 身 的 缓存 在 系统 异常 Down 机 后 还 
容易 造成 数据 不 一 致 情况 的 发 生 。 其 次 ， 使 用 绥 存 的 IO 方式 下 ， 对 于 读 
请 求 ， 系 统 IO 路 径 中 的 各 个 模块 需要 将 数据 层 层 问 上 层 模 块 的 缓存 中 复 
制 ， 最 后 才 会 被 0S 复 制 到 用 户 程 序 缓存 ， 对 于 写 请 求 ， 虽 然 缓 存 I0 方 
式 下 ， 写 数据 被 0S 接 受 后 即 宣告 完成 ， 但 这 也 是 造成 Down 机 后 数据 于 
失 的 主要 原因 之 一 。 所 以 ， 对 于 大 数据 吞吐 量 IO 请 求 ， 避 免 内 存 中 多 余 
的 数据 复制 步骤 是 有 必要 的 《此 外 还 有 另外 一 个 原因 在 下 面 章节 介 
绍 ) 。 但 是 对 于 一 般 的 程序 ， 是 完全 推荐 使 用 文件 系统 进行 IO 操作 的 。 









































另外 一 个 最 重要 的 原因 ， 在 使 用 内 核 缓存 以 及 文件 系统 缓存 的 情况 
下 ， 容 易 发 生 读 写 惩 训 ， 这 是 非常 严重 的 浪费 。 








对 于 这 类 对 IO 性 能 要 求 非常 高 而 且 对 缓存 要 求 非常 高 的 程序 ， 它 们 
宁愿 自己 直接 操作 欣 层 物理 设备 ， 也 不 愿意 将 IO 交 给 FS 来 处 理 。 这 类 程 
序 的 典型 代表 就 是 数据 库 类 程序 。 虽 然 这 些 程序 也 可 以 使 用 文件 系统 来 
进行 IO 操作 ， 但 是 这 个 选择 只 会 给 程序 带 来 一 个 方面 的 好 处 ， 那 就 是 文 
件 管理 会 方便 ， 比 如 可 以 看 到 数据 文件 实 实在 在 地 被 放 在 某 个 目录 下 ， 
可 以 直接 将 数据 文件 复制 出 来 做 备份 ， 做 文件 系统 快照 保护 等 。 而 选择 
文件 系统 所 带 来 的 坏处 也 是 不 少 的 ， 比 如 最 大 的 务 势 束 是 重复 绥 存 预 
读 ，FS 预 读 了 数据 ， 数 据 库 程 序 依然 自己 维护 一 个 预 读 缓存 ， 这 两 个 绥 
存 里 面 势 必 有 很 多 数据 是 重复 的 ， 增 加 了 许多 空间 和 计算 资源 开销 ， 而 
































且 这 些 数据 不 见得 都 会 产生 Cache Hit 效 果 。 所 以 这 类 程序 宁愿 使 用 裸 设 
备 上 自行 管理 数据 存储 和 数据 [OQ， 所 带 来 的 唯一 缺点 就是 数据 管理 很 不 方 
便 ， 除 了 程序 自身， 其 他 程序 只 看 到 了 一 块 光 秃 苑 的 裸 设 备 在 那儿 ， 里 
面 放 的 什么 东西 ， 怎 么 放 的 ， 只 有 程序 自己 知道 。 


4. DirectI0 与 裸 设 备 之 争 


有 没有 一 种 方法 能 够 结合 FS 和 裸 设备 帝 来 的 优点 呢 ? 有 的 。 为 了 既 
享受 文件 系统 管理 文件 的 便利 同时 而 又 不 使 用 FS 层面 的 缓存 ， 将 缓存 和 
IO 优化 操作 全 部 交 给 应 用 程序 自行 处 理 ，FS 只 负责 做 文件 一 扇 区 映射 操 
作 以 及 其 他 文件 管理 层面 的 操作 ， 节 约 内 存 耗费 以 及 提高 处 理 速度 。 操 
作 系 统 内 核 提供 了 一 类 接口 ， 也 就 是 前 文中 出 现 的 
FILE_FLAG_NO_BUFFERING 参 数 。 当 然 ， 这 个 参数 只 是 Windows 内 核 
提供 的 ， 其 他 操作 系统 也 都 有 类 似 的 参数 。 这 种 Bypass 系 统 内 核 缓存 的 
IO 模式 统称 为 DIO， 即 Direct IO 模式 。 在 UNIX 类 系统 下 ， 在 Mount 某 个 
FS 的 时 候 可 以 指定 “-direct” 参 数 来 表示 任何 针对 这 个 FS 的 IO 操作 都 将 不 
使 用 内 核 路 径 中 任何 一 处 缓 在。 当然， 也 可 以 在 应 用 程序 层 控制 ， 比 如 
打开 文件 时 给 出 O_SYNC 或 者 O_DIRECT、 
FILE_FLAG_NO_BUFFERING 之 类 的 参数 ， 那 么 不 管 目标 FS 在 mount 时 
给 出 了 何 种 参数 ， 这 个 程序 的 IO 都 将 不 使 用 文件 系统 缓存 。 











注意 : ”由 于 内 核 的 DIO 模 式 只 是 Bypass 了 缓存， 其 他 任何 接口 
均 未 变 ， 所 以 DIO 模 式 下 ， 内 核 文 件 系统 允许 应 用 程序 对 文件 
做 出 非 DIO 模 式 下 相同 的 任何 操作 ， 包 括 读 写 任意 字 节 长 度 的 
文件 数据 (Windows 除 外 ， 见 前 文 )》， 而 这 种 貌似 “透明 且 便 

利 ” 的 接口 ， 恰 恰 依 然 还 会 带 来 读 写 惩 基 。 

注意 : ”在 Windows 系 统 下 ， 如 果 应 用 程序 选择 不 使 用 系统 组 








存 ， 则 应 用 程序 自身 的 缓存 必须 为 底层 存储 介质 而 区 的 整数 倍 
大 小 《完全 按照 底层 设备 要 求 的 IO 长 度 单 位 ， 内 核 在 接收 到 用 
户 程序 IO 时 并 不 做 检查 ， 直 接 交 给 底层 驱动 ， 如 果 底 层 驱 动用 
现 这 个 IO 长 度 并 不 符合 它 的 要 求 ， 那 么 会 一 层 层 向 上 报错 直到 
用 户 程序 。 如 果 底 层 驱 动 为 NIR 驱 动 〈( 见 上 文 ) ， 那 么 由 于 诸 
如 CIFS 之 类 协议 规定 IO 长 度 甚至 可 以 为 0B， 上 所 以 底层 使 用 
使 用 DIO 模 式 的 用 户 程序 可 以 发 起 不 规则 长 度 的 
， 因 为 越过 了 系统 内 核 缓存 ，OS 将 直接 将 应 用 程序 自身 
0 | 间 。 而 底层 IO 设 备 都 要 求 目 
标 内 存 空 间 必 须 为 扇 区 整数 倍 ， 即 扇 区 对 齐 ， 所 以 应 用 程序 在 
运行 时 被 推荐 使 用 OS 提 供 的 特殊 函数 功能 来 为 自己 分 配 内 存 
最 为 保险 。 另 外 ， 应 用 程序 发 送 的 IO 请 求 中 地 址 段 也 必须 为 下 
层 卷 扇 区 或 者 块 的 整数 倍 (AIX 系 统 下 可 以 发 送 任意 长 度 
IO) 。 
在 Windows 系 统 下 ， 程 序 如 果 选 择 使 用 DIO 模 式 ， 那 么 操作 系 
统 会 生成 一 份 Memory Descriptor List (MDL ) ， 将 对 应 指针 传 
递 给 底层 设备 驱动 程序 并 且 在 IRP〈( 见 下 文 ) 中 通知 驱动 程序 
本 次 IO 使 用 DIO 模 式 ， 同 时 锁定 应 用 程序 自 映 缓存 中 对 应 本 次 
IO 的 Page。 驱 动 程序 使 用 MDL 直 接 对 应 用 程序 内 存 进行 访 
问 。 这 也 是 为 何在 Windows 系 统 下 选择 DIO 模 式 的 程序 自身 组 
存 以 及 IO Size 必 须 为 忆 区 整数 倍 的 原因 。 本 章 后 面 会 介绍 
Windows 下 DIO 的 详细 步 驰 。 
Windows 下 的 DIO 模 式 (FILE_FLAG_NO_BUFFERING) 是 彻 
底 的 透 传 上 层 请 求 的 (不 管 FS Block 是 多 少 ， 上 层 IO 请 求 包含 
多 少 个 局 区 长 上 度 ，OS 会 疝 底层 物理 设备 发 起 对 应 的 司 区 长 度 
的 IO) ， 而 AIX 下 则 不 是 。 但 是 Windows 下 的 DIO 模 式 也 要 求 
程序 发 起 的 IO 必须 为 底层 存储 介质 最 小 单位 的 整数 倍 《〈CIFS 方 























式 除 外 ， 见 前 文 ) ， 而 AIX 下 则 可 以 为 任意 长 度 。 也 正 因为 如 
此 ，Windows 才 可 以 透 传 应 用 层 的 IO 请 求 ，AIX 由 于 允许 应 用 
层 IO 不 对 齐 ， 所 以 其 底层 也 不 可 能 透 传 应 用 层 的 IO。 


在 AIX 系 统 下 ， 虽 然 O0S 允 许 程序 在 DIO 模 式 下 发 起 任意 字 节 长 度 的 
IO， 但 是 由 于 底层 物理 设备 只 能 接受 局 区 对 齐 的 IO 长 度 ， 像 块 设备 IO 一 
样 ， 这 之 间 存 在 一 个 转换 关系 ， 内 核 自 动 将 不 对 齐 的 IO 转 换 为 底层 对 齐 
的 IO， 完 成 这 个 动作 需要 一 小 部 分 的 缓存 。 对 于 读 IO 操 作 ， 最 差 的 情况 
为 应 用 程序 如 果 每 次 IO 只 读 取 1B 的 内 容 ， 那 么 这 个 IO 到 了 底层 便 会 变 
为 对 物理 设备 4KB 的 读 IO 操 作 ， 当 取 回 数据 之 后 ，OS 只 返回 给 应 用 程 
序 所 读 取 的 那 1B 的 内 容 ， 然 后 将 读 入 的 4KB 内 容 从 缓存 中 删除 ， 即 多 耗 
费 了 4096 倍 的 IO 操作 和 4096 倍 的 带宽 。 如 果 使 用 内 核 文 件 系 统 缓存， 那 
么 这 种 浪费 是 不 存在 的 ，FS 可 以 直接 从 预 读 缓存 中 将 对 应 的 字 节 直接 返 
回 给 应 用 程序 。DIO 模 式 与 块 设备 IO 模 式 在 多 数 情况 下 效果 类 似 。 











下 面 的 例子 显示 了 AIX 系 统 下 对 一 个 DIO 模 式 Mount 的 FS 进行 以 
0.5KB 的 IO Size 为 单位 递增 的 读 测 试 数据 。 


可 以 看 到 ，DIO 模 式 对 应 的 底层 IO Size 并 不 与 应 用 层 IO Size 一致， 
但 是 DIO 模 式 与 块 设备 IO 模 式 有 一 些 区 别 。 比 如 块 设备 IO 模 式 下 只 有 在 
应 用 层 IO Size 二 Page Size 时 ， 底 层 与 上 层 的 IO 才 是 一 一 对 应 的 ;而 DIO 
模式 下 ， 只 有 在 应 用 层 IO Size 二 FS Block Size 时 ， 底 层 IO 才 是 与 上 层 一 
一 对 应 的 。 








与 块 设备 一 样 ， 对 于 DIO 模 式 下 写 操 作 最 差 的 情况 是 ， 应 用 程序 如 
果 每 次 IO 只 写 入 1B 的 内 容 ， 那 么 底层 会 首先 读 入 待 写 入 字 节 所 落 入 的 
4KB 块 到 缓存 ， 然 后 更 新 对 应 的 字 节 ， 然 后 再 将 更 新 后 的 4KB 块 写 入 物 
理 设 备 ， 多 耗费 了 底层 8192 售 的 带 宫 ,而且 这 其 中 有 一 半 的 耗费 为 写 操 





作 。 写 比 读 所 耗费 的 资源 更 多 ， 雪 上 加 霜 ， 这 种 情况 是 不 可 容忍 的 。 


下 面 的 例子 显示 了 AIX 系 统 下 对 一 个 DIO 模 式 Mount 的 FS 进行 以 
0.5KB 的 IO Size 为 单位 递增 的 写 测试 数据 。 与 块 设备 写 IO 相 同 ， 具 有 一 
定 规模 的 写 惩 罚 。 








所 以 ， 利 用 DIO 模 式 读 写 文 件 或 者 直接 读 写 块 设备 的 应 用 程序 一 定 
要 明确 自己 在 做 什么 ， 为 何 使 用 DIO，DIO 会 带 来 什么 。 但 是 只 要 程序 
发 起 的 IO 的 IO Size 是 FS Block 的 整数 倍 ， 那 么 就 不 会 浪费 资源 ， 也 就 是 
说 既然 选择 了 DIO， 就 要 在 应 用 层面 多 考虑 一 层 。 虽 然 可 以 与 访问 缓存 
模式 FS 同样 的 方法 访问 DIO 模 式 的 FS， 但 是 需要 底层 付出 巨大 代价 的 ， 
我 们 必须 从 源头 上 消除 这 种 代价 。 块 设备 也 一 样 。 这 方面 Windows 的 做 
法 是 强制 要 求 程 序 自 身 绥 在 和 IO_ Size 为 扇 区 整数 倍 ， 而 AIX 却 没有 强制 
要 求 ， 但 是 开发 者 必须 认识 到 这 一 点 。 所 以 ， 如 果 可 以 的 话 ， 对 于 数据 
库 类 程序 尽量 使 用 裸 设备 进行 IO, 一 了 百 了 。 














注意 :Write Through 与 FILE_FLAG_NO_BUFFERING 有 着 本 
质 区 别 : 前 者 模式 下 ， 数 据 依然 首先 进入 操作 系统 内 核 缓存 ， 
只 不 过 内 核 保 证 数据 被 写 入 磁盘 之 后 才 返 回 成 功 而 不 是 像 
Buffered IO 模式 下 只 要 数据 进入 内 核 绥 存 便 立 即 返回 成 功 ; 而 
后 者 则 表示 数据 根本 束 不 进入 内 核 缓存 ， 直 接 由 底层 驱动 从 用 
户 程 序 自 丑 绥 存 取 走 数据 从 而 写 入 底层 存储 介质 。 

这 二 者 看 似 效 果 类 似 ， 实 则 有 很 大 不 同 : 前 者 很 有 可 能 依然 导 
致 内 核 Page Fault 流程 导致 的 写 惩 如 ;而 后 者 则 不 会 有 内 核 层 
面 的 写 惩 吉 。 所 以 开发 者 需要 注意 了 ， 使 用 时 最 好 直接 选择 后 
者 而 不 是 前 者 。 有 些 IO 测试 软件 甚至 没有 使 用 NoBuffer 模 式 而 
只 用 了 WT 模 式 ， 殊 不 知 这 种 情况 下 根本 无 法 体现 出 底层 存储 
系统 的 真实 性 能 ， 由 于 读 写 惩 可 的 原因 导致 所 得 的 结果 总 是 过 





























低 ， 而 此 时 将 存储 站 的 IO 监测 数据 与 程序 得 出 的 数据 比较 就 会 
发 现 ， 底 层 存储 的 实际 否 吐 量 以 及 IOPS 都 可 能 远大 于 程序 所 报 
告 的 。 








关于 前 者 依然 产生 读 写 惩 鹿 的 问题 ， 前 文 Network IO0 一 节 的 闷 狂 实 
验 中 有 介绍 。 


注意 : ”这 里 请 注意 一 个 概念 问题 。 操 作 系 统 内 有 多 处 缓存 ， 
其 实 面 对 用 户 程 序 的 第 一 处 绥 存 并 不 是 通常 理解 的 “文件 系统 
缓存 "?， 而 是 一 处 被 称 为 “<SystemBuffer” 的 缓存 。 当 用 户 程序 选 
择 使 用 Cache IO 或 称 Buffered IO 时 ， 每 发 起 一 个 IO 请 求 ， 操 作 
系统 便 会 根据 程序 IO 请 求 的 数据 所 占用 内 存 的 大 小 在 操作 系统 
内 核 内 存 空间 同样 分 配 一 块 与 其 相同 大 小 的 内 存 用 来 充当 
SystemBuffer， 然 后 再 往 下 才 是 文件 系统 缓存 。 任 何 读 入 或 者 
写 入 的 数据 都 需要 经 过 SystemBuffer。 而 DIO 模 式 下 ， 操 作 系 
统 会 Bypass 首 个 缓存 ， 也 就 是 SystemBuffer， 同 时 也 通知 IO 路 
径 中 首 层 驱 动 使 用 DIO 模 式 ， 首 层 驱 动 程序 ( 包 括 文件 系统 也 
是 一 种 驱动 程序 ) 直接 从 用 户 程序 内 存 中 将 数据 取出 (对 于 写 
请 求 ) 或 者 送 入 《对 于 读 请 求 ) 。 下 面 的 章节 中 会 讲述 
Buffered IO 的 详细 过 程 。 














5. 关于 CIO 模 式 


某 些 文件 系统 ， 比 如 AIX 下 的 JES2， 采 用 读 共享 、 写 独占 的 方式 来 
处 理 多 个 进程 访问 同一 个 文件 的 情况 ， 即 如 果 多 个 进程 访问 同一 个 文 
件 ， 如 果 没 有 任何 进程 对 这 个 文件 进行 写 操作 ， 那 么 所 有 进程 都 可 以 同 
时 读 取 这 个 文件 的 任何 内 容 ; 但 是 一 旦 有 某 个 进程 在 对 这 个 文件 进行 写 
操作 ， 那 么 其 他 所 有 进程 都 将 被 禁止 访问 这 个 文件 ， 不 管 是 读 还 是 写 。 











这 样 充 分 保证 了 文件 数据 的 一 致 性 ， 保 证 所 有 进程 在 相同 时 刻 都 会 看 到 
相同 的 内 容 。 这 种 做 法 虽然 保证 了 数据 一 致 性 ， 但 是 FS 目 作 主张 的 这 个 
决定 只 是 对 一 些 没有 考虑 到 多 进程 并 行 访问 同一 文件 情况 的 应 用 程序 有 
效果 ， 对 于 那些 自身 己 经 对 这 种 情况 考虑 足够 充分 的 数据 库 类 程序 来 

讲 ，FS 的 这 个 做 法 不 但 是 多 余 的 ， 而 且 还 极 大 影响 性 能 ， 使 得 多 个 进程 
不 能 同时 并 友 写 同一 个 文件 而 只 能 串 行 地 进行 。 而 数据 库 类 程序 恰好 就 
和 要求 多 进程 多 线程 同时 写 一 个 文件 ， 比 如 人 负责 写 Log 文 件 的 进程 或 者 写 
数据 文件 的 进程 ， 这 些 进程 往往 都 有 多 份 复制 在 同时 执行 以 获得 最 大 的 
并 发 度 和 性 能 。 











针对 这 个 需求 ，AIX 系 统 下 的 JES2 文 件 系统 提供 了 另外 一 种 接口 ， 
称 为 CIO 模 式 ， 即 Concurrent IO， 这 种 模式 下 FS 将 不 再 自行 锁定 文件 ， 
而 是 完全 对 多 个 进程 放 开 对 文件 的 同时 访问 权限 ， 将 保证 数据 一 致 性 的 
员 任 完全 交 给 应 用 程序 执行 。 开 启 CIO 模 式 之 后 ，AIX 会 自动 强制 开启 
DIO 模 式 。 男 外 ， 如 有 果 同 时 打开 同一 个 文件 的 多 个 进程 中 有 一 个 或 多 个 
并 没有 在 打开 文件 时 指定 使 用 CIO 模 式 ， 那 么 OS 融 不 会 使 用 CIO 模 式 来 
操作 这 个 文件 ， 多 个 进程 之 间 仍 然 必 须 串 行 写 入 文件 ， 当 没有 使 用 CIO 
模式 的 进程 退出 后 ，OS 就 会 自动 使 用 CIO 模 式 来 操作 文件 。 还 有 ， 当 某 
个 进程 试图 对 某 个 被 多 进程 同时 打开 的 文件 进行 虚 写 IO 时 ， 也 就 是 没有 
更 改 文件 实际 内 容 而 只 是 更 改 一 些 文件 属性 ， 或 者 更 改 文件 长 度 等 操作 
时 ，OS 会 自动 将 CIO 模 式 失 效 而 恢复 原来 的 独占 模式 ; 当 操 作 完 成 后 ， 
会 恢复 CIO 模 式 。 





注意 : ”Windows 的 做 法 与 JFS2 不 同 ，Windows 提 供 一 种 指定 文 
件 访问 方式 的 API 参 数 ， 即 Share Mode， 程 序 在 打开 文件 的 时 
候 可 以 选择 使 用 何 种 Share Mode， 比 如 其 他 进程 只 读 、 其 他 进 
程 不 可 读 写 、 其 他 进程 可 读 写 、 其 他 进程 可 删除 等 。 所 以 


Windows 本 刁 就 已 经 可 以 实现 类 似 CIO 的 模式 ， 只 要 每 个 进程 


指定 可 读 写 Share Mode 即 可 。 
图 19-57 ”CIO 性 能 对 比 





在 使 用 CIO 模 式 之 后 ， 数 据 库 类 
程序 的 IO 性 能 将 会 与 裸 设备 IO 性 能 接近 。 如 图 19-57 所 示 为 CIO、DIO 和 
裸 设备 IO 性 能 之 间 的 对 比 曲 线 ， 可 以 看 到 由 于 单纯 DIO 模 式 下 不 可 并 
发 ， 造 成 系统 性 能 相对 裸 设备 差别 很 大 ， 而 CIO 模 式 下 则 差别 较 小 。 


对 于 数据 库 关 程序 ， 使 用 AIO 十 裸 设备 IO 模式 为 最 优 的 IO 模式 ， 可 
以 获得 最 大 的 性 能 。 如 果 考 虑 文件 管理 便利 性 方面 ， 则 可 以 退 而 求 其 次 
使 用 AIO 十 CIO 模 式 ， 也 可 以 在 获得 很 好 性 能 的 同时 又 不 失去 文件 系统 
市 来 的 好 处 。 








注意 :多 个 进程 利用 CIO 打 开 文 件 时 ， 请 确定 这 个 文件 最 好 是 
定 长 的 ， 即 进程 在 写 文 件 的 时 候 不 会 将 数据 退 加 到 文件 尾部 或 
者 插入 文件 中 部 或 者 对 文件 进行 truncate 等 造成 文件 大 小 改变 
的 操作 。 比 如 数据 库 的 Log 文 件 ， 数 据 库 的 Log 写 进程 一 般 都 
会 有 多 个 来 并 行 执 行人 妃 加 写 入 ， 如 果 Log 文 件 是 动态 增 大 的 ， 
那么 CIO 丝 坚 不 会 起 到 作用 ， 多 个 进程 也 没有 存在 的 意义 ， 所 
以 Log 文 件 都 是 在 创建 的 时 候 就 被 指定 了 一 定 长 度 而 且 是 被 重 
复 履 善 写 入 的 。 

DIO、CIO、AIO、SIO 之 间 的 关系 : AIO 和 SIO 是 指 程序 在 调 
用 OS 相 关 API 之 后 自身 的 动作 如 何 ， 阻 塞 还 是 不 阻塞 ， 而 DIO 
和 CIO 是 指 程序 在 调用 OS 相关 API 之 后 OS 内 核 的 动作 如 何 ， 是 
使 用 绥 存 还 是 越过 缓存 ， 是 并 发 写 入 还 是 串 行 号 入 。 程 序 可 以 
使 用 AIO 十 DIO、AIO 十 CIO、SIO 十 DIO、SIO 十 CIO 这 4 种 组 
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19.1.4 层 与 层 之 间 的 调度 员 : IO Manager 


IO Manager 或 称 IO Scheduler。 每 个 操作 系统 都 会 有 这 样 一 个 角色 ， 
它 专 门 负 贡 接 受 上 层 程序 的 IO 请 求 ， 然 后 将 IO 请 求 下 用 到 对 应 的 模块 和 
设备 驱动 中 执行 ， 然 后 将 结果 通知 给 上 层 程 序 。 当 某 个 程序 试图 访问 某 
个 文件 的 时 候 ， 它 其 实 并 没有 直接 和 文件 系统 模块 打交道 ， 而 只 是 在 与 
IO Manager 打 交道 。 








在 Windows 系 统 下 ，OS 将 文件 系统 模块 的 各 种 功能 接口 打包 为 一 个 
抽象 的 System Service， 比 如 对 于 文件 系统 打包 之 后 就 是 File Service， 对 
于 设备 管理 就 是 Device Service， 还 有 比如 Memory Management Service 
等 。 被 打包 之 后 的 Service 放 到 IO Manager 头 项 ， 任 何 程序 都 可 以 按照 这 
些 Service 提 供 的 API 来 进行 相关 的 调用 ， 比 如 打开 一 个 文件 的 操作 ， 
OpenO0。 上 所 有 的 System Service 调 用 动作 会 被 传递 给 IO ”Manager 进 行 处 
理 。 我 们 来 看 一 张 图 ， 如 图 19-58 所 示 为 Windows 系 统 IO 路 径 简 图 。 


图 19-58 中 一 共有 10 步 操作 ， 现 一 一 列举 如 下 。 





图 19-58 ”Windows 系 统 IO 路 径 简 图 





(1) 某 时 刻 ， 图 中 的 “Subsystem”， 这 里 就 是 指 某 个 应 用 程序 ， 问 
OS (System Service) 发 起 了 对 某 个 文件 对 象 ， 或 者 某 个 设备 的 Open 操 
作 ， 欲 打开 这 个 文件 或 者 设备 对 其 进行 进一步 的 操作 。 








(2) IO ” Manager 只 是 一 个 调度 和 代理 模块 ， 它 本 映 并 不 知道 上 层 
所 请 求 的 这 个 对 象 ( 文 件 或 者 设备 等 ) 到 底 存 放 在 哪里 ， 是 哪 一 类 的 对 
象 ， 文 件 还 是 设备 等 。 所 以 IO Manager 同 男 一 个 明日 人 儿 ， 也 就 是 
Object ”Manager 发 起 查询 请 求 以 获得 结果 。 同 时 ，IO Manager 也 会 问 
Securiy 模 块 来 查询 当前 应 用 程序 是 否 上 共有 访问 目标 对 象 的 权限 。 假 设 本 




















例 中 应 用 程序 Open 的 是 比如 “D:\Melonhead” 文 件 。 


(3) 本 例 中 的 目标 对 象 为 D 分 区 文件 系统 下 的 一 个 文 

件 “D:\Melonhead”，Object Manager 会 将 这 一 信息 返回 给 IO Manager (以 
下 简称 IOM) 。IOM 得 到 这 个 信息 之 后 首先 查看 对 应 的 分 区 或 者 卷 是 否 
已 经 被 挂 载 ， 如 果 尚 未 挂 载 ， 则 IOM 和 暂 挂 上 层 的 Open0 操 作 ， 转 而 首先 
尝试 让 文件 系统 挂 载 这 个 卷 。Windows 中 存在 多 种 文件 系统 模块 ， 比 如 
FAT32、NTFS、CDFS 等 ，IOM 会 依次 轮 询 地 尝试 让 每 个 文件 系统 模块 
来 挂 载 这 个 卷 ， 直 到 某 个 文件 系统 成 功 地 识别 到 了 卷 上 的 对 应 的 文件 系 
统 信息 并 将 其 挂 载 为 止 。FS 挂 载 之 后 ，IOM 继 续 执 行 Open(O) 请 求 。 























(4) IOM 为 这 个 请 求 分 配对 应 的 内 存 空间 ， 然 后 问 对 应 的 下 层 驱 
动 ( 这 里 是 文件 系统 驱动 ， 也 就 是 文件 系统 模块 本 映 ) 发 送 一 个 
IRP (IO Request Packet) ，IRP 中 包含 了 上 层 所 请 求 的 所 有 信息 以 及 完 
成 这 个 请 求 所 要 涉及 的 底层 所 有 驱动 链 (文件 系统 驱动 、 人 磁盘 设备 驱动 
等 ) 的 对 应 信息 。 关 于 IRP 的 具体 结构 以 及 具体 流程 见 下 文 。 





(5) IOM 将 生成 的 IRP 首 先 发 送 给 驱动 链 的 项 层 第 一 个 驱动 ， 这 里 
就 是 文件 系统 本 身 。 文 件 系统 收 到 IRP 之 后 ， 会 读 取 IRP 中 给 自己 的 信 
轧 ， 提 取出 操作 对 象 和 操作 内 容 ， 然 后 开始 操作 。 如 有 果 应 用 调用 时 未 指 
定 DIO 模 式 ， 则 文件 系统 当然 首先 要 得 询 是 否 请 求 的 对 象 数 据 已 经 位 于 
Cache 中 《本 例 中 应 用 请 求 Open0 一 个 文件 ， 所 以 这 里 的 目标 数据 就 是 
指 这 个 文件 的 Metadata，FS 要 读 入 这 个 文件 的 Metadata 后 才 可 以 啊 应 上 
层 的 Open0 操 作 ) ， 如 果 目 标 数据 恰好 位 于 Cache 中 ， 那 么 文件 系统 直 
接 完 成 这 个 IRP 请 求 ， 将 携带 有 IO 完成 标志 的 IRP 返 回 给 IOM 宣 告 完成 ， 
IOM 从 而 也 返回 给 应 用 程序 宣告 完成 。 如 果 Cache 未 命中 ， 则 FS 需要 从 
底层 的 磁盘 来 恋 取 目标 数据 ， 这 就 需要 FS 在 这 个 IRP 中 对 应 的 底层 设备 
驱动 信息 中 填 入 底层 设备 所 要 执行 的 动作 ， 比 如 读 取 某 某 LBA 段 的 内 容 

















等 ， 然 后 将 组 装 好 的 新 IRP 通 过 调用 IOM 提 供 的 功能 API 〈 详 见 下 文 ) 来 
将 它 发 送 至 位 于 FS 下 层 的 设备 驱动 处 。 





(6) 设备 驱动 接收 到 IRP 之 后 ， 与 文件 系统 做 相同 的 动作 ， 也 是 首 
先 从 IRP 中 找 出 给 上 自己 的 信息 ， 提 取出 操作 对 象 和 内 容 ， 然 后 操控 物理 
设备 执行 对 应 的 而 区 读 写 。 





(7) 当 驱 动 链 中 所 有 驱动 都 完成 各 目的 任务 之 后 ， 底 层 驱动 将 带 
有 完成 状态 标记 的 IRP 返 回 给 IOM。 





(8) IOM 收 到 这 个 IRP 之 后 ， 检 查 其 状态 标志 ， 如 果 是 成 功 完 成 ， 
则 将 会 通知 上 层 应 用 程序 打开 成 功 ， 并 且 返 回 给 程序 一 个 针对 这 个 文件 
对 象 的 File Handle。 


(9) IOM 将 这 个 IRP 清 除 。 


惜 


(10) IOM 返 回 一 个 File Handle 给 程序 ， 以 后 这 个 程序 就 需要 使 
这 个 Handle 来 对 这 个 文件 进行 其 他 操作 ， 比 如 写 、 读 、 删 等 等 ， 其 对 应 
的 IO 请 求 执 行 过 程 会 依照 上 述 步骤 进行 。 


可 以 看 到 ， 在 OS 内 核 中 ， 每 个 IO 请 求 都 是 以 IRP 为 载体 来 传递 的 。 
与 外 部 网 络 上 的 数据 包 相 同 ，IRP 包 只 不 过 是 在 内 存 中 传递 而 不 是 线 缆 
下 





如 图 19-59 所 示 为 IRP 包 的 数据 结 ”时 19-59 IRP 俩 科 
构 ， 其 中 右 侧 部 分 为 一 个 “IO Stack 
Location (IOSL) ”数组 的 放大 结构 。IOM 在 发 送 IRP 给 驱动 链 的 顶层 驱 
动 之 前 一 定 要 知道 完成 上 层 的 IO 需要 的 全 部 底层 和 角色， 比如 FS、 
Volume、Device Driver 等， 这些 角色 按照 发 生 作 用 的 先后 顺序 一 次 排列 





形成 一 个 自 上 而 下 的 驱动 链 ，IRP 在 被 IOM 初 次 组 装 时 ， 会 被 IOM 填 充 
入 一 个 或 者 多 个 IOSL。 驱 动 链 中 有 几 层 驱动 ，IRP 中 就 有 几 层 IOSL， 每 
层 驱 动 都 对 应 自身 的 IOSL。 








IOSL 中 包含 了 本 层 驱 动 应 该 做 的 事情 的 描述 ， 比 如 操作 的 目标 、 
何 种 操作 等 。IOSL 中 有 多 项 结构 用 来 对 其 进行 描述 ， 比 如 
IRP_MJ_CREATE (打开 ) 、IRP_MJ_READ ( 读 取 ) 、 

IRP_MJ_ WRITE ( 写 入 ) 、IRP_MJ_DEVICE_CONTROL (控制 指 
令 ) 、IRP_MJ_CLOSE (关闭 ) 等 。 其 中 MJ 表示 Major， 就 是 说 这 些 操 
作 都 是 本 层 驱 动 的 基本 功能 ， 这 些 基本 功能 在 图 中 表示 

为 “TRP_MJ_XXX”。 还 有 一 类 设备 自 定义 的 Minor 功 能 ， 都 集合 在 
IRP_MN_XXX 中 。 图 中 的 arguments 表 示 操 作 的 对 象 ， 比 如 所 要 操作 的 
数据 位 于 何 处 ， 长 度 是 多 少 等 。PtrDeviceObject 表 示 本 层 驱 动 对 应 的 设 
备 对 象 指针 ，PtrFileObject 表 示 符 操作 的 文件 对 象 指针 ， 这 个 项 目 只 对 
文件 系统 驱动 层 有 用 处 ， 其 他 层 一 般 不 使 用 这 一 项 。 

















在 图 中 左 侧 ， 我 们 可 以 看 到 这 个 IRP 中 包含 上 下 两 个 IOSL， 上 层 
IOSL 已 经 填充 了 FS 驱动 的 相关 操作 信息 ， 下 层 IOSL 尚未 空 。 说 明 这 个 
IRP 的 驱动 链 只 有 两 层 ， 顶 层 即 文件 系统 驱动 (FileSystemDriver， 
FSD)〉， 底 层 则 还 尚未 被 填充 ， 上 暗示 底层 驱动 一 定 是 存储 设备 驱动 ， 也 
同时 上 暗示 这 个 IRP 一 定 是 由 IOM 发 送 给 FSD 的 但 是 FSD 尚 未 做 出 处 理 。 











被 IOM 组 闭 好 的 了 P 初 次 被 发 送 到 驱动 链 顶层 〈 本 例 中 是 FS) 驱动 
模块 时 ， 只 有 顶层 的 IOSL 被 IJOM 寺 入， 其 他 层次 的 IOSL 为 空 ， 因 为 此 
时 只 有 IOM 知 道 应 用 程序 要 做 什么 ， 而 且 IOM 也 不 知道 FS 下 层 的 磁盘 驱 
动 要 操作 哪些 而 区 。 


顶层 驱动 模块 按照 IOM 盾 入 的 IOSL 信 息 执 行 对 应 的 操作 ， 如 果 发 现 





本 层 驱 动 的 操作 必须 转交 给 下 层 驱 动 来 完成 的 话 〈( 比 如 系统 内 核 缓存 未 
命中 必须 从 磁盘 来 读数 据 ) ， 那 么 本 层 驱 动 在 执行 对 应 的 映射 计算 后 
《比如 FS 将 文件 offset 映 射 为 磁盘 扇 区 段 ) ， 将 下 层 驱 动 所 要 执行 的 动 
作 信息 (比如 “ 读 入 LBA0~1024 的 数据 *”) 调用 IOM 提 供 的 IoAllocateIrp 
功能 函数 十 入 下 层 IOSL 中 (由 于 当前 驱动 并 不 会 自动 得 知 下 层 驱 动 的 
IOSL 位 于 整个 IRP 中 的 位 置 ， 所 以 需要 调用 IOM 提 供 的 
IoGetNextIrpStackLocation 功 能 函数 来 获取 ) 。 








填 好 之 后 ， 调 用 IOM 提 供 的 IoCallDrive 功 能 函数 将 填 好 的 IRP 发 送 
给 下 层 驱 动 〈 磁 盘 设备 驱动 ) ， 磁 盘 设 备 驱动 收 到 IRP 之 后 ， 从 IRP 中 读 
取 本 层 对 应 的 IOSL， 也 就 是 刚才 由 FS 驱动 填 入 的 IOSL， 执 行 其 中 的 操 
作 。 由 于 磁盘 设备 张 动 为 最 底层 的 驱动 ， 所 以 在 它 执 行 完 毕 后 会 调用 
IOM 提 供 的 IgCompletionRequest 功 能 函数 来 将 IRP 返 回 给 IOM， 此 时 的 
IRP 己 经 被 最 底层 的 驱动 在 IO Status Block 中 填 入 了 IO 执行 状态 《成 功 、 
错误 等 ) 。 











IOM 收 到 IRP 之 后 ， 将 最 底层 对 应 的 IOSL 清 空 ， 并 将 IRP 再 次 发 送 
给 上 一 层 驱 动 〈( 本 例 只 有 两 层 ， 如 果 有 多 层 则 一 层 一 层 回 传 ) 来 让 上 层 
驱动 判断 底层 执行 的 结果 是 否 合格 。 本 例 中 上 层 FS 驱 动 是 最 项 层 驱 动 ， 
所 以 它 会 执行 IO 总 完成 过 程 〈 此 处 并 非 IToCompletionRequest) ， 同 样 在 
IO Status Block 中 设置 状态 然后 将 IRP 返 回 给 IOM， 如 果 状 态 为 成 功 ， 则 
本 次 IO 成 功 执 行 ， 如 果 状 态 为 其 他 ， 则 相应 触发 其 他 动作 。 如 图 19-60 
所 示 为 Windows 系 统 内 IO ”Manager 与 驱动 层 交 互 的 一 个 示意 图 ， 其 中 包 
含 了 IRP 流 动 的 路 线 以 及 IO 流 程 。 可 以 根据 上 面 的 描述 来 对 应 图 中 的 步 


又 。 























图 19-60 ”IRP 流 动 过 程 





1. IOM 对 Buffered IO 处 理 过 程 


下 面 给 出 一 个 Windows 系 统 下 IO Manager 处 理 Cached/Buffered IO 过 
程 示 例 。 如 图 19-61 所 示 为 IJOM 处 理 Buffered IO 时 的 流程 示意 图 ， 其 中 共 
有 6 处 关键 点 ， 下 面 就 分 别 描述 一 下 这 6 处 关键 点 。 











图 19-61 ”IOM 处 理 Buffered IO 过 程 示意 图 














(1) 用 户 程序 将 自身 数据 缓存 放置 在 所 分 配 的 虚拟 内 存 空间 内 革 
段 逻辑 上 连续 的 地 址 之 内 ， 这 段 虚 所 内 存 地 址 实际 上 可 以 被 映射 到 物理 
内 存 中 并 不 连续 的 地 址 段 中 ， 这 是 任何 操作 系统 Memory Manager 都 会 
做 的 。 





(2) 用 户 程序 在 向 OS 发 起 IO 请 求 时 会 将 竺 写 入 数据 存放 的 数据 绥 
存 地 址 (对 于 写 请 求 〉 或 者 用 于 接收 数据 的 缓存 地 址 通知 给 OS。 


(3) OS 使 用 ExAllocatePoolWithTag 功 能 函数 在 内 核 的 一 个 内 存 空 
闻 池 内 创建 一 个 与 用 户 程 序 对 应 缓存 相同 大 小 的 连续 的 SystemBufer。 








(4) 然后 IOM 立 即 向 下 发 起 IRP， 在 IRP 中 IOM 会 将 SystemBnuffer 的 
旨 针 告知 顶层 驱动 程序 。 





(5) 对 于 读 请 求 ， 压 层 驱 动 在 成 功 完 成 数据 读 入 之 后 ， 会 将 逐步 
读 出 的 数据 放置 到 方才 被 通知 的 SystemBuffer 地 址 段 中 存放 ， 当 整个 IO 
完成 后 ， 张 动 会 通知 IOM 完 成 信号 。 当 然 ， 底 层 驱动 也 可 能 会 有 上 自己 的 
缓存 ， 比 如 文件 系统 驱动 ， 文 件 系统 会 根据 自己 的 缓存 策略 来 处 理 这 个 
IO 请 求 ， 比 如 ， 如 果 Cache Hit， 则 直接 将 数据 复制 到 SystemBuffer。 对 
于 写 请 求 ，IOM 会 首先 将 用 户 程序 缓存 中 竺 号 入 的 数据 复制 到 方才 分 配 
的 SystemBuffer 中 ， 并 立即 返回 给 用 户 程 序 完成 信号 ， 然 后 同 下 发 起 IRP 























过 程 ， 下 层 驱 动 会 直接 从 SystemBuffer 中 读数 据 从 而 写 入 底层 设备 。 当 
然 对 于 文件 系统 驱动 这 一 层 ， 由 于 使 用 了 Buffered IO，FS 会 缓存 这 个 写 
IO 并 做 优化 处 理 ， 在 Flush 被 触发 后 ， 才 会 将 数据 继续 加 下 从 驱动 写 
A 


(6) 当 内 核 读 IO 完 成 后 ，OS 会 将 SystemBuffer 中 的 内 容 复 制 到 用 
户 程 序 缓存 空间 ; 当 内 核 写 IO 完 成 后 ， 用 户 程 序 不 会 有 感知 ， 因 为 
Buffered IO 模式 下 ， 在 用 户 程序 写 IO 发 起 后 便 立 即 被 通知 完成 了 。IO 完 
成 后 ， 内 核 使 用 ExFreePool 功 能 函数 来 释放 针对 本 次 IO 分 配 的 
SystemBuffer。 每 次 IO 均 要 分 配对 应 的 SystemBuffer。 











注意 : ”在 上 述 过 程 中 ， 当 SystemBuffer 被 分 配 之 后 ， 对 应 的 用 
户 程序 Buffer 便 可 以 被 OS 使 用 换 页 机 制 将 其 内 容 复制 到 硬盘 上 
的 Pagefile 中 存放 ， 以 便 腾 出 物理 内 存 空间 给 其 他 程序 使 用 。 
如 果 IO 吞 吐 量 很 大 ， 但 同时 依然 使 用 了 Buffered IO 模 式 ， 那 么 
不 但 因为 多 次 内 存 数 据 复制 而 效率 低下 ， 而 且 会 由 于 在 内 核 分 
配 SystemBuffer 时 可 能 由 于 内 存 池 中 没有 对 应 这 么 大 数据 空间 
的 连续 内 存 地 址 段 而 造成 内 核 极力 去 释放 内 存 空间 ， 而 站 当 其 
冲 的 束 是 释放 文件 系统 绥 存 空间 。 而 释放 FS 绥 存 时 束 义 涉及 到 
Flush IO 的 操作 ， 这 些 操作 在 底层 又 随时 可 能 导致 路 径 中 其 他 
模块 需要 分 配 内 存 ， 而 这 就 成 了 一 个 死 循环 ， 可 能 导致 系统 失 
去 啊 应 。 所 以 IO 路 径 中 分 配 内 存 的 操作 需 慎 之 又 慎 。 














2. IOM 对 DIO 处 理 过 程 


如 图 19-62 所 示 为 IOM 处 理 DIO 过 程 (底层 设备 使 用 DMA 方 式 ) 的 
示意 图 。 其 中 共有 6 个 主要 步骤 ， 下 面 我 们 就 分 项 描述 这 6 个 步骤 。 














图 19-62 ”IOM 处 理 DIO 过 程 示 意图 

















《1) 用 户 程序 自身 的 缓存 位 于 操作 系统 虚拟 出 来 的 虚拟 内 存 空 
间 ， 并 且 是 连续 的 。 这 块 虚拟 连续 的 空间 实际 上 是 被 映射 到 物理 内 存 中 
的 ， 并 且 可 能 是 不 连续 的 。 操 作 系统 会 针对 这 个 程序 的 缓存 空间 生成 一 
份 Memory Description List (MDL) 用 来 描述 虚拟 地 址 和 物理 地 址 的 映 
射 关 系 等 信息 。 


(2) 程序 向 操作 系统 发 起 DIO 读 请 求 ， 并 在 自身 的 缓存 内 预 留 好 
了 接收 读 出 数据 的 空间 ， 并 将 这 个 空间 的 地 址 信息 通告 给 操作 系统 。 


(3) IOM 根 据 收 到 的 缓存 地 址 信息 ， 调 用 MmProbeAndLockPages 
功能 函数 将 对 应 的 物理 内 存 地 址 锁定 。 


(4) IOM 生 成 IRP 以 便 下 发 给 驱动 链 的 顶层 驱动 ， 并 在 其 中 给 出 用 
于 接收 本 次 IO 数据 的 物理 内 存 空 间 位 于 MDL 中 的 指针 。 直 到 本 次 IO 完 
， 和 否则 指针 对 应 的 内 存 空间 一 直 处 于 锁定 状态 。 








(5) 底层 设备 使 用 MmGetMdlVirtualAddress 功 能 函数 来 获取 这 些 
指针 。 


(6) 确 层 设备 从 介质 中 读 出 数据 之 后 ， 将 数据 直接 送 至 这 些 指针 
指定 的 物理 内 存 空 间 。 (由 于 Windows 下 DIO 模 式 要 求 用 户 程 序 发 起 的 
IO Size 必 须 与 最 底层 设备 的 最 小 存储 单位 对 应 ， 所 以 此 处 可 以 直接 由 底 
层 设 备 将 数据 返回 而 不 再 途径 文件 系统 返回 。 但 是 对 于 一 些 底层 加 入 虚 
拟 化 效果 的 驱动 ， 比 如 卷 镜像 、RAID 等 ， 则 最 底层 设备 驱动 需要 将 数 
据 返 回 给 其 上 层 驱 动 ， 然 后 由 上 层 驱 动 负 员 将 数据 置 入 用 户 程序 绥 
存 。) 














综 上 所 述 ，IOM 统 管 着 OS 内 核 中 所 有 驱动 以 及 上 层 调 用 接口 ， 为 
整个 系统 IO 请 求 流动 的 骨架 。 当 一 个 IO 进入 IOM 之 后 ， 第 一 次 转发 是 
IOM 主 动 发 回 驱 动 链 顶 层 驱 动 的 ， 随 后 的 进一步 下 发 是 由 各 层 驱 动 主动 
发 起 的 ， 此 时 IO 请 求 流动 的 驱动 力 为 loCallDrive 孙 数 (IOM 提 供 ) ， 各 
层 驱 动 调用 这 个 函数 即 可 将 IRP 下 发 给 下 层 驱动 。 当 然 也 可 以 认为 上 层 
驱动 执行 完 IRP 后 将 IRP 通 过 IoCallDrive 函 数 扔 给 IOM， 然 后 IOM 再 发 送 
给 下 层 驱 动 ， 因 为 IoCallDrive 是 IOM 自 身 的 功能 ， 所 以 本 质 上 这 么 理解 
也 可 以 。 


3. 成 也 Page Cache， 败 也 Page Cache 





Page Cache 是 操作 系统 内 最 后 一 层 Cache， 再 往 下 走 ， 就 是 实 实在 在 
的 物理 硬件 设备 了 。 在 Linux 系 统 中 ， 早 在 2.2 内 核 版 本 的 时 代 ， 除 了 
Page ”Cache (Pcache) 之 外 ， 还 有 一 个 Buffer ”Cache 〈Bcache) 处 于 
Pcache 下 层 。 这 两 者 的 区 别 是 ，Pcache 用 于 缓存 文件 系统 层面 的 文件 块 
数据 ， 而 Bcache 则 用 于 绥 存 块 设备 层面 的 设备 块 数据 。 这 两 个 Cache 之 
间 保 持 严 格 同步 ， 即 一 个 文件 块 奉 处 于 Pcache 中 ， 则 这 个 文件 块 所 对 应 
的 磁盘 块 也 必须 同时 处 于 Bcache 中 ， 针 对 任何 一 个 块 进行 的 改动 ， 必 须 
也 体现 到 男 一 个 Cache 对 应 的 块 中 ， 即 同步 读 入 同步 修改 。 但 是 到 了 
Linux 2.6 内 核 之 后 ，Bcache 的 作用 被 弱化 了 ， 基 本 上 没有 用 处 ， 文 件 和 
块 设 备 的 缓存 都 使 用 Pcache 并 且 不 再 同步 。 


ma _Pcache 与 文件 或 者 块 设备 其 实 是 一 种 映射 和 关系， 即 内 核 会 将 文件 
或 者 块 设备 上 对 应 的 块 映射 到 Pcache 中 对 应 的 Page，Page 作 为 文 
件 或 者 块 设备 上 对 应 块 的 顶头 绥 存 而 存在 。 在 非 DIO 模 式 下 ， 针 
对 某 个 文件 或 者 块 设备 的 IO 操作 ， 必 须 经 过 Pcache。 比 如 读 请 
求 ， 内 核 首 先 检查 Pcache 中 对 应 这 个 IO 所 请 求 的 块 的 Page 中 是 否 








有 数据 ， 如 果 有 ， 则 直接 返回 ， 无 顷 从 底层 磁盘 读 取 ;对 于 写 请 
求 ， 内 核 也 是 首先 将 数据 写 入 对 应 的 Page， 然 后 再 批量 写 入 磁 
盘 。 
nm Pcache 同 下 映射 到 文件 块 或 者 块 设备 块 ， 加 上 则 可 以 映射 到 用 户 
程序 缓存 ， 这 样 ， 利 用 Pcache 作 为 中 间 人 ， 程 序 只 要 访问 自身 组 
存 内 映射 过 来 的 Pcache 对 应 的 Page， 就 等 于 访问 到 了 Pcache 下 所 
映射 的 文件 块 或 者 块 设备 块 ， 途 中 如 果 仙 到 Cache 非 命中 的 情 
况 ， 则 会 产生 Page “Fault， 触 发 从 底层 磁盘 设备 的 读 操作 。 这 种 
Pcache 上 行 的 映射 称 为 Memory Mapping，Mmapping 需 要 用 户 程 
序 显 式 地 回 操 作 系 统 申请 ， 使 用 mmap0O 功 能 函数 。 利 用 mmap 机 
制 ， 如 果 有 多 个 程序 共同 读 取 同 一 个 底层 块 ， 那 么 内 核 无 顷 将 这 
个 块 分 别 复制 到 每 个 程序 自身 缓存 内 ， 只 需要 放置 一 份 在 Pcache 
对 应 的 Page 中 即 可 ，Pcache 的 上 行 map 会 将 这 个 实际 的 Page 分 别 
map 到 各 个 程序 自身 的 缓存 内 ， 这 样 就 大 大 降低 了 物理 内 存 耗 
费 。 对 于 写 操 作 ， 也 同样 会 写 到 Pcache 中 对 应 的 Page， 每 个 程序 
任何 时 刻 都 看 到 的 是 相同 内 容 并 且 最 新 的 Page， 也 就 是 说 任何 时 
刻 只 有 Pcache 中 的 一 份 Page 数 据 ， 这 样 惑 可 以 保证 数据 的 一 致 
性 。 当 需要 将 被 修改 的 Page 写 入 破 盘 时 ， 程 序 可 以 调用 msync0) 
功能 函数 进行 。 





一 个 文件 或 者 块 设备 往往 比较 大 ， 不 可 能 全 被 映射 到 Pcache 中 。 但 
是 对 于 用 户 程 序 来 讲 ， 其 所 被 分 配 的 内 存 地 址 都 是 虚拟 的 ， 往 往 可 以 很 
大 ， 甚 至 大 过 物理 内 存 ， 所 以 程序 网 OS 内 核 所 申请 映射 的 整个 文件 / 设 
备 或 者 其 一 部 分 ， 对 于 虚拟 内 存 来 讲 是 有 空间 映射 的 。 











由 于 内 核对 程序 缓存 做 了 超 供 处 理 ， 比 如 虚拟 内 存 为 10MB 空 间 ， 
而 实际 上 内 核 只 给 了 其 5MB 的 物理 内 存 空间 ， 所 以 只 能 够 拆 东 增补 西 





甫 。 所 以 内 核 需要 维护 一 个 Page Table 来 记录 当前 实际 的 虚拟 地 址 与 物 
理 Pcache 地 址 的 映射 关系 。 


当 程 序 需要 对 虚拟 地 址 空间 内 某 个 page 进 行 IO 操 作 时 ， 内 核 检查 
PageTable， 如 果 没 有 找到 这 个 虚拟 Page 对 应 的 物理 Page， 那 么 内 核 只 能 
先 把 当前 被 占用 的 物理 Page 中 最 少 被 程序 访问 的 那些 想 办 法 腾 出 来 给 新 
请 求 使 用 。 





腾空 间 的 机 制 有 多 种 ， 比 如 最 划算 的 是 先 删 挥 物理 Page 中 那些 自从 
被 读 入 之 后 就 没有 改过 的 ， 也 束 是 对 应 的 块 与 下 层 磁 盘 上 的 块 内 容 一 致 
的 那些 Page， 它 们 占 在 这 里 除了 增加 一 些 绥 存 命中 率 之 外 别 无 它 用 ， 所 
以 至 不 犹 豫 地 将 它们 标记 为 Free 即 可 。 


其 次 就 是 Flush Dirty Page， 即 如 果 物 理 Page 中 有 些 已 经 修改 过 的 但 
尚未 被 写 入 磁盘 的 Page， 那 么 它们 占 在 这 基本 上 为 了 那 微 竹 其 微 的 缓存 
命中 率 ， 此 时 也 没 多 大 意义 ， 因 为 此 时 此 刻 燃眉之急 是 物理 空间 不 够 
用 ， 所 以 即刻 触发 Flush 将 其 写 入 磁盘 后 也 标记 为 Free。 





更 糟糕 的 是 ， 如 果 上 面 两 个 动作 都 做 完了 ， 物 理 空间 还 是 不 够 用 ， 
那么 还 有 最 后 一 根 救命 稻草 ， 即 将 当前 占用 的 物理 Page 中 的 内 容 写 到 磁 
盘 上 一 个 特定 的 空间 (Swap 分 区 ) 或 者 文件 (Pagefile〉 中 暂 存 ， 以 腾 
出 空间 ， 并 且 在 Page Table 中 做 好 记录 ， 这 个 过 程 称 为 Page Out。 竺 什么 
时 候 程 序 又 需要 访问 已 经 被 Page Out 的 Page 了 ， 内 核 的 Cache Manager 发 
现 目 标 Page 并 没有 在 物理 内 存 中 ， 此 时 就 算 发 生 了 一 次 Page Fault， 那 么 
Cache Manager 就 得 根据 Page Table 中 的 记录 ， 从 Swap 分 区 或 者 Pagefile 
中 将 对 应 的 之 前 Page Out 出 去 的 Page 再 读 入 物理 内 存 供 使 用 ， 这 个 过 程 
叫做 Page In。 








然而 ， 最 糟糕 的 是 ， 物 理 Page 已 经 全 满 ， 该 做 的 也 做 了 ， 而 此 时 又 
恰恰 需要 Page Im， 那 么 没 办 法 ， 只 能 将 物理 Page 中 最 少 被 访问 到 的 《使 
用 LRU 算 法 ) Page 写 到 Pagefile 或 者 Swap 分 区 ， 再 将 Pagefile 或 Swap 分 区 
中 要 Page In 的 Page 读 入 ， 这 种 情况 称 为 Page _ Exchange， 是 最 糟糕 的 状 
太 
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按理 说 Pcache 的 存在 会 大 大 提高 IO 性 能 ， 但 这 只 是 在 一 定 条 件 下 而 
己 。Pcache 以 4KB 的 Page 为 单位 进行 读 写 ， 只 能 一 次 读 入 或 者 写 入 一 个 
或 者 多 个 Page， 而 不 可 能 读 写 诸如 200B，1000B 这 种 除 不 尽 4KB 的 数 
据 。 然 而 ， 程 序 在 访问 文件 或 者 块 设备 的 时 候 ， 却 可 以 以 任何 offset 为 
起 始 ， 发 起 任何 长 度 的 10 请 求 。 这 就 使 得 Pcache 很 难 办 ， 一 旦 遇 到 这 种 
尺寸 不 能 对 齐 Page 边 界 而 且 长 度 又 不 能 被 4KB 除 尽 的 IO 请 求 ， 就 会 发 生 
本 章 前 文 所 描述 的 各 种 花样 的 读 写 惩罚 。 








另外 ，4KB 的 Page ”Size 为 x86 平 台 普 遍 使 用 ， 其 他 一 些 平台 比如 安 
腾 ， 其 Page Size 为 64KB。IO Size 与 Page _ Size 相差 越 大 ， 惩 罚 比 例 就 越 
大 。 但 是 Page Size 越 小 ， 那 么 Page Table 中 所 需要 的 条 目 就 越 多 ， 由 于 
Page Table 也 存在 于 内 存 中 ， 所 以 就 需要 浪费 更 多 的 物理 内 存 。 








所 以 说 ， 成 也 Pcache， 败 也 Pcahce。Pcache 的 成 败 ， 最 终 决 定 因素 
还 是 在 用 户 程 序 的 10 设计 ， 是 否 充 分 考虑 了 各 种 情况 。 








男 外 ， 对 于 一 些 慢 速 与 高 速 存储 介质 共存 的 系统 内 ， 比 如 SSD 与 机 
械 人 硬盘 共存 ， 此 时 可 以 针对 SSD 设 备 使 用 DIO 模 式 ， 将 有 限 的 RAM 一 级 
缓存 留 给 更 需要 它 的 机 械 人 硬盘 。 


4. Cache、Buffer、Queue 的 作用 层次 与 关系 


从 本 章 一 开始 给 出 的 那 张 系 统 全 景 IO 路 径 图 中 可 以 看 到 ， 系 统 中 的 
各 处 都 会 有 缓存 ， 还 有 Queue， 同 时 还 存在 一 种 图 中 尚未 画 出 的 东西 ， 
就 是 Buffer。 这 里 有 必要 讲解 一 下 这 三 者 的 层次 与 关系 。 


Cache 是 一 个 海洋 ， 其 中 可 以 有 长 时 间 固 定 不 动 的 东西 。 而 Queue， 
很 显然 它 就 像 一 个 水 渠 ， 其 中 的 数据 是 无 时 无 刻 不 在 流动 的 。 而 Buffer 
更 像 是 一 个 洲 出 的 水 渠 ， 比 水 渠 的 空间 更 大 一 些 ， 但 是 Buffer， 更 应 该 
被 翻译 为 “缓冲 ”而 不 是 缓存 ， 也 融 是 说 Buffer 中 的 数据 会 很 快 被 清 走 ， 
或 者 传输 到 上 游 模块 ， 亦 或 是 被 传输 到 下 游 模 块 。Buffer 有 两 个 作用 : 
一 是 针对 慢 速 设备 提供 一 个 速度 适 配 的 缓冲 空间 ， 二 是 为 了 给 某 种 计算 
操作 提供 数据 暂 存 的 空间 。 比 如 某 种 存储 设备 ， 数 据 在 被 读 出 或 者 写 入 
介质 之 前 需要 进行 某 种 检查 或 者 运算 处 理 ， 而 这 种 运算 是 非常 底层 而 不 
是 高 层 的 ， 那 么 就 有 必要 为 这 个 设备 创建 一 块 缓 冲 ， 也 就 是 Buffer 空 间 
用 于 存放 计算 之 前 的 数据 以 及 运算 之 后 的 结果 。 刻 录 光 盘 时 系统 分 配 的 
内 存 空间 视 为 缓冲 ， 因 为 这 个 Buffer 中 的 数据 不 可 能 长 期 被 放 在 里 面 不 
动 。 但 是 Cache， 也 就 是 “缓存 ”"， 是 比 Queue 与 Buffer 更 高 层 的 东西 ， 其 
作用 主要 是 用 来 加 速 数 据 IO 而 不 是 绥 冲 IO 流 动 的 ， 其 中 可 以 存在 长 期 不 
流动 的 数据 。 

















Cache、Buffer、Queue， 这 三 者 的 数据 流动 性 是 一 级 比 一 级 高 ， 路 
径 中 作用 层次 一 级 比 一 级 低 ， 所 友 挥 的 功能 一 级 比 一 级 低级 。 越 往 宏观 
速度 越 慢 而 空间 越 大 ， 越 往 微观 速度 越 快 而 空间 越 小 ， 计 算 机 IO 路 径 也 
完全 符合 这 个 自然 法 则 。 








19.1.5 ”底层 设备 张 动 层 


1. Windows 系 统 下 的 驱动 链 


IO 请 求 从 应 用 程序 发 起 ， 经 历 了 文件 系统 、 郑 管理 系统 ， 现 在 这 个 
IO 请 求 要 经 历 它 离 开 主机 操作 系统 前 的 最 后 一 关 : 设备 驱动 程序 。 我 们 
以 Windows 系 统 的 驱动 层次 架构 为 例 说 明 操作 系统 是 如 何 使 用 底层 硬件 
设备 的 。 


设备 分 为 虚拟 设备 和 实际 物理 设备 ， 我 们 在 此 不 讨论 虚拟 设备 。 一 
个 实际 的 物理 设备 ， 一 般 是 以 某 种 总 线 来 连接 到 计算 机 主板 上 的 ， 比 如 
PCIX、PCIE 总 线 ， 主 板 上 的 导线 连 入 对 应 的 总 线 控制 器 忆 片 〈 一 般 是 
与 北桥 或 者 南 桥 或 者 CPU 集成 的 ) ， 操 作 系 统 就 是 从 总 线 控制 必 片 来 获 
取 所 有 外 部 设备 信息 的 ， 任 何 发 向 或 者 收 自 外 部 设备 的 数据 和 控制 信息 
流 ， 都 经 过 这 个 总 线 控制 器 ， 总 线 控制 器 只 负责 将 数据 流转 发 到 对 应 总 
线 的 对 应 地 址 上 的 设备 ， 但 是 数据 流 本 里 的 流动 是 由 设备 DMA 部 分 直 
接 负 责 的 。 











所 以 ， 操 作 系统 要 想 看 到 一 个 设备 ， 必 须 通过 这 个 设备 所 在 的 总 线 
控制 器 。 操 作 系 统 内 有 一 类 称 为 “总 线 驱 动 * 的 驱动 程序 ， 这 个 驱动 程序 
位 于 操作 系统 最 底层 ， 它 可 以 从 总 线 控制 芯片 来 获取 当前 总 线 上 的 任何 
动静 以 及 任何 已 经 接 入 的 设备 信息 ， 也 就 是 说 这 个 驱动 是 用 来 驱动 总 线 
控制 器 的 ， 也 叫做 "总线 控 制 器 驱动 "。 任 何 新 接 入 的 设备 都 会 在 硬件 上 
被 总 线 控制 器 感受 到 ， 从 而 也 就 被 总 线 驱动 所 探知 到 ， 然 而 ， 总 线 驱动 
只 能 够 探知 到 总 线 上 新 接 入 了 一 个 设备 ， 却 不 知道 这 是 什么 设备 ， 该 怎 
么 用 。 要 想 使 用 这 个 设备 ， 就 得 在 其 上 再 加 载 一 层 驱 动 ， 也 就 是 这 个 设 
备 自 身 的 驱动 。 














比如 ， 如 果 这 个 设备 是 一 张 PCIE 接 口 的 SCSI 卡 ， 那 么 操作 系统 会 
自 先 通过 PCIE 总 线 驱 动 探 知 到 有 一 个 类 型 为 SCSI Host 的 设备 ， 然 后 系 
统 会 立即 将 SCSI Port/Miniport 驱 动 加 载 到 这 个 设备 之 上 ， 从 而 可 以 正常 
操作 SCSI 卡 。SCSI 卡 其 实 本 质 上 也 是 一 个 总 线 控制 器 ， 它 后 端 控制 着 





一 个 或 者 多 个 SCSI 总 线 ， 在 前 端 则 作为 PCIX/PCIE 等 主机 总 线 上 的 被 动 
设备 而 存在 ， 所 以 ，SCSI 卡 的 驱动 程序 也 相当 于 SCSI 控 制 占 的 总 线 驱 
动 。 所 以 ， 加 载 了 这 个 驱动 之 后 ， 操 作 系 统 就 会 看 到 这 张 SCSI 卡 上 面 所 
连接 的 SCSI 总 线 信 息 以 及 SCSI 总 线 所 连接 的 SCSI 设 备 。 然 而 ， 此 时 操 
作 系 统 只 能 够 看 到 一 个 或 者 多 个 SCSI 设 备 ， 却 不 知道 它们 各 自 是 什么 设 
备 ， 怎 么 用 它 ， 所 以 ， 还 需要 再 加 载 一 层 驱 动 ， 也 就 是 ，PCIE 主 机 总 线 
上 的 SCSI 控 制 卡 上 的 SCSI 总 线 上 的 SCSI 设 备 的 驱动 。 








还 没 结束 。 We 所 以 ， 
还 需要 针对 每 个 LUN 加 一 层 驱 动 。 但 是 一 般 来 讲 ， 这 一 层 驱 动 与 前 一 层 
es 个 驱动 类 型 的 不 同 例 程 喷 了 ， ee 
一 般 与 Target 本 里 相同 ， 不 会 存在 某 个 SCSI Target 多 个 LUN 里 有 的 是 
es 至 此 我 们 数 一 数 这 个 驱动 链 里 的 驱动 
数目 : 主机 总 线 驱 动 -SCSI 控 制 器 驱动 SCSI Target 设 备 驱 动 LUN 设 
备 驱 动 。 














还 没 结束 。 假 设 某 个 LUN 是 一 个 磁盘 设备 ， 至 此 ， 操 作 系 统 已 经 知 
道 如 何 使 用 这 块 磁盘 了 ， 可 以 向 其 中 读 写 数据 了 。 但 是 磁盘 还 可 以 分 
区 ， 操 作 系 统 会 对 待 每 个 分 区 就 像 一 块 物理 磁盘 一 样 。 所 以 ， 还 需要 为 
每 个 分 区 再 加 载 一 层 驱动 ， 这 个 驱动 与 上 一 层 驱动 其 实 是 一 样 的 ， 如 果 
使 用 某 种 卷 管理 软件 来 生成 卷 而 不 是 分 区 ， 则 就 需要 加 载 郑 驱 动 ， 这 个 
驱动 由 卷 管理 软件 提供 ， 作 为 一 种 Filter 驱 动 〈 见 下 文 ) 类 型 存在 。 














人 至此， 还 没 结束 。 有 了 卷 或 者 分 区 就 完结 了 么 ? 非 也 。 文 件 系 统 还 
没 进 来 呢 。 文 件 系统 也 算是 一 种 驱动 ， 内 核 为 每 个 卷 或 者 分 区 加 载 对 应 
的 文件 系统 驱动 之 后 ， 整 个 驱动 链 才 算 最 终 完 结 ， 此 时 应 用 程序 就 可 以 
读 写 文件 了 。 当 然 如 果 不 使 用 文件 系统 ， 那 么 可 以 把 驱动 链 终止 在 卷 一 
层 ， 甚 至 LUN 一 层 ， 应 用 程序 可 以 通过 内 核 来 直接 访问 到 帮 层 设备 ， 比 





如 对 块 设 备 或 者 裸 设 备 的 IO 操作 。 


如 图 19-63 所 示 ， 左 边 为 Windows 下 的 一 张 PCI 接 口 的 SCSI 卡 的 驱动 
链 ， 右 侧 为 一 个 PCI 接 口 的 IDE 卡 的 驱动 链 。 


图 19-63 ”Windows 下 的 驱动 链 示意 图 





对 于 左 侧 的 SCSI 驱 动 链 ， 系 统 是 按照 如 下 过 程 操 作 的 。 


1) 由 于 系统 中 有 多 个 PCI 总 线 ， 总 线 驱 动 通过 总 线 控制 器 发 现 所 
有 上 总线 之 后 ， 会 为 每 个 PCI 总 线 创建 一 个 PDO (Physical Device Object) 
对 象 ， 并 且 再 创建 一 个 FDO (Function Device Object) 对 象 表示 这 个 设 
备 《〈 此 处 为 PCI 总 线 ) 有 具体 功能 将 由 总 线 张 动 来 负责 。 图 中 的 最 底层 即 
为 其 中 一 个 PCI 总 线 的 FDO。 





(2) 总 线 驱 动 扫 描 这 个 总 线 上 的 所 有 设备 ， 感 知 到 了 两 个 PCI 设 
备 ， 一 个 IEEE 1394 适 配 卡 (在 此 不 介绍 ) 和 一 个 SCSI 适 配 卡 。 所 以 总 
线 驱动 为 这 两 个 设备 分 别 创建 各 自 的 PDO， 由 于 总 线 驱 动 不 知道 如 何 使 
用 这 两 个 设备 ， 所 以 不 能 为 其 创建 FDO。 


(3) 以 SCSI 适 配 卡 为 例 ， 内 核 将 SCSI Port/Miniport 驱 动 ， 也 就 是 
SCSI 控 制 器 驱动 加 载 到 其 PDO 上 ， 并 同时 生成 一 个 针对 这 个 设备 的 
FDO， 即 功能 性 对 象 ， 意 即 加 载 了 SCSI 控 制 器 驱动 后 这 个 设备 自身 的 功 
能 就 可 以 被 操作 系统 使 用 了 。SCSI 控 制 器 驱动 ， 也 就 是 Port/Miniport 驱 
动 被 加 载 之 后 ， 就 可 以 从 这 个 SCSI 卡 后 端 所 连接 的 SCSI 总 线 感知 到 具 
体 的 SCSI Target 设 备 了 。 本 例 中 SCSI 总 线 上 连接 了 一 块 磁盘 和 一 个 
CDROM 光 驱 ， 所 以 驱动 为 这 两 个 设备 创建 了 各 自 的 PDO。 由 于 SCSI 控 
制 器 驱动 只 负责 SCSI 总 线 的 维护 以 及 向 SCSI ”Target 设备 发 送 和 接收 数 


据 ， 并 不 知道 如 何 使 用 这 些 SCSI 设 备 ， 也 并 不 知道 问 其 发送 的 数据 的 其 
体内 容 和 格式 ， 所 以 不 能 为 这 些 设备 创建 FDO， 这 个 工作 将 由 更 上 层 驱 
动 完成 。 


(4) 在 CDROM 设 备 的 PDO 之 上 ， 系 统 加 载 了 一 个 Audio Filter 
Driver， 即 音频 过 滤 驱 动 。 过 滤 驱 动作 为 一 个 夹层 角色 存在 ， 可 以 插入 
任意 两 层 常规 驱动 之 间 而 不 改变 夹 着 它 的 上 下 两 层 驱 动 间 的 接口 。 关 于 
过 滤 驱 动 将 在 下 文 介绍 。 














(5) 此 时 操作 系统 已 经 发 现 了 一 块 硬盘 和 一 个 CDROM 交 驱 ， 为 了 
使 用 这 两 个 设备 ， 操 作 系统 必须 要 加 载 针对 它们 的 功能 性 驱动 。 针 对 磁 
盘 设备 ， 内 核 加 载 了 Disk Class Driver; 针对 CDROM 光 驱 ， 内 核 加 载 了 
CDROM Class Driver。Class Driver 的 意思 即 “ 类 驱动 ” 也 就 是 说 针对 任 
何 磁盘 设备 ， 只 要 是 磁盘 ， 不 管 是 哪个 广 家 生产 的 什么 规格 的 磁盘 ， 统 
统 属于 人 磁盘 类 ， 它 们 都 可 以 使 用 同一 个 驱动 程序 来 行使 它们 的 功能 ， 除 
非 有 一 些 厂商 自 行 设计 的 特殊 功能 ， 则 需要 加 载 对 应 的 Miniclass 驱 动 。 
类 似 的 Class Driver 还 有 诸如 CDROM、 磁 带 机 、 机 械 手 、 显 卡 、 键 盘 、 


ea 
鼠标 等 。 





(6) 至此， 操作 系统 已 经 可 以 使 用 对 应 的 设备 了 ， 比 如 读 写 等 操 
作 。 但 是 硬盘 是 可 以 分 区 的 ， 针 对 每 一 个 分 区 ， 内 核 还 会 再 次 加 载 一 层 
Disk Class Driver。 


(7) 最 后 ， 本 例 中 还 包括 了 一 个 磁盘 加 密 过 滤 驱 动 ， 这 个 驱动 的 
作用 是 在 文件 系统 驱动 (本 例 中 未 表示 ， 位 于 磁盘 加 密 过 滤 驱 动 之 上 ) 
和 Disk Class Driver 之 间 将 自身 插入 ， 截 取 文 件 系 统 本 应 该 直接 发 同人 磁盘 
驱动 的 IO 请 求 ， 加 和 密 其 中 的 数据 ， 然 后 将 加 和 密 的 数据 除了 内 容 之 外 ， 原 
封 不 动 地 发 送 给 磁盘 驱动 。 现 在 很 多 的 加 获 程 序 都 是 使 用 底层 过 滤 驱 动 











来 实现 的 。 


对 于 IDE 适 配 卡 的 驱动 链 加 载 过 程 可 以 参考 SCSI 适 配 卡 的 过 程 ， 二 
者 大 同 小 异 ， 这 里 不 再 描述 。 





2. Windows 系 统 下 的 IO 设备 驱动 类 型 





Windows 系 统 将 IO 设备 的 驱动 程序 按照 层次 分 为 了 两 大 类 ， 即 上 层 
的 Class Driver 以 及 下 层 的 Port Driver。 关 于 这 两 种 驱动 程序 的 角色 和 作 
用 ， 上 文 已 经 做 了 简要 介绍 。 这 里 将 进一步 介绍 这 两 种 驱动 的 具体 功能 
项 目 。 














如 图 19-64 所 示 为 这 两 种 驱动 的 层次 示意 图 。 先 来 看 左 侧 部 分 ， 应 
用 程序 想 要 执行 某 些 IO 操作 ， 它 可 以 调用 Window 提 供 的 API， 比 如 打开 
某 个 文件 读 写 等 ，Window “API 会 自动 向 下 调用 对 应 的 内 核 层 驱动 比如 
文件 系统 驱动 来 执行 对 应 的 功能 ; 应 用 程序 也 可 以 调用 用 户 态 驱动 程序 
(在 用 户 态 执行 的 驱动 程序 ) 来 执行 一 些 高 层 的 、 可 以 在 用 户 态 就 完成 
的 功能 ， 如 果 不 能 在 用 户 态 完成 ， 那 么 用 户 态 驱动 会 自行 调用 Windows 
API 执 行 对 应 操作 。 一 些 打 印 机 驱动 程序 就 属于 用 户 态 驱动 程序 。 


























图 19-64 ”设备 驱动 层次 和 类 型 





内 核 为 多 数 的 设备 类 型 都 提供 了 Class Driver 来 实现 基本 功能 ， 比 如 
鼠标 ， 不 管 鼠 标 有 几 个 其 他 按键 ， 其 基本 的 功能 无 非 就 是 左右 键 和 滚 
轮 ，Class Driver 就 提供 了 对 这 些 功 能 的 文 持 。 人 至 于 鼠标 上 的 其 他 按键 以 
及 其 他 一 些 更 高 级 的 功能 ， 可 以 由 厂商 提供 各 自 的 Miniclass Driver 或 者 
Filter Driver 来 单独 实现 这 些 功 能 。Class 与 Miniclass 互 相 链 接 以 共同 完成 
设备 的 全 部 功能 。Port ”Driver 则 是 专门 用 来 驱动 各 种 外 部 总 线 控制 器 


的 ， 比 如 USB、IDE、SCSI 等 ， 同 样 ，Miniport Driver 则 是 用 来 驱动 这 些 
控制 器 上 的 一 些 广 商 特定 的 功能 的 ， 不 同 广 商 可 能 有 不 同 的 特殊 功能 ， 

所 以 不 同 厂 商 需 要 有 不 同 的 Miniport Driver。 最 底层 则 是 主机 内 部 总 线 
了 驱动， 比如 PCIE 总 线 驱 动 。 











再 来 看 右 侧 ， 这 个 图 表示 IO 在 这 些 驱 动 层次 之 间 的 流动 。 上 层 将 
IRP《〈 见 本 章 前 文 ) 发 同 下 层 的 Storage Class Driver，Class Driver 将 IRP 
转换 为 SRB (SCSI Request Block) ，SRB 中 包含 了 CDB (Command 
Description Block) 以 及 其 他 一 些 内 容 〈 有 人 可 能 不 解 ，Storage Class 
Driver 对 任何 设备 都 使 用 SCSI 协 议 集 么 ?请 层 如 果 是 ATA 人 磁盘 的 话 怎 么 
办 呢 ? 是 的 ， 这 个 问题 我 们 下 文 再 描述 ) ，Port ”Driver 接 收 到 SRB 之 
后 ， 对 SRB 进 行 分 析 ， 并 将 SRB 转 换 为 外 部 总 线 所 要 求 的 指令 格式 发 送 
给 对 应 的 设备 。 








个 细 


下 面 我 们 对 每 层 Driver 进 行 分 别 介 绍 。 


et 


3. Storage Class Driver 








Class Driver 是 驱动 某 个 最 终 设 备 的 功能 性 驱动 。Windows 针 对 所 有 
的 硬盘 设备 ， 不 管 其 是 SCSI 还 是 IDE 或 者 U 盘 或 者 SSD， 亦 或 是 磁盘 阵 
列 的 LUN、 卷 等 ， 都 使 用 相同 的 驱动 程序 ， 同 样 ， 针 对 其 他 大 类 的 设 
备 ， 也 都 使 用 相同 的 驱动 。 所 以 称 其 为 “Class Driver”。 Storage Class 
Driver 专 指 存储 类 的 驱动 ， 比 如 Disk Class Driver、CDROM Class 
Driver、Tape Class Driver 等 。Class Driver 由 操作 系统 目 身 提供 ， 不 需要 
厂商 针对 自己 的 设备 再 开发 完整 的 一 套 Class Driver， 如 果 某 个 设备 的 功 
能 并 不 能 由 操作 系统 自 带 的 Class Driver 来 驱动 ， 那 么 厂商 只 需要 开发 一 
个 附属 在 主 Class Driver 上 的 额外 驱动 模块 即 可 。 这 个 额外 的 小 模块 就 叫 
做 Miniclass Driver， 下 文中 将 会 描述 。 














Class Driver 处 理 上 层 (比如 用 户 程序 或 者 文件 系统 驱动 等 ) 下 发 的 
IRP， 根 据 IRP 的 请 求 内 容 ， 将 请 求 转换 成 包含 有 SCSI CDB 的 SCSI 
Request ”Block (SRB) ， 然 后 将 SRB 发 向 下 层 驱 动 ， 比 如 SCSI Port 
Driver 或 者 位 于 其 下 的 过 滤 驱 动 (如 果 有 的 话 〉 。Storage Class Driver 统 
一 使 用 SCSI 指 令 集 来 操作 确 层 设备 ， 如 果 压 层 物理 设备 并 非 SCSI 的 ， 
比如 ATA 磁 盘 ， 那 么 会 由 位 于 Class Driver 下 层 的 ATA Port Driver (下 文 
介绍 ) 将 SCSI 协 议 映 射 翻 译 为 ATA 协 议 指 令 。 此 外 ，Class Driver 也 并 不 
关心 底层 设备 对 应 的 总 线 物理 地 址 ， 底 层 寻 址 的 操作 由 Port Driver 执 
行 。 


Storage Class Driver 需 要 执行 的 具体 功能 如 下 。 


a 为 每 个 具体 设备 生成 FDO 对 象 。 如 果 设 备 上 存在 分 区 ， 则 对 每 个 


分 区 生成 PDO 和 FDO。 
a 获取 每 个 设备 的 属性 信息 ， 比 如 是 否 文 持 Write Cache 及 其 模式 、 
最 大 传输 单位 等 。 


处 理 上 层 下 发 的 IRP 请 求 ， 将 IRP 映 射 翻译 成 SRB 并 继续 下 发 。 
维护 每 个 请 求 的 超时 机 制 |。 

根据 底层 反馈 的 所 能 接受 的 每 个 请 求 的 最 大 传输 单元 ， 将 上 层 的 
IRP 请 求 的 数据 长 度 分 割 为 底层 所 能 接受 的 值 。 

错误 处 理 机 制 ， 处 理 底 层 所 不 能 处 理 的 错误 ， 比 如 SCSI Check- 


Re 大 
Condition 等 。 


1) SCSI PassThrough 文 持 








Storage Class Driver 支 持 SCSI PassThrough， 即 用 户 程序 可 以 直接 和 后 
成 CDB 而 发 癌 底 层 设备 ，Class Driver 收 到 上 层 的 CDB 之 后 ， 会 做 一 定 的 
格式 检查 ， 判 断 为 正确 格式 之 后 ， 还 需要 检查 IO Size， 如 果 大 于 底层 规 


定 的 最 大 值 ， 则 做 分 割 操作 ， 然 后 直接 将 CDB 封 装 到 SRB 中 发 送 给 Port 
Driver 处 理 。 


2) 关于 Command Queue 


对 于 Class Driver 层 ， 没 有 必要 对 所 有 上 层 发 来 的 了 RP 做 Queue 处 理 ， 
因为 Queue 的 处 理由 其 下 层 的 Port Driver 全 权 负 责 ，Class Driver 只 管 将 上 
层 的 IRP 翻 译 成 SRB 然 后 源源 不 断 地 同 Port Driver 的 Queue 里 填充 即 可 。 
Port Driver 会 为 每 个 LUN 分 别 创建 Queue， 比 如 SCSI Tagged Queue。 当 
某 个 LUN 的 IO 发 生 错 误 时 ，Port Driver 会 将 对 应 的 Queue 进 行 Freeze， 并 
将 自己 无 法 处 理 的 错误 报告 给 Class Driver， 由 后 者 进行 处 理 。Class 
Driver 会 但 询 底层 设备 所 文 持 的 Queue 方 式 ， 如 果 文 持 Queue， 则 Class 
Driver 会 在 每 个 SRB 中 设置 对 应 的 标记 告诉 Port Driver 本 次 IO 可 以 使 用 对 
应 的 Queue， 并 且 还 附带 了 对 本 次 IO 进行 SCSI Command Queue 的 策略 信 
息 ， 比 如 : SRB_SIMPLE_TAG_REQUEST (SCSI 控 制 器 可 以 将 这 个 IO 
重 排 到 任何 位 置 ) 、SRB_HEAD_ OF QUEUE_TAG REQUEST (控制 
器 必须 将 这 个 IO 放 到 队列 首 处 ， 首 先 执行 ) 或 者 
SRB_ORDERED_QUEUE_TAG_REQUEST (SCSI 控 制 器 必须 将 这 个 IO 
放 到 队列 尾部 按照 顺序 执行 ) 。 





3) 关于 获取 设备 属性 信息 


Class ”Driver 需 要 获取 它 所 驱动 的 设备 (此 处 其 实 是 获取 SCSI 或 者 
IDE、1394 等 控制 器 和 具体 的 SCSVIDE 设 备 的 属性 信息 ， 因 为 Class 
Driver 下 层 是 Port Driver，Class Driver 发 出 的 SRB 必 须 服 从 Port Driver 的 
要 求 ， 也 就 是 服从 SCSVIDE 控 制 器 的 要 求 ， 同 时 也 要 符合 最 终 设备 的 要 
求 ) 的 属性 信息 ， 这 些 属性 信息 包括 : 


SCSIIDE 控 制 器 的 最 大 传输 单元 ， 即 每 次 IO 的 最 大 可 读 写 的 而 区 
长 度 ; 

是 否 SCSWIDE 控 制 器 在 DMA 时 可 以 读 写 不 连续 的 物理 内 存 
Page， 数 量 是 多 少 ; 

SCSVIDE 控 制 器 对 Buffer 边 界 对齐 的 要 求 信息 ; 

SCSVIDE 控 制 器 是 否 支 持 SCSI 的 TCQ 以 及 是 否 支持 基于 每 个 
LUN 的 TCQ; 








SCSLIDE 控 制 器 是 否 支持 WriteBack 模 式 的 写 缓存 ， 具 体 类 型 是 什 
， 比 如 是 否 有 电池 保护 等 。 


DS 





4) 关于 设备 写 缓存 的 模式 


一 些 外 部 设备 比如 RAID 适 配器 、SCSI 适 配器 ， 都 具有 自己 的 组 

存 。 这 些 缓存 如 果 用 来 做 预 读 操作 ， 那 么 没有 任何 问题 ， 但 是 如 果 用 
Write Back 的 模式 来 缓存 写 数据 ， 那 么 在 这 些 适 配 卡 没有 电池 保护 其 上 
缓存 的 情况 下 ， 一 旦 发 生 供电 故障 或 者 Down 机 ， 则 被 缓存 的 写 数 据 就 
会 永久 丢失 。Class Driver 层 有 必要 知道 底层 设备 是 否 文 持 Write Back 组 
存 ， 如 果 文 持 ， 是 否 有 电池 保护 等 信息 。 对 于 没有 电池 保护 的 
WriteBack 模 式 的 设备 缓存 ，Class “Driver 有 两 种 解决 办 法 。 第 一 种 是 使 
用 SCSI SYNCHRONIZE CACHE 指 令 来 强制 让 设备 将 缓存 内 的 所 有 Dirty 
写 数据 写 入 存储 介质 中 ， 这 种 方法 需要 消耗 很 多 的 设备 自身 的 处 理 资 
源 ， 因 为 设备 一 旦 接收 到 这 个 指令 ， 就 需要 全 力 以 赴 地 执行 。 而 写 盘 动 
作 是 一 个 慢 速 动作 ， 在 执行 这 个 动作 期 间 ， 新 进入 的 写 IO 可 能 得 不 到 处 
理 ， 而 上 层 在 此 时 的 反应 就 仿佛 设备 挂 死 一 般 。 如 果 频 繁 地 使 用 SCSI 
SYNCHRONIZE CACHE 指令， 系统 整体 性 能 将 会 非常 差 。 第 二 种 方法 
则 是 针对 每 个 写 IO 使 用 Write ”Through 标记 (FUA 置 1， 即 Force Unit 
Access) ， 这 样 ， 设 备 在 从 总 线 上 接收 这 个 IO 请 求 写 的 数据 入 绥 存 的 同 





























时 ， 将 数据 写 向 介质 中 ， 只 有 成 功 写 入 了 介质 ， 才 返回 完成 信号 ， 而 写 
入 完成 后 ， 绥 存 中 的 这 些 数据 将 被 视 作 预 读 内 容 处 理 。 使 用 Write 
Through 的 方法 虽然 也 不 能 提高 写 性 能 ， 但 是 其 相对 SCSI 
SYNCHRONIZE CACHE 指 令 的 方式 来 讲 市 约 了 设备 处 理 资源 。 有 些 设 
备 并 不 文 持 FUA， 但 是 它 对 竺 每 个 写 IO 都 会 做 Write Through 处 理 ， 也 就 
是 原生 的 WIT 模 式 写 组 在。 而 有 些 设 备 则 带 有 电池 为 其 缓存 供电 ， 那 么 
这 时 候 ，Class Driver 就 没有 必要 发 起 Write Though 或 者 SCSI 
SYNCHRONIZE CACHE 了 。 








Class Driver 使 用 IOCTL _ STORAGE QUERY_ PROPERTY 功能 函数 
来 癌 Port _ Driver 查询 设备 属性 信息 ， 其 中 就 有 关于 写 缓存 的 信息 ， 有 具体 
写 缓存 信息 如 下 。 




















a 设备 是 否 具 有 写 缓 存 。 

设备 具有 何 种 写 缓 存 类 型 。 又 包含 两 种 具体 类 型 : Write Back 和 
原生 Write Through。 

a 设备 是 否 支持 SCSI SYNCHRONIZE CACHE 指 令 。 

a 设备 是 否 具 有 电池 保护 。 





提示 : ”我 们 在 Linux 系 统 启动 的 时 候 经 常会 看 到 一 些 信 息 ， 比 
如 在 发 现 某 个 sd 设备 的 时 候 ， 后 面 会 跟着 一 条 描述 信息 ， 比 
如 “Write ”Through”， 这 就 表示 Linux 下 的 块 设备 驱动 探寻 到 了 
具体 设备 所 文 持 的 写 缓存 方式 。 





5) 关于 Class Driver 层 的 请 求 重 试 


大 部 分 的 IO 请 求 重 试 都 是 由 Port ”Driver 来 做 的 ， 比 如 数据 校 验 错 
误 、 仲 裁 超 时 、Target 设 备 繁忙 、 总 线 Reset 等 底层 错误 。 针 对 这 些 底层 


错误 的 重 试 ， 需 要 由 Port Driver 负 责 ， 上 层 的 Class Driver 完 全 不 知道 也 
不 关心 ， 如 果 Port Driver 重 试 多 次 后 依然 无 法 成 功 ， 从 而 向 Class Driver 
报告 ， 那 么 此 时 Class Driver 不 应 该 再 次 重 试 以 做 无 用 功 。 然 而 ， 一 旦 遇 
到 一 些 上 层 逻 辑 的 错误 ， 比 如 Check Conditions 等 ， 那 么 此 时 就 需要 
Class Driver 介 和 入， 解决 对 应 的 错误 并 且 重 试 之 前 的 请 求 ， 由 于 错误 发 生 
之 后 ， 原 本 积压 在 Port Driver 的 Queue 队 列 中 的 所 有 IO 请 求 都 将 被 冻 住 ， 
等 待 错误 恢复 ， 所 以 Class Driver 需 要 将 重 试 的 请 求 标记 
SRB_HEAD OF QUEUE TAG 


_REQUEST 以 便 Port Driver 优 先 执行 这 个 IO 请 求 。 
4. Storage Miniclass Driver 


上 文中 曾经 简要 描述 过 ，Storage Miniclass Driver 的 角色 类 似 一 种 
Agent Driver， 用 来 针对 特殊 的 设备 实现 对 应 的 特殊 功能 。 这 些 功 能 
于 不 是 普 遇 的 每 个 广 家 都 来 实现 ， 所 以 在 Class Driver 中 并 不 包含 ， 厂商 
自行 开发 Miniclass Driver 然 后 将 其 与 主 Class Driver 链 接 起 来 形成 一 个 驱 
动 对 而 存在 。 





5. Storage Port Driver 


Port ”Driver 是 位 于 Class ”Driver 之 下 的 一 层 驱 动 程序 ， 同 样 也 是 由 
Windows 操 作 系 统 自身 提供 。Port Driver 是 用 来 驱动 各 种 外 部 总 线 控制 
器 有 的， 而 外 部 总 线 控制 器 一 般 又 位 于 主机 总 线 之 上 ， 也 就 是 表现 为 一 块 
接 入 主机 PCIE 等 总 线 的 适 配 卡 ， 所 以 说 Port Driver 又 可 以 被 看 做 是 这 些 
适 配 卡 的 驱动 程序 。 如 果 这 些 适 配 卡 是 专门 用 于 适 配 与 存储 有 关 的 总 线 
或 者 设备 的 话 ， 那 么 就 将 这 些 Port Driver 称 为 Storage Port Driver。 











所 有 类 型 的 基于 SCSI 的 存储 适配器 ， 不 管 它 是 SCSI 卡 、FC 卡 还 是 
ISCSI 卡 ， 亦 或 是 RAID 卡 ， 它 们 对 外 提供 的 总 是 一 个 或 者 多 个 SCSI 
Target 设 备 以 及 LUN， 上 层 的 驱动 比如 Class Driver 不管 这 些 LUN 是 通过 
IP 网 络 达 到 、 通 过 FC 网 络 达 到 还 是 通过 SCSI 总 线 网 络 达 到 ， 统 一 对 
待 。 这 也 就 是 “适配器 ”三 个 字 的 本 质 所 在 ， 适 配 的 就 是 这 种 不 同 的 后 站 
网 络 传输 方式 。 既 然 这 些 适 配器 都 对 外 具有 统一 性 ， 那 么 它们 的 驱动 程 
序 束 一 定 具 有 统一 性 ， 这 个 被 统一 的 驱动 程序 就 是 Windows 目 带 的 
Storage Port Driver。Port Driver 将 大 部 分 统一 的 功能 驱动 编写 好 ， 任 何 
适配器 三 了 阐 只 需要 编写 实现 自己 特殊 功能 的 那 部 分 Miniport Driver 即 
可 ， 大 大 简化 了 复杂 度 以 及 工作 量 。 




















适配器 驱动 与 适配器 便 件 的 工作 分 工 是 不 同 的 。 比 如 并 行 SCSI 适 配 
器 和 它 对 应 的 Port Driver 之 间 ， 适 配器 上 的 SCSI 控 制 器 硬件 本 身 所 做 的 
工作 包括 SCSI 总 线 的 初始 化 扫描 、 数 据 传输 时 的 总 线 仲裁 等 ， 而 其 对 应 
的 Port Driver 所 做 的 工作 则 是 将 IO 请 求 提交 给 控制 器 ， 控 制 器 再 将 请 求 
发 送 给 对 应 的 SCSI Target， 当 Target 执 行 完毕 返回 ACK 信 和 号 给 控制 器 之 
后 ， 控 制 器 将 这 个 信号 也 发 送 给 Port Driver 表 示 成 功 执行 ， 如 果 Target 执 
行 过 程 中 出 现 错 误 ， 那 么 控制 器 会 将 错误 信息 传递 给 Port Driver 处 理 。 
对 于 FC 适配器 ， 与 并 行 SCSI 控 制 器 所 不 同 的 地 方 束 是 由 并 行 SCSI 变 为 
了 FC 网 络 和 链 路 ， 所 以 一 切 FC 网 络 和 链 路 层 的 逻辑 都 需要 由 FC 控制 器 
硬件 来 完成 ， 而 网 络 链 路 所 承载 的 SCSI 上 层 逻 辑 依然 由 其 对 应 的 Port 
Driver 来 处 理 ，Port Driver 使 用 SCSI 上 层 逻 辑 来 收发 数据 和 控制 Target， 
与 并 行 SCSI 适 配器 所 不 同 的 只 是 FC 卡 的 Port Driver 可 以 探测 并 且 控 制 一 
些 FC 网 络 和 链 路 层 的 参数 ， 比 如 设置 WWN 或 者 更 改 FC Port 类 型 等 控制 
性 操作 。 同 理 ， 对 于 RAID 适 配器 等 也 都 是 这 个 道理 。 





在 Windows 中 提供 三 种 Storage Port Driver， 分 别 是 : SCSI Port 


Driver (SCSIPORT.sys 文 件 ) 、ATA Port Driver (ataport.sys 文 件 ) 以 及 
Storport Driver (storport.sys 文 件 ) 。 下 面 分 别 介 绍 。 


1) SCSI Port Driver 


SCSI Port Driver 是 一 个 最 标准 、 最 传统 的 Windows 下 的 用 于 驱动 基 
于 SCSI 协 议 的 适配器 的 Port Driver， 在 Windows 2003 之 后 的 版 本 ，SCSI 
Port Driver 被 Storport Driver 〈 下 文 介绍 ) 取代 ， 后 者 专门 针对 高 性 能 、 
高 带宽 存储 网 络 适 配器 做 了 优化 操作 。 但 是 Windows 2003 系 统 中 依然 可 
以 使 用 SCSI Port Driver。 


SCSI Port Driver 主 要 提供 如 下 功能 。 


提供 其 驱动 的 适 配 咒 的 各 种 属性 信息 给 上 层 的 Class Driver， 比 如 
最 大 传输 单元 的 限制 以 及 Write Cache 属 性 信息 等 。Class Driver 主 
动向 Port Driver (SCSIPORT Driver) 发 送 
IOCTL_STORAGFE_QUERY_PROPERTY 查 询 请 求 ，Port Driver 则 
将 所 有 信息 放 入 STORAGE_ADAPTER_DESCRIPTOR 中 返回 给 
Class Driver。 

确保 适 配 卡 所 连接 的 所 有 设备 处 于 正常 状态 ， 确 保 尚未 加 电 的 设 
备 不 被 上 层 逻 辑 所 使 用 。 

负责 提取 并 分 析 Class ”Driver 发 送 的 SRB 中 所 包含 的 CDB， 并 将 
CDB 封 装 为 对 应 物理 设备 可 识别 的 指令 。 

由 于 Class Driver 上 自身 并 没有 请 求 队列 ， 针 对 每 个 IRP 请 求 都 是 尽 
力 而 为 地 转换 为 SRB 而 直接 充 入 Port Driver 的 Queue 中 ， 这 个 过 程 
是 一 个 异步 过 程 ，Class Driver 无 须 等 待 上 一 个 请 求 的 完成 信号 整 
可 以 发 送 下 一 个 请 求 。Port Driver 处 必须 维护 请 求 队列 ， 因 为 底 
层 物理 设备 的 处 理 能 力 是 有 限 的 ， 而 且 可 能 随时 发 生 错误 ， 当 物 


理 设备 处 理 不 过 来 而 处 于 Busy 状 态 时 ，Port Driver 必 须 等 竺 并且 
重 试 ， 当 发 生 底层 错误 时 ， 同 样 也 需要 重 试 。 另 外 ， 磁 盘 是 文 持 
Queue 的 ， 比 如 FC 和 SAS 上 所 文 持 的 TCQ 以 及 SATA 上 所 文 持 的 

NCQ，Queue 的 效果 可 参考 本 章 后 面 章节 。 这 一 系列 的 逻辑 都 需 
要 Queue 的 存在 。 

管理 自身 的 请 求 队列 。 比 如 ， 当 发 生 上 层 逻 辑 错误 〈 比 如 Check 
Conditions) 时 ，Port Driver 自 行将 对 应 设备 的 Queue 冻 结 住 并 将 
错误 返回 给 Class ”Driver 进 行 处 理 ， 等 待 处 理 结果 返回 来 之 后 ， 
Port Driver 才 继续 执行 Queue 中 的 请 求 。 为 何 非 要 冻结 呢 ? 一 个 IO 
出 错 ， 并 不 影响 下 一 个 IO 的 执行 。 是 的 ， 但 是 第 一 ，IO 之 间 是 有 
上 层 逻 辑 关 联 的 ， 比 如 当前 发 生 错误 的 IO 为 针对 LBA1 的 写 入 请 
求 ， 而 队列 后 紧 跟 着 这 个 IO 之 后 的 是 针对 LBA1 的 读 请 求 ， 如 果 
在 这 个 写 IO 发 生 错 误 之 后 继续 执行 读 IO， 那 么 读 取 到 的 就 是 时 序 
上 不 一 致 的 数据 ， 第 二 ， 当 前 10 发 生 上 层 人 逻辑 错误 ， 那 么 就 意味 
者 很 有 可 能 后 续 的 IO 都 会 发 生 错误 ，Class Driver 很 可 能 会 Cancel 
挥 所 有 受 影 响 的 IO 请 求 ， 此 时 如 果 Port Driver 擅 上 自 处 理 ， 也 是 不 
允许 的 ， 所 以 ， 错 误 之 后 的 Queue 冻 结 是 有 必要 的 。 

除了 自身 管理 自身 的 队列 之 外 ，Port _ Driver 还 提供 接口 供 上 层 逻 
辑 来 控制 其 自身 的 Queue。Class Driver 以 及 其 他 上 层 逻 辑 可 以 向 
Port Driver 发 送 Lock、Unlock、Freeze、Unfreeze 请 求 以 操纵 其 队 
列 。 比 如 上 层 使 用 SRB_FUNCTION_RELEASE_QUEUE 功 能 调 
用 来 Unfreeze 已 经 被 冻结 的 Queue。 

当 发 生 底 层 错误 时 ， 对 IO 请 求 进行 重 试 操作 。 底 层 错误 指 诸如 数 
据 校 验 错误 、 传 输 时 错误 、 目 标 设 备 繁忙 、 仲 裁 冲 突 等 。 此 外 ， 
Class Driver 会 为 每 个 IO 设 定 Timeout 计 时 人 右 。 但 是 Port Driver 对 其 
有 更 灵活 的 处 理 ， 比 如 在 执行 IO 过 程 中 遇 到 链 路 中 断 ， 那 么 Port 
Driver 此 时 可 能 会 暂停 Timeout 计 时 器 ， 当 链 路 恢复 时 再 继续 计 






































时 。 

a 当 发 生 上 层 逻 辑 错 误 时 ， 将 错误 用 SCSI-2 Sense Status 格 式 封装 
并 传递 给 Class Driver，Class Driver 根 据 Sense 返 回 值 做 出 相应 处 
理 。 

a 提供 接口 支持 Miniport Driver。 


(1) 关于 SCSI Port Driver 与 Class Driver 之 间 的 接口 


在 前 文 描述 Class Driver 时 曾经 给 出 了 一 些 这 二 者 之 间 应 该 互相 沟通 
的 东西 ， 比 如 探 询 设备 属性 、SCSI Pass Through 支 持 、 分 割 IO 请 求 、 传 
输 SRB、 错 误 处 理 等 。 由 于 Class ”Driver 统 一 使 用 SCSI 协 议 指 令 集 ， 而 
SCSI Port Driver 也 是 专门 驱动 基于 SCSI 协 议 的 存储 适配器 的 驱动 ， 所 以 
二 者 之 间 的 CDB 信 息 是 完全 一 致 的 。SCSI Port Driver 在 收 到 Class Driver 
下 发 的 SRB 之 后 ， 只 需要 将 其 中 包含 的 CDB 加 入 一 些 诸如 端口 号 、 路 
径 、 目 标 Targe ID、LUN ”了 ID 等 寻 址 信息 然后 透 传 至 SCSI Miniport 
Driver，Miniport ”Driver 再 传递 给 适 配 卡 上 的 控制 器 即 可 。 如 果 是 ATA 
Port Driver， 那 么 Port Driver 必 须 将 基于 SCSI 的 CDB 转 换 映 射 成 对 应 的 
ATA 指 令 从 而 发 送 给 IDE 控 制 右 。 





当 出 现 上 层 逻 辑 错误 时 比如 Check Conditions，Class Driver 会 要 求 
Port Driver 向 控制 器 发 起 Request Sense 请 求 ，Port Driver 接 收 到 要 求 之 后 
就 会 生成 一 个 Request Sense 指 令 并 将 其 发 送 给 SCSI 控 制 嚣 ，SCSI 控 制 占 
再 根据 接收 到 的 CDB 中 的 目标 设备 地 址 和 ID 信息 ， 将 对 应 的 请 求 通过 对 
应 的 总 线 发 送 给 目标 设备 ， 目 标 设 备 返 回 的 Sense 数 据 中 包含 了 具体 的 
错误 代码 ，Port Driver 再 将 收 到 的 Sense 数 据 返 回 给 Class Driver 处 理 。 


提示 : SCSI 控 制 右 不 是 一 个 存储 目标 设备 ， 它 只 是 为 所 有 
SCSI 总 线 上 的 目标 设备 提供 一 种 数据 传输 控制 的 一 个 关口 设 


备 ， 是 一 个 "总线 控制 器 ”， 它 并 不 感知 具体 的 请 求 内 容 ， 只 管 
从 正确 的 目标 收 友 数据 。 所 以 驱动 程序 必须 在 IO 请 求 中 附 禹 有 
目标 设备 的 地 址 信息 。 


(2) 关于 SCSI Port Driver 与 SCSI Miniport Driver 之 间 的 接口 


二 者 之 间 通 过 一 系列 具体 的 功能 函数 以 及 回调 等 来 实现 沟通 ， 具 体 
细节 不 做 介绍 。 如 果 底 层 的 SCSI 适 配器 文 持 Tagged Command 
Queue (TCQ) ， 那 么 Port Driver 会 将 自身 Queue 中 的 请 求 异 步 地 批量 发 
送 给 Miniport Driver，Miniport Driver 也 同样 会 异步 地 将 请 求 通过 硬件 总 
线 传递 给 SCSI 适 配 卡 ， 如果 适 配 卡 不 支持 任何 Queue 技 术 ， 那 么 Port 
Driver 就 会 同步 地 将 请 求 发 送 给 Miniport Driver，IO 请 求 一 个 接 一 个 地 执 
行 。 同 样 ， 在 目标 设备 与 SCSI 控 制 器 之 间 也 是 这 样 做 的 。 


(3) 关于 SCSI Port Driver 的 队列 管理 


当 出 现 底层 错误 时 ，SCSI Port Driver 将 对 应 目标 设备 的 Queue 冻 结 
以 等 待 Class Driver 做 出 处 理 。 当 Class Driver 需 要 对 目标 设备 做 一 些 影响 
较 大 的 设置 更 改 时 ， 比 如 修改 目标 设备 的 电源 状态 ， 会 要 求 Port Driver 
将 Queue 锁 住 不 再 执行 ， 然 后 将 对 应 的 修改 设置 的 请 求 发 送 到 Port 
Driver， 这 个 请 求 中 带 有 Bypass Queue 的 标记 ， 所 以 此 时 虽然 Queue 被 锁 
住 ， 但 是 Port ”Driver 根 据 这 个 标记 依然 会 将 请 求 发 送 到 对 应 的 目标 设 
备 ， 完 成 之 后 ，Class ”Driver 会 对 Queue 进 行 Unlock 以 恢复 正常 执行 状 
态 。 上 层 驱 动 比如 Class Driver 可 以 在 下 发 的 SRB 中 将 
SRB_FUNCTION_FLUSH_QUEUE 置 位 以 要 求 Port Driver 对 其 Queue 中 的 
所 有 请 求 进行 Flush 操 作 ，Port Driver 接收 到 这 个 请 求 之 后 ， 会 将 当前 
Queue 中 的 所 有 请 求 执行 完毕 ， 并 且 还 命令 SCSI 控 制 器 或 者 RAID 卡 将 它 
们 自身 的 Cache 中 的 Dirty Data 写 入 磁盘 。 


2) ATA Port Driver 


在 Windows NT 4.0 时 代 ，ATA 设 备 的 驱动 是 作为 一 个 附属 于 SCSI 
Port ”Driver 的 Miniport ”Driver 实 现 的 (atapi.sys 文 件 ) ， 这 个 Miniport 
Driver 负 责 将 SRB 转 换 为 ATA 协 议 指 令 。 到 了 Win 2000 和 Win XP 时 代 ， 
这 个 Miniport ” Driver 脱离 了 SCSI Port Driver， 并 且 被 分 离 成 为 两 个 层 
次 ， 位 于 Class Driver 之 下 的 一 层 为 IDE Port Driver (atapi.sys 文 件 ) ， 专 
门 负责 管理 IDE 控 制 器 的 不 同 IDE 通 道 以 及 翻译 SRB 为 ATA 指 令 ， 其 再 
之 下 的 一 层 为 IDE Controller Driver (pciidex.sys 文 
件 ) /Minidriver (pciide.sys 文 件 ) 对 ， 专 门 负 责 驱 动 IDE 控 制 器 人 硬件 。 
到 了 Windows Vista 及 之 后 的 时 代 ，ATA 设 备 驱 动 义 被 做 了 一 些 更 改 ， 
这 里 惑 不 介绍 了 。 





3) Storport Driver 


Storport Driver (storport.sys 文 件 ) 是 Windows 2003 及 以 后 的 系统 中 
用 来 替代 SCSI Port Driver 的 。Storport Driver 在 性 能 和 接口 上 做 了 一 些 改 
进 ， 更 加 适合 于 诸如 RAID 卡 以 及 FC 卡 等 高 性 能 高 带宽 的 存储 IO 适 配 
器 。Storport Drver 相 对 SCSI Port Drver 在 接口 方面 的 改动 很 小 ， 所 以 ， 
厂商 自 开 发 的 SCSI Miniport Driver 升 级 到 Storport Miniport Driver 也 是 比 
较 容 易 的 。 








Storport Driver 相 对 于 SCSI Port Driver 的 最 大 改进 就 是 Storport Driver 
与 Storport Miniport Driver 之 间 的 接口 由 原来 的 同步 变 为 了 异步 ， 即 使 物 
理 设 备 不 支持 Queue。 而 SCSI Port Driver 只 有 在 物理 设备 支持 Queue 的 时 
候 才 异步 地 加 Miniport ”Driver 发 送 IO 请 求 。 其 次 ，Storport Miniport 
Driver 不 再 需要 在 中 断 与 IO 发 起 之 间 保 持 同 步 ， 二 者 可 以 各 干 各 的 ， 所 
以 类 似 一 种 全 双 工 模式 。Storport Port Driver 使 用 Push 方 式 将 IO 强行 推送 





给 Miniport Driver， 而 SCSI Port Driver 则 靠 Miniport Driver 每 执行 完 一 个 
IO 后 从 Port Driver 的 Queue 中 将 IO 请 求 Pull 过 来 执行 。 


另外 ，Storport Driver 在 Queue 管 理 方 面 也 有 提升 ，Storport Driver 为 
每 个 LUN 维 护 一 个 Queue，Queue 最 大 深度 为 254， 即 Queue 中 可 以 排 有 
254 个 尚 待 处理 的 IO 请 求 ， 如 图 19-65 所 示 。 























图 19-65 ”Storport 对 Queue 的 处 理 


另外 ， 当 出 现 目标 设备 繁忙 的 错误 时 ，SCSI Miniport Driver 不 会 向 
SCSI Port Driver 报告 这 个 状态 而 只 会 自行 重 斌 发送 IO 请 求 ，Storport 
Driver 则 允许 Storport Miniport Driver 报 告 Busy 状 态 ， 从 而 Storport Driver 
会 暂停 向 Miniport Driver 发 送 IO 请 求 。 


使 用 Storport Driver 有 一 些 其 他 限制 ， 这 里 融 不 再 介绍 了 。 
4) Storage Miniport Driver 


在 Windows 系 统 下 ， 我 们 常见 的 RAID 卡 、FC 卡 、SCSI 卡 、iSCSI 卡 
的 驱动 程序 其 实 几 乎 都 是 Miniport 这 种 架构 ， 这 些 卡 件 的 功能 区 别 体 现 
在 其 后 端 所 连接 的 总 线 方式 。 比 如 SCSI 连 接 的 直接 就 是 最 原始 的 并 行 
SCSI 链 路 ， 而 FC 卡 则 是 连接 了 FC 网 络 ，iSCSI 当 然 就 是 连接 了 IP 网 络 
了 ， 人 至 于 RAID 卡 ， 其 实 只 是 在 上 面 罗列 的 任何 一 种 卡 上 附带 有 RAID 控 
制 器 而 已 ， 加 了 一 层 虚 拟 化 操作 。 前 文 曾经 说 过 ， 这 些 适配器 本 是 同根 
生 ， 其 驱动 也 具有 统一 性 ， 但 是 每 种 设备 不 可 能 都 一 样 ， 总 有 一 些 区 别 
于 其 他 设备 的 细 化 功能 。 而 这 些 功能 上 的 区 别 ， 到 了 软件 层面 就 体现 在 
Miniport Driver 上 ， 而 位 于 Miniport Driver 上 面 的 所 有 软件 层次 模块 看 到 
的 其 实 都 是 同样 的 东西 。 








Miniport ” Driver 表现 为 一 个 DLL 文件 ， 它 与 Port Driver 进 行动 态 链 
接 。 针 对 每 种 Port Driver，Miniport Driver 又 可 以 分 为 SCSI Miniport 
Driver、 Storport Miniport Driver 和 ATA Port Miniport Driver。 


Miniport Driver 需 要 执行 的 部 分 任务 包括 : 


a 发 现 适 配器 并 探寻 其 各 种 属性 ; 
四 初始 化 适配器 ; 

a 执行 数据 IO 过 程 ; 

a 处 理 中 断 、 总 线 Reset 等 事件 ; 
a 维护 超时 计时 器 。 


5) Storage Filter Driver 


过 滤 驱 动 泛 指 插入 茶 两 个 驱动 层次 之 间 ， 用 上 自己 设 定 的 处 理 过 程 来 
改变 原 有 的 IO 内 容 或 者 路 径 或 者 于 痉 茶 些 符合 设 定 条 件 的 IO 请 求 的 一 种 
特殊 驱动 程序 。 过 滤 驱 动 由 于 插入 在 两 层 原 有 驱动 之 间 ， 所 以 它 必须 适 
配 上 下 层 ， 让 上 下 层 痢 感觉 不 到 它 的 存在 。 





典型 的 例子 ， 比 如 键盘 上 的 一 些 自 定 义 的 功能 键 、 按 键 组 合 等 ;或 

者 文件 加 密 工 具 ， 它 栓 入 Class Driver 之 上 和 Filesystem Driver 之 下 来 发 

再 比如 卷 镜 像 软 件 ， 它 插入 Port Driver 之 上 和 Class Driver 之 
还 有 存储 系统 中 常用 的 多 路 径 软 件 ， 也 是 一 种 过 滤 驱 动 。 


6. Linux 下 的 存储 系统 驱动 链 


1) SCSI 设 备 驱 动 链 





上 文 介 绍 了 Windows 下 的 Storage ”Driver 层 次 架构 ， 现 在 介绍 一 下 


Linux 下 的 层次 架构 。 其 实 Linux 下 的 存储 系统 驱动 程序 链 与 Windows 下 
的 主体 层次 大 至 是 一 臻 的， 只 是 并 没有 Windows 下 那么 人 简洁 的 层次 而 
己 。 如 图 19-66 所 示 为 Linux 下 的 一 个 典型 的 驱动 链 层次 。 





图 19-66 ”Linux 下 的 SCSI 设 备 驱 动 链 











位 于 首 层 的 当然 是 UNIX 类 系统 的 著名 的 VFS 目 录 层 ， 这 个 就 不 用 
多 做 解释 了 。 


下 一 层 是 Solid File System 层 ， 其 中 Solid 为 作者 自行 选择 的 用 词 ， 
之 所 以 使 用 Solid 这 个 词 是 为 了 显示 出 与 VFS 目 录 层 的 本 质 区 别 。Solid 
FS 层 为 实 ， 表 现 为 阴 的 实质 基础 ，VFS 层 为 虚 ， 表 现 为 阳 的 生发 能 量 ， 
所 以 用 Solid 表 示 “ 阴 实 >”。Solid FS 层 可 以 是 任何 一 种 实质 的 文件 系统 比 
如 EXT2/3 或 者 NTFS 等 。 








再 下 一 层 ， 就 是 系统 缓存 了 ， 全 局 的 Page Cache 绥 存 区 ， 可 Prefetch 
也 可 以 Write Back。 再 下 一 层 是 Generic Block Layer， 这 一 层 是 FS 抽象 的 
结束 ，EFS 将 文件 IO 映射 为 Block IO 之 后 ， 就 要 发 送 到 Generic Block 
Layer。 


再 往 下 就 是 各 个 块 设 备 的 驱动 层 ， 通 用 块 层 将 对 应 的 IO 请 求 发 送 给 
对 应 的 块 设 备 驱 动 ， 著 名 的 IO ”Scheduler 调 度 器 就 运行 在 此 层 ， 此 处 调 


度 器 需要 一 个 Queue。 


再 往 下 是 一 个 公共 服务 层 ， 即 SCSI Middle Layer， 这 一 层 的 功能 是 
专门 处 理 SCSI 上 层 逻 辑 ， 比 如 数据 IO、 和 错误 处 理 等 机 制 ， 还 负责 将 上 层 
的 块 IO 了 映射 翻 译 成 对 应 的 SCSI 协 议 CDB， 然 后 发 向 其 下 层 的 SCSI Host 
Controller， 即 SCSI 控 制 嚣 驱动， 这 里 也 需要 有 一 个 Queue。 到 了 这 里 ， 
再 往 下 就 是 系统 总 线 和 外 部 总 线 、 适 配 卡 等 硬件 了 。 


如 果 非 要 将 Linux 下 驱动 链 与 Windows 下 的 做 类 比 的 话 ， 那 么 
Generic Block Layer 和 Block Device Driver Layer 以 及 SCSI Middle Layer 这 
三 者 合 起 来 提供 的 功能 相当 于 Windows 下 的 SCSI Class Driver; SCSI 
Host Controller Driver 就 相当 于 Windows 下 的 SCSI Port Driver。Windows 
下 的 存储 子 系 统 驱 动 链 中 只 有 一 个 Queue， 即 Port Driver 所 维护 的 
Queue， 而 Linux 下 有 两 处 。 


下 面 详 细 介绍 一 下 一 个 IO 请 求 在 Linux 内 核 中 的 流动 过 程 。 


(1) 用 户 程序 对 一 个 VEFS 目 录 对 象 〈 比 如 /mnttest.file) 发 起 
OpengO 操 作 。 


(2) 随后 进行 read0 操 作 ， 内 核 接收 到 readO 请 求 之 后 ， 首 先进 入 
了 文件 系统 的 处 理 流程 当中 ， 文 件 系统 入 口 为 generic_file_ read0。 入 口 
函数 判断 本 次 IO 是 否 为 Direct IO， 如 果 是 则 调用 generic_file_direct_IO0) 
函数 来 进入 DIO 流 程 ， 如 果 是 Buffered IO， 则 调用 do_generic file_read0) 
函数 进入 Cache Hit 流 程 。do_generic_file_read0 其 实 只 是 一 个 外 壳 包 装 ， 
其 内 部 其 实 是 do_generic_mapping_read()。 


(3) 文件 的 区 段 都 会 被 映射 到 Page Cache 中 对 应 的 Page 中 ， 这 个 函 
数 首 先 检查 请 求 的 数据 对 应 的 Page 是 否 已 有 数据 填充 ， 如 果 有 ， 则 
Cache Hit， 直 接 将 其 中 数据 返回 给 上 层 ; 如 果 未 命中 ， 则 调用 
readpage0 函 数 来 癌 底 层 发 起 一 个 块 请 求 ，readpage0O 调 用 了 
mpage_readpage()。 


(4) mpage_readpage() 义 调用 了 do_mpage_readpage() 函 数 来 创建 一 
个 bio 请 求 〈 即 Block IO， 这 个 bio 相 当 于 Windows 系 统 下 的 IRP) 。 


(5) 然后 接着 调用 mpage_bio_submitO 处 理 这 个 bio 请 求 ， 


mpage_bio_submit() 其 实 调用 了 submit_bio() 函 数 将 bio 发 送 给 下 层 函 数 
generic_make_request()。generic_make_request() 了 水 数 为 通用 块 层 的 入 口 
函数 ， 这 个 函数 调用 make_request_fn0 函 数 将 bio 发 送 给 下 层 ， 也 就 是 
Block Device Driver 层 的 IO Scheduler 的 队列 中 。 


(6) make_request_fn0 函 数 为 块 设备 驱动 层 的 入 口 函 数 ， 也 是 IO 
Scheduler 的 入 口 函数 ， 这 个 函数 包装 了 make _ requestO 函 数 ， 它 是 实 
现 IO Scheduler 的 调度 功能 的 主要 阔 数 。 关 于 IO Scheduler 的 具体 功能 将 
征 下 二 介绍 。 


(7) IO Scheduler 通 过 调用 request_fn() 函 数 从 而 将 bio 下 发 给 了 SCSI 
控制 器 驱动 ，SCSI 控 制 器 驱动 程序 调用 相关 函数 将 这 个 bio 转 换 成 SCSI 
间 令 ， 然 后 调用 scsi_dispatch_cmd() 将 指令 发 送 给 对 应 的 SCSI 控 制 器 人 硬 
1 


以 上 过 程 可 以 对 应 图 19-67 所 示 的 流程 图 来 理解 。 


图 19-67 ”Linux 系 统 块 设备 IO 流 程 图 








2) Linux 对 ATA 设 备 的 驱动 链 


如 图 19-68 所 示 ， 与 Windows 下 的 ATA Port Driver 类 似 ，Linux 也 使 
用 一 种 LibATA 库 来 负责 将 SCSI 协 议 转 换 为 ATA 协 议 并 发 送 给 ATA 控 制 
器 驱动 程序 。 





图 19-68 Linux 下 ATA 设备 驱动 链 





3) IO Scheduler 


IO Scheduler 是 Linux 下 专用 来 对 IO 进 行 优化 的 一 个 模块 ， 所 有 针对 


底层 存储 设备 的 IO 都 要 经 过 这 个 模块 的 优化 操作 ， 然 后 将 被 优化 之 后 的 
IO 顺序 地 放 到 底层 存储 控制 器 驱动 程序 的 Queue 中 ， 如 图 19-69 所 示 。 








图 19-69 IO 调度 器 基本 架构 图 


IO Scheduler 首 先 要 做 的 优化 是 对 所 有 Block IO 进行 重新 排序 操作 ， 
即 Reorder， 让 它们 按照 LBA 地 址 进行 排序 。 因 为 磁盘 的 磁头 臂 每 执行 
一 个 IO 束 至 少 需要 一 次 寻 道 操作 ， 如 果 将 上 层 无 序 的 IO 直 接 发 给 人 磁盘 执 
行 ， 那 么 磁头 臂 可 能 会 做 很 多 不 必要 的 来 回 摆动 ， 极 大 影响 IO 性 能 ;而 
如 果 将 IO 预先 按照 LBA 地 址 排序 然后 再 发 给 磁盘 ， 那 么 磁头 臂 就 可 以 持 
续 地 同一 个 方 同 寻 道 ， 避 人 免 了 摆 回 去 再 摆 过 来 的 浪费 。 





其 次 ，IO Scheduler 还 可 以 对 相 邻 LBA 地 址 的 同类 型 的 IO 请 求 进行 
合并 操作 ， 即 Merge。 比 如 有 两 个 读 IO 先 后 到 达 ， 第 一 个 的 起 始 LBA 地 
址 为 0， 长 度 1024， 第 二 个 的 起 始 LBA 为 1024， 长 度 3072， 则 IO 
Scheduler 就 可 以 将 这 两 个 IO 合并 成 一 个 起 始 地 址 为 LBA0、 长 度 为 4096 
的 大 读 IO。 当 然 ， 如 果 后 到 的 同类 型 的 IO 的 目标 地 址 与 之 前 的 某 个 IO 地 
址 完全 重合 ， 则 调度 器 会 直接 抛弃 之 前 的 IO， 如 果 后 到 的 同类 型 的 IO 与 
之 前 的 IO 目标 地 址 有 交集 但 是 不 全 重合 ， 那 么 调度 器 会 取 并 集 。 











另外 ， 既 然 IO ”Scheduler 对 IO 进 行 了 有 区 别 的 对 得 ， 那 么 它 就 一 定 
要 在 区 别 的 同时 保证 每 个 IO 的 利益 ， 比 如 有 某 个 IO 其 目的 LBA 地 址 是 一 
个 在 一 段 时 间 内 比较 冷门 的 地 方 ， 一 般 IO 没 去 那里 的 ， 所 以 IO 
Scheduler 想 找 儿 个 IO 和 它 做 伴 ， 以 减少 运费 ， 但 是 否 耐 一 直 没 找到 ， 那 
么 只 能 将 它 放 在 队列 里 等 着 ， 但 是 过 了 很 长 时 间 依 然 也 没 去 执行 它 。 这 
种 情况 IO Scheduler 需 要 尽量 避免 。 








还 会 发 生 另 外 一 种 情况 ， 即 有 些 IO 拉 帮 结 派 ， 专 横 跨 雇 得 很 ， 动 辑 





-大批 一 下 子 进 来 排队 ， 乔 的 队列 里 被 它们 占 了 大 部 分 地 方 。 比 如 在 程 
序 使 用 Buffered IO 模式 十 同步 IO 调用 的 时 候 ， 对 于 写 操作 的 执行 总 比 读 
操作 快 ， 因 为 写 操 作 永 远 都 是 被 内 核 接 受 并 且 数 据 被 复制 到 内 核 缓存 后 
就 返回 成 功 信号 ;而 读 则 不 行 ， 恋 操作 在 缓存 未 命中 的 情况 下 ， 必 须 从 
存储 介质 中 该 出 并 且 返 回 给 程序 才 算 完成 ， 而 这 种 情况 下 读 操 作 是 很 慢 
的 ， 在 同步 IO 调用 情况 下 ， 读 操作 只 能 一 个 接 一 个 的 来 ， 而 写 则 可 以 大 
批 地 执行 。 其 次 ， 读 总 比 写 要 重要 ， 这 里 的 重要 是 对 于 程序 自身 来 讲 
的 ， 因 为 只 要 一 个 程序 发 起 读 操作 ， 就 证 明 它 需要 这 份 数 据 才 能 够 做 出 
下 一 步 动作 ， 如 有 果 返 迟 不 给 它 这 份 数 据 ， 那 么 它 很 有 可 能 就 处 于 等 竺 状 
态 ， 处 理 效率 和 吞吐 量 就 降低 了 。 但 是 程序 如 果 发 起 写 操作 ， 证 明 它 已 
经 处 理 完 了 这 些 数据 需要 将 它们 存 到 人 硬盘， 而 如 果 迟 迟 不 处 理 这 些 写 数 
据 ， 那 么 程序 的 效率 和 计算 吞吐 量 可 能 根本 不 会 受到 影响 或 者 受到 很 小 
的 影响 ， 程 序 会 继续 读 入 数据 、 处 理 计 算 ， 然 后 尝试 写 入 硬盘 ， 虽 然 此 
时 写 入 的 时 候 有 积压 。IO “Scheduler 必 须 解 决 这 个 问题 ， 即 * 读 饿 死 ?> 问 
题 。 


























同时 ， 在 多 个 用 户 进 程 同 时 发 起 IO 时 ， 不 管 是 读 还 是 写 ， 也 存在 争 
抢 问题 ， 有 些 进 程 发 起 大 量 的 IO， 而 有 些 则 发 起 很 少量 的 IO， 此 时 一 样 
会 出 现 队 列 争 抢 问 题 。IO Scheduler 有 必要 本 着 公平 公正 的 原则 处 理 。 





如 图 19-70 所 示 为 Linux 下 的 IO Scheduler 对 IO 进行 Merge 操 作 时 的 基 
本 流程 。 其 中 FrontMerge 和 BackMerge 分 开 对 待 是 因为 Merge 之 后 必然 需 
要 Split， 调 度 器 根据 Front 和 Back 来 判断 被 Merge 的 IO 是 追加 在 之 前 IO 的 
后 面 还 是 被 贴 附 到 之 前 IO 的 前 面 ， 这 样 就 可 以 在 Split 的 时 候 根 据 Front 或 
Back 来 进行 Split 操 作 。 

















图 19-70 IO 调度 器 对 IO 进行 Merge 时 的 流程 图 


在 Linux 2.6 内 核 中 ， 有 4 种 IO 调度 方式 : NOOP、Deadline、 
Anticipatory、CEQ。 每 种 方式 的 侧重 点 不 同 ， 实 现 方式 也 不 同 ， 但 是 基 
本 的 Merge 操 作 ， 这 4 种 调度 方式 都 会 执行 。 这 些 调度 方式 可 以 在 系统 运 
行 的 时 候 任意 更 改 ， 并 不 会 影响 IO 的 执行 。 下 面 简要 介绍 一 下 这 4 种 调 











(1) NOOP 调 度 方 式 


NOOP 调 度 方 式 可 以 说 并 没有 去 调度 什么 ， 而 只 是 将 所 有 IO 按照 先 
进 先 出 的 顺序 进行 排队 ， 它 只 执行 Merge 操 作 ， 而 不 去 改变 IO 的 顺序 以 
适应 磁头 臂 寻 道 。 如 果 底 层 存储 介质 为 机 械 硬 盘 ， 并 且 IO 属 性 为 随机 IO 
的 话 ， 那 么 使 用 这 种 方式 无 异 于 目 找 知 吃 。 这 种 调度 方式 可 以 说 是 专门 
为 以 Flash 为 介质 的 存储 系统 而 生 的 ， 因 为 Flash 介 质 的 存储 系统 不 需要 
机 械 寻 道 ， 所 以 是 否 重 排 IO 对 其 没有 任何 意义 ; 但 是 Merge IO 依然 具有 
意义 ，Merge IO 任何 情况 下 都 具有 意义 。 不 对 IO 进行 重 排 ， 带 来 的 好 处 
征 极 大 地 节省 了 系统 资源 ， 包 括 内 存 和 CPU 资源 。 











(2) Deadline 调 度 方式 


Deadline 调 度 方 式 会 对 Queue 中 的 IO 进 行 Merge 和 重 排 操 作 。 它 会 创 
建 两 个 队列 和 两 个 表 ， 一 个 队列 是 按照 读 IO 的 LBA 起 始 地 址 进行 排序 的 
读 IO 队 列 ， 与 其 对 应 的 有 一 个 按照 IO 进 入 顺序 排列 的 FIFO 表 ， 用 来 记 
录 队 列 中 所 有 IO 的 进入 顺序 ， 同 样 ， 对 于 写 IO 操 作 也 维护 这 样 一 个 队列 
和 一 个 表 。 常 规 情况 下 ， 调 度 器 将 IO 重 排 后 下 发 给 下 层 驱 动 执行 ， 但 是 
这 样 势 必 会 引起 上 文中 提 到 的 IO 被 冷落 的 情况 ， 所 以 Deadline 调 度 器 会 
维护 计时 器 ， 当 FIFO 表 中 有 某 个 IO 的 进入 时 间 惟 与 当前 时 间 相 差 到 一 
定 程度 时 ， 也 就 是 说 这 个 IO 在 队列 中 待 了 太 入 也 没 被 执行 ， 那 么 调度 器 
会 抛 开 其 他 一 切 因素 将 这 个 IO 下 发 到 下 层 驱 动 。 这 也 是 其 被 称 为 








Deadline 调 度 器 的 原因 。Deadline 调 度 器 针对 读 IO 的 停留 阔 值 时 间 为 
500ms， 而 对 于 写 IO 则 为 5s， 这 样 考虑 的 原因 是 因为 上 文中 提 到 过 的 “ 读 
饿 死 ” 的 情况 。 如 图 19-71 所 示 为 Deadline 调 度 器 的 队列 构成 以 及 调用 的 
相关 函数 。 








图 19-71 Deadline 调 度 器 队列 结构 





(3) Anticipatory 调 度 方 式 


顾名思义 ，Anticipatory 调 度 器 会 做 某 种 预测 从 而 执行 对 应 的 调度 算 
法 。 它 会 根据 队列 中 已 经 存在 的 IO 的 起 始 地 址 信息 来 预测 是 否 下 一 个 到 
来 的 IO 其 起 始 地 址 与 队列 中 的 某 个 IO 会 相近 甚至 相 邻 。 如 果 它 判断 的 结 
条 为 是 ， 那 么 它 会 等 待 一 段 时 间 ， 等 待 符合 条 件 的 IO 进入 。 如 采 进 入 相 
邻 的 ID， 那么 就 将 其 与 现存 的 IO 进行 Merge 操 作 ; 如 果 是 相近 的 IO， 则 
可 以 将 其 重 排 ， 磁 头 臂 不 需要 远 距 离 寻 道 。 利 用 这 种 方法 来 最 大 限度 地 
提高 效率 。 这 种 预测 仅 限 于 读 IO， 对 于 写 IO 不 做 预测 。 











如 图 19-72 所 示 为 Anticipatory 调 度 器 的 等 待 判 断 流程。 其 中 ，Mean 
thinktime 表 示 自 从 上 一 个 读 IO 完 成 之 后 到 接收 到 写 一 个 读 IO 的 相隔 时 间 
的 平均 值 ， Mean seekdistance 表 示 前 一 个 读 IO 的 结束 地 址 与 后 一 个 读 IO 
的 起 始 地 址 之 间 的 距离 平均 值 。 


图 19-72 ”Anticipatory 调 度 器 等 待 判断 流程 


Anticipatory 调 度 器 如 此 的 预测 和 等 待 ， 为 的 只 是 多 拉 快 跑 ， 这 样 做 
的 根本 原因 还 是 因为 运力 不 够 ， 比 如 底层 存储 系统 是 很 慢 的 机 械 人 硬盘 等 
情况 。 





(4) CFQ 调 度 方式 


CFQ 全 称 为 Completely Fair Queue， 完 全 彻底 的 公平 的 队列 调度 。 
CFQ 调 度 模 式 除 了 有 具备 基本 的 Merge、 重 排 等 功能 之 外 ， 还 体现 了 绝对 
公平 。 这 里 的 公平 二 字 ， 体 现在 对 多 个 进程 ， 或 者 多 个 进程 组 、 多 个 不 
同 用 户 各 自 的 所 有 进程 、 多 个 不 同 用 户 组 各 自 的 所 有 进程 所 发 出 的 IO， 
按照 这 些 单位 作为 调度 粒度 ， 在 这 些 和 单位 之 间 保 持 完 全 公平 。 比 如 两 个 
用 户 分 别 各 上 自 运行 了 两 个 进程 ， 那 么 CFQ 调 上 度 占 会 为 每 个 用 户 的 两 个 进 
程 创 建 对 应 的 队列 ， 在 这 两 个 队列 之 间 保 持 公平 ， 比 如 从 队列 1 被 提取 
下 发 了 4 个 IO， 那 么 会 转 到 队列 2 提取 下 发 4 个 IO。 如 图 19-73 所 示 为 单 进 
程 调 度 粒 度 的 CFQ 调 度 器 的 队列 结构 。 





对 前 文 所 说 的 “ 读 饿 死 " 情 况 ，CFQ 使 用 了 一 些 参数 来 控制 这 种 情况 
的 发 生 。 另 外 ，CFQ 对 Synchronous IO 的 处 理 优 先 级 要 比 Asynchronous 
IO 高 很 多 ， 因 为 同步 IO 表示 程序 此 时 是 阻塞 的 ， 程 序 在 等 待 返回 ， 而 异 
步 IO 则 表明 程序 没有 在 等 待 ，CFQ 给 予 同步 ID 以 高 优先 级 是 理所当然 
的 。 














图 19-73 ”CFQ 调 度 器 队列 结构 


CFQ 中 的 一 些 可 调 市 参数 如 下 。 








m back_seek_max 这 个 参数 规定 了 后 同 寻 道 距 离 的 最 大 值 ， 单 位 
用 KB 表示 ， 默 认 值 为 16384KB。 这 个 参数 效仿 于 Anticipatory 调 
度 模 式 下 的 mean seekdisktance 参 数 ， 只 不 过 CFQ 中 这 个 参数 是 一 
个 定 值 ， 而 Anticipatory 调 度 模 式 下 的 这 个 值 等 于 历史 统计 结果 平 
均值 ， 但 是 参数 决定 的 行为 对 于 两 个 调度 模式 下 是 不 同 的 。 
Queue 中 将 要 被 执行 的 IO 《〈 此 时 Queue 中 的 IO 已 经 按照 目标 地 址 
和 磁头 臂 摆 动 的 方向 进行 插入 排序 了 ) 的 目标 地 址 如 果 位 于 当前 
磁头 臂 摆 动 的 方向 后 方 〈 即 需要 摆 回 去 才能 执行 这 个 IO) ， 而 且 











相隔 当前 的 磁头 位 置 “ 也 惑 是 上 一 个 IO 的 结束 地 址 ) 的 距离 大 于 
这 个 参数 给 定 的 值 ， 那 么 CFQ 会 判断 为 后 同 寻 道 距 离 过 长 ， 不 划 
算 ， 所 以 继续 执行 队列 中 的 正方 向 的 IO， 因 为 磁头 同一 个 方向 连 
续 摆 动 时 的 寻 道 开销 是 最 少 的 。 如 果 距 离 小 于 这 个 值 ， 那 么 CFQ 
认为 摆 回 去 是 划算 的 ， 执 行当 前 IO。 

back_seek_penalty 这 个 参数 的 作用 与 back_seek_max 类 似 ， 只 不 
过 更 加 纯粹 一 些 。 它 同样 决定 了 磁头 恬 后 同 回 摆 是 否 划 算 。 如 果 
当前 磁头 位 置 位 于 a 处 ， 而 Queue 中 有 两 个 IJO， 目 标 位 置 分 别 为 后 
癌 a 一 nD， 和 前 向 a 十 mm， 如果 (a 一 n) 二 (a 二 m) / 
back_seek_penalty， 则 CFQ 将 后 同 的 IO 与 前 同 的 IO 同等 对 符 ， 侈 
摆 回 磁头 臂 执 行 后 向 IO， 再 执行 前 向 IO。 

fifo_expire_async ”这 个 参数 规定 了 Queue 中 的 某 个 异步 IO 如 果 
为 重 排 等 因素 而 一 直 没 有 被 执行 从 而 超过 了 这 个 参数 所 规定 的 时 
间 的 话 ， 那 么 会 强制 执行 这 个 IO。 默 认 值 为 250ms。 
fifo_expire_sync ”这 个 参数 与 fifo_expire_async 类 似 ， 只 不 过 是 针 
对 Queue 中 的 同步 IO， 默 认 值 为 125ms。 可 以 看 到 CFQ 是 偏 问 优 
先 执行 同步 IO 的 。 

slice_sync CFQ 之 所 以 公平 ， 是 因为 它 会 轮流 从 每 个 进程 、 进 程 
组 、 用 户 或 用 户 组 的 Queue 中 提取 IO 并 下 发 给 设备 驱动 。 为 了 保 
证 公平 ，CFQ 对 每 个 Queue 的 执行 时 间 是 分 请 的 ， 这 个 值 就 规定 
了 CFQ 对 每 个 同步 0 的 Queue 所 执行 的 时 间 ， 默 认为 100ms。 
slice_async 与 slice_sync 类 似 。 默 认 值 40ms。 

slice_asyn_rq 这 个 值 限 制 了 CEFQ 每 次 执行 异步 IO 队列 时 最 大 可 
以 提取 下 发 的 IO 请 求 数量 ， 默 认为 2。 当 被 下 及 了 对 应 数值 的 IO 
之 后 ，CFQ 将 转 到 下 一 个 Queue 继 续 执行 。 对 于 同步 IO 队列 ， 没 
有 这 个 参数 的 限制 ， 可 见 CFQ 对 同步 IO 大 开绿灯 。 

slice_idle 对 于 同步 IO 队列 ， 如 果 轮 到 某 个 同步 IO 队列 被 执行 








时 ， 队 列 中 却 是 空 的， 那么 CFQ 将 等 待 slice_idle 所 规定 的 时 间 ; 
如 果 超 过 这 个 时 间 仍 未 有 IO 进 入 ， 那 么 CFQ 转 向 下 一 个 Queue 执 
行 。slice_idle 默 认 值 为 8ms。 对 于 异步 IO 队 列 ，CFQ 并 不 等 待 。 
可 见 CFQ 对 同步 IO 的 重视 程度 。 

sa Quantum 这 个 值 规定 了 底层 存储 控制 器 驱动 的 Queue ”Depth， 
CFQ 不 能 将 多 于 这 个 值 所 规定 的 IO 数量 发 送 给 底层 设备 驱动 。 





提示 : ，” 随 着 外 部 存储 系统 越 来 越 智能 化 ， 这 些 IO 优 化 任务 其 
中 大 部 分 完全 可 以 交 给 外 部 存储 控制 器 来 执行 ， 主 机 端 完 全 没 
有 必要 多 此 一 举 ， 浪 费 系 统 资源 ， 所 以 目前 IO ”Scheduler 下 在 
被 逐 渐 弱 化 ， 仅 仅 对 于 本 地 硬盘 或 者 JBOD 阵 列 有 些许 效果 。 
因此 对 于 使 用 外 部 智能 磁 检 阵列 存储 系统 的 Linux 系 统 ， 可 以 
使 用 NOOP 或 者 CFQ 模 式 的 Scheduler。 由 于 外 部 存储 控制 器 无 
法 感知 到 进入 的 IO 所 附属 的 主机 端 进程 ， 因 此 不 可 能 做 到 辣 主 
机 端 IO Scheduler 平 衡 多 进程 IO， 所 以 CFQ 是 有 必要 使 用 的 。 
主机 SCSI 或 者 FC 控 制 器 驱动 程序 都 会 探知 到 底层 硬件 是 否 

持 TCQ 或 者 NCQ， 如 果 文 持 ， 则 驱动 程序 会 异步 地 将 批量 IO 充 
入 底层 的 Queue; 如 果 不 文 持 ， 则 只 会 一 个 一 个 地 将 IO 下 发 ， 
严重 影响 性 能 。 不 支持 Queue 的 一 般 是 单个 低 端 磁盘 ， 而 磁盘 
同一 时 刻 只 能 执行 一 个 IO 操作 ， 所 以 控制 右 感 知 到 这 一 点 ， 才 
会 一 个 一 个 地 将 IO 下 发 。 而 对 于 外 部 磁盘 阵列 系统 ， 在 接收 到 
主机 端 设 备 属性 查询 时 都 会 返回 文 持 Queue 以 及 Battery Backup 
Write Back Cache。 

另外 ， 不 光 外 部 只 能 用 盘 阵 ， 对 于 文 持 TCQ 的 SCSI 磁 盘 或 者 文 
持 NCQ 的 SATA 人 磁盘 ， 如 果 对 应 的 控制 占 人 硬件 以 及 驱动 程序 也 
同时 支持 Queue 的 话 ， 那 么 IO ”Scheduler 的 效果 同样 也 会 被 弱 
化 ， 此 时 选择 NOOP 或 者 CFQ 方 式 即 可 。 








对 于 Linux 操 作 系 统 ， 调 度 器 的 队列 深度 设置 ， 可 以 通过 编 
辑 /sys/block/sda/queue/nr_requests 文 件 中 对 应 的 值 来 实现 。 队 
列 深度 越 大 ， 那 么 IO 优化 的 效果 越 明 显 ， 但 是 每 个 IO 的 延迟 也 
会 随 之 升 高 。 关 于 Queue 深 度 与 IO 延迟 的 关系 见 下 文 描述 。 


(5) IO Scheduler 对 IO 的 Merge 实 例 


程序 对 块 设 备 做 IO 时 ， 诸 如 O_SYNC (类 似 WRITE_THROUGH,， 


并 不 指 同步 IO 调用 ) 每 参数 依然 适用 ， 并 且 由 于 块 设备 的 写 惩罚 特性 ， 
在 UNIX 系 统 下 ， 使 用 O_SYNC 模 式 调用 时 ， 写 征召 最 严 重 ， 如 果 不 使 
用 O_SYNC 或 者 WRITE_THROUGH 之 类 的 参数 ， 那 么 写 数据 会 被 块 设 
备 驱动 进行 Merge 操 作 。 下 面 这 个 测试 使 用 的 命令 为 dd 放 =/dev/zero of 
二 /dev/sdb bs 二 512 count 二 1000， 操 作 很 快 完成 ， 使 用 iostat 工 具 检 测 到 
了 这 个 过 程 中 的 所 有 IO 情 况 。 


IO 


-> 


Device: rrqm/s wrqm/s r/s w/Ss rsec/s wsec/s av 
sda 0.00 ©0.00 0.00 0.00 0.00 0.00 0.00 0.00 
sdb 0.00 115.00 125.00 10.00 1000.00 1000.00 14.82 0.0 
wrqm/s The number of write requests merged per second that w 
r/s The number of read requests that were issued to the 
w/Ss The number of write requests that were issued to the 


wsec/s The number sector transferred to the device per senco 


Q) dd 发 起 “offset0 length 512B” 的 写 IO 到 内 核 ， 由 于 使 用 了 Buffered 
内 核 立 即 通知 dd 完成 了 。 


@ 内 核 首 先 读 出 这 个 块 设备 在 Page Cache 中 映射 的 逻辑 上 的 第 一 个 


4KB 的 Page 也 就 是 Page0， 然 后 修改 前 512B， 再 将 修改 后 的 Page0 放 入 块 


设备 Queue 中 等 待 写 入 。 


@) ”在 上 一 个 Page0 尚 未 写 入 时 ，dd 完 全 可 能 再 次 发 起 “offset 二 512 
length 二 512” 的 下 一 个 写 请 求 ， 同 样 ， 立 即 被 告知 完成 。 


由 内 核 为 了 服务 第 二 次 512B 的 写 入 ， 需 要 再 次 读 入 Page0。 由 于 之 
前 的 Dirty Page0 还 在 Page _ Cache 中 ， 上 所 以 本 次 读 会 命中 缓存 ， 内 核 将 本 
次 的 Page0 的 对 应 区 域 修改 之 后 ， 再 次 将 这 个 Page0 放 入 块 设备 Queue 中 


等 等 写 入 。 


@ 块 设备 的 IO Scheduler 前 后 两 次 收 到 了 两 个 针对 同一 个 目标 地 址 
段 的 写 IO， 根 据 调度 规则， 当然 是 将 前 一 个 写 IO 抛 弃 ， 只 保留 后 一 个 ， 
或 者 也 可 以 认为 后 者 窗 新 了 前 者 。 


@) 程序 发 起 第 3 次 IO、 第 4 次 IO， 内 核 依 然 是 读 缓存 命中 ， 同 样 ， 
写 入 的 Page0 也 会 将 前 一 个 窗 新 挥 。 


Q@ 当 程 序 发 起 第 5 个 IO 时 ， 内 核 必须 要 读 出 Page1 了 ， 人 然后 继续 重 
复 与 前 面相 同 的 过 程 。 














这 样 算 来 ， 平 均 每 8 次 程序 发 起 的 IO 才 会 触发 一 次 真正 的 对 一 个 
Page 的 读 和 写 操 作 。 那 么 程序 共 执 行 了 1000 次 IO，1000*8 三 125， 根 据 
测试 的 结果 输出 ， 也 确实 符合 了 这 个 数值 。 但 是 写 操作 却 为 10 次 ， 另 外 
的 115 次 被 Merge 了 。 也 就 是 说 ，Page0 和 Pagel 或 者 更 多 的 相 邻 Page 被 
Merge 成 一 次 大 的 IO 写 操作 了 。 


(6) IO Scheduler 的 副作用 


征 药 三 分 毒 。IO 调 度 器 在 对 IO 进行 了 优化 的 同时 ， 也 带 来 了 严重 的 
副作用 ， 这 种 副作用 是 任何 层面 的 IO 优化 Queue 所 无 法 避免 的 ， 包 括 


TCQ、 NCQ。 


比如 某 程序 打开 一 个 块 设备 /dev/sda 进 行 IO 操 作 ， 程 序 使 用 DIO 十 异 
步 IO 调 用 。T1 时 刻 程 序 针 对 某 地 址 做 了 固定 长 度 的 读 操 作 ， 假 设 缓存 未 
命中 ， 内 核 将 这 个 读 BIO 放 入 块 设备 驱动 的 IO Scheduler 队 列 中 ; 但 是 紧 
接着 T2 时 刻 ， 程 序 又 发 起 了 针对 同一 地 址 的 固定 长 度 的 写 操作 ， 假 设 内 
核 将 这 个 写 IO 也 放 入 了 IO Scheduler 的 Queue 中 ， 但 是 经 过 调度 之 后 ， 这 
个 写 操 作 被 提前 了 ， 提 到 了 读 的 前 面 ， 先 执行 ， 那 么 这 个 读 操作 就 不 会 
读 到 被 这 个 写 所 履 盖 之 前 的 内 容 ， 而 读 到 的 是 写 履 盖 之 后 的 内 容 。 同 
样 ， 对 于 先 写 后 读 ， 如 果 读 被 提前 ， 那 么 读 到 的 也 是 过 期 的 数据 。 











如 果 使 用 Buffered IO， 则 先 写 后 读 的 情况 下 ， 对 于 后 来 的 读 会 产生 
绥 存 命中 ， 内 核 根 本 不 会 将 BIO 发 癌 块 设备 ， 也 束 不 会 带 来 时 序 问题 。 
如 果 是 先 读 后 写 而 且 读 未 命中 的 情况 ， 那 么 可 能 会 发 生 读数 据 未 返回 之 
前 、 写 数据 已 经 在 缓存 里 采 着 了 ， 而 且 也 有 可 能 发 生 写 数据 从 绥 存 中 被 
flush 刷 盘 ， 进 入 IO Scheduler， 此 时 读 请 求 依然 未 被 执行 ， 还 在 IO 
Scheduler 中 ， 那 么 这 个 号 依然 可 能 会 被 提 到 读 前 面 ， 当 然 ， 等 这 么 久 那 
个 “ 读 ” 还 排 着 队 的 几率 是 很 低 的 。 








如 果 是 多 进程 共同 IO 同一 个 目标 ， 这 种 问题 一 样 会 发 生 ， 不 过 可 以 
对 目标 进行 Exclusive 模 式 的 锁定 ， 这 样 就 从 根本 上 杜绝 了 多 进程 之 间 的 
时 序 性 问题 ， 但 是 依然 存在 单 进程 的 时 序 性 问题 。 如 果 你 真 的 认为 锁定 
了 就 没有 时 序 问题 了 ， 你 就 错 了 。 锁 定 与 否 与 底层 的 乱 序 是 无 关 的 ， 即 
便 是 程序 A 锁定 文件 a 进行 IO， 程 序 A 针 对 a 的 I0 都 会 被 排队 ，A 解 锁 之 后 
B 继 续 对 a 做 IO，B 的 IO 也 会 被 排队 ， 而 A 和 B 的 IO 依然 会 在 底层 乱 序 ，A 
和 B 所 看 到 的 内 容 也 可 能 都 是 过 期 的 内 容 。 











这 个 问题 是 IO ”Scheduler 无 法 避免 的 ， 但 是 可 以 从 应 用 程序 层 去 避 


免 。 比 如 在 DIO 模 式 下 ， 对 于 先 读 后 写 的 情况 ， 避 免 发 生 即 可 。 话 说 回 
来 ， 一 个 程序 先 发 出 读 ， 在 没收 到 返回 数据 的 情况 下 又 发 出 了 写 去 打算 
履 盖 之 前 的 数据 ， 这 本 刁 是 不 是 有 点 逻辑 错 乱 的 意思 呢 ? 就 比如 你 一 开 
始 想 拿 一 个 东西 ， 后 来 想 想 又 不 和合 了 ， 然 后 扔 了 一 颗 炸弹 把 东西 炸 了 ， 
但 随后 你 拿 到 的 却 不 是 之 前 的 东西 ， 是 一 堆 被 炸 碎 的 东西 。 也 就 是 说 ， 
既然 在 你 没 合 到 东西 之 前 ， 你 又 决定 不 要 了 ， 那 么 此 时 这 个 东西 本 身 就 
没有 意义 了 ， 此 时 你 应 该 知道 这 个 结果 ， 而 不 是 进入 脑袋 错乱 的 状态 。 








而 对 于 先 写 然后 在 没 返 回 之 前 又 发 出 恋 ， 一 般 情 况 下 是 没有 这 个 必 
要 的 ， 因 为 你 自己 知道 之 前 你 写 进去 什么 东西 ， 此 时 为 何 还 要 再 把 它 拿 
出 来 看 看 呢 ? 在 这 么 短 的 时 间 内 ， 数 据 一 般 都 依然 在 应 用 的 缓存 内 ， 没 
必要 癌 系统 发 出 读 请 求 ， 可 以 直接 在 应 用 层 命 中 缓存 。 别 说 ， 还 真有 这 
么 一 类 患 有 强迫 症 的 程序 ， 这 类 程序 就 是 专门 干 这 个 的 ， 因 为 磁盘 有 时 
是 不 可 靠 的 。 对 于 写 操作 ， 人 磁盘 返回 成 功 之 后 ， 数 据 未 必 真 的 被 写 入 磁 
盘 ， 甚 至 对 于 Write Through 标 记 的 IO 也 是 如 此 ， 也 就 是 说 磁盘 并 没有 将 
数据 成 功 地 写 入 盘 片 ， 但 是 依然 同上 层 返 回 了 成 功 应 答 ， 这 种 极端 发 生 
的 情况 称 为 “Lost ”Write"”。 这 类 程序 的 作用 束 是 为 了 探 察 这 种 情况 的 发 
生 。 对 于 这 种 程序 ， 就 要 注意 切 不 可 在 刚刚 写 完 之 后 就 立即 发 起 读 ， 一 
定 要 过 一 段 时间 才 发 起 ， 以 避免 在 IO 调 度 右 的 队列 里 与 之 前 的 写 IO 磁 
上 。 而 对 于 使 用 Buffered IO 的 程序 来 说 ， 先 写 后 读 没 问题 〈 见 上 文 ) ， 
对 于 先 读 后 写 的 状况 ， 与 DIO 模 式 下 的 处 理 方式 相同 ， 即 不 应 该 在 没有 
收 到 读 返 回 数据 的 情况 下 接着 又 发 起 写 IO。 




















彻 确 解决 这 个 问题 的 办 法 : 对 于 单个 线程 ， 同 步 10 即 可 ; 多 线程 之 
间或 者 多 个 程序 之 间 ， 无 解 。 


关于 Lost Write: Lost Write 是 一 种 发 生 概 率 非 常 小 的 事件 ， 
但 是 一 旦 发 生 ， 其 所 带 来 的 直接 后 果 束 是 数据 不 一 致 。 如 果 受 





影响 的 是 文件 系统 元 数据 中 的 关键 数据 ， 比 如 跟 入 口 指针 等 ， 
那么 融 有 可 能 直接 导致 文件 系统 全 面 错 乱 ， 需 要 数据 恢复 。 而 
如 果 是 某 应 用 程序 所 存储 的 关键 数据 ， 比 如 账目 ， 那 么 当 应 用 
程序 下 次 读 出 这 份 上 次 尚未 被 号 入 成 功 的 数据 进行 处 理 之 后 ， 
就 可 能 发 后 错 账 ， 进 而 可 能 引发 重大 生产 贡 任 事故 。 

如 何 解 决 Lost Write? 有 多 种 方法 ， 一 种 最 尝 最 耗资 源 的 方法 
便 是 在 写 入 之 后 ， 立 即 再 次 对 这 个 地 址 发 起 读 操 作 (前 提 是 磁 
盘 本 身 关 财 了 Write Cache， 即 使 用 Write Through 模 式 ) ， 将 得 
到 的 数据 与 之 前 的 竺 号 入 数据 进行 比 对 来 检查 是 否 上 一 次 真 的 
被 写 入 了 ， 这 个 动作 应 该 由 存储 控制 器 来 执行 。 但 是 这 样 做 需 
要 对 之 前 写 入 的 数据 进行 留 底 ， 需 要 对 每 个 块 进行 Hash 计 算 并 
保存 起 来 ， 稍 后 读 出 对 应 地 址 数据 之 后 再 次 Hash， 比 对 两 次 
Hash， 如 果 相 同 则 表示 确实 成 功 地 写 入 了 ; 如 果 不 同 ， 则 表示 
未 被 成 功 写 入 。 此 时 就 需要 从 RAID 组 中 这 个 块 对 应 的 条 带 中 
的 其 他 块 来 进行 XOR 运 算 反 算出 当时 应 该 被 写 入 的 内 容 。 为 何 
可 以 用 条 融 中 其 他 Segment 来 反 算 这 块 数据 呢 ? 因为 当时 这 个 
条 带 发 生 写 入 的 时 候 ， 可 以 认为 只 有 这 个 块 发 生 了 Lost 

Write， 而 其 他 盘 同 时 发 生 Lost Write 的 几率 微乎其微 ， 所 以 可 
以 假设 其 他 Segment 中 数据 都 是 一 致 的 。 这 种 办 法 虽然 笨 而 且 
极其 耗费 资源 ， 但 是 却 可 以 彻底 解决 Lost ” Write。 总 之 一 定 要 
确保 写 入 改 地 址 之 后 ， 下 一 个 针对 这 个 地 址 的 IO 一 定 要 是 控制 
器 发 起 的 这 个 验证 读 操作 ， 因 为 如 果 不 立 即 检查 的 话 ， 一 旦 间 
际 中 有 针对 这 个 地 址 的 非 验 证 读 操 作 ， 不 管 是 直接 读 还 是 由 于 
更 改 条 带 中 其 他 Segment 连 带 导 致 的 对 本 Segment 的 读 ， 那 么 束 
证 明 不 一 致 的 数据 已 经 对 应 用 系统 产生 了 影响 ， 不 管 是 潜在 的 
还 是 立即 导致 后 果 的 。 



































块 设备 由 于 底层 IO ”Scheduler 可 能 造成 IO 乱 序 重 排 执 行 的 情况 ， 在 
发 生 系统 Down 机 等 情况 时 ， 底 层 数据 的 一 致 性 就 无 法 得 到 保证 。 由 于 
文件 系统 建立 在 块 设备 之 上 ， 所 以 FSCK 是 一 种 恢复 数据 一 致 性 的 手 
段 ， 但 是 FSCK 只 能 保证 文件 系统 元 数据 的 一 致 却 保 证 不 了 数据 实际 内 
容 的 一 致 性 ， 所 以 ， 关 键 应 用 程序 都 直接 使 用 完全 透 传 程序 IO 请 求 的 字 
符 设 备 进行 IO 操作 。 





7. 系统 IO 路 径 中 的 Queue Depth 及 Queue Length 


在 系统 IO 路 径 中 ， 有 各 种 各 样 的 Queue， 各 种 层次 的 Queue， 从 应 
用 层 一 直到 设备 驱动 层 。 对 于 Queue 来 说 ， 有 两 个 非常 重要 的 概念 : 
Queue Depth 以 及 Queue Length。 乍 一 看 二 者 似乎 意义 相同 ， 但 是 细 究 起 
来 两 者 并 不 一 样 。 前 者 是 指 某 个 Queue 的 额定 深度 ， 即 这 个 Queue 最 大 
能 充满 多 少 条 记录 或 者 多 少 个 IO; 后 者 则 指 当前 这 个 Queue 当 前 存在 
的 ， 或 者 叫做 积压 的 ， 记 录 或 者 IO 数量 。 





随 着 上 层 发 起 的 IO 请 求 不 断 地 下 发 ， 系 统 路 人 径 下 层 各 处 的 Queue 可 
能 都 会 面临 不 同 程 度 的 积压 ， 因 为 底层 硬件 的 处 理 能 力 总 是 有 限 的 ， 尤 
其 是 对 于 存储 系统 来 讲 ， 在 高 压力 下 很 快 达到 瓶 贷 ， 底 层 的 瓶 贷 会 一 层 
一 层 地 反映 到 上 层 。 在 上 层 IO 压力 很 小 的 时 候 ， 系 统 路 径 上 的 Queue 几 
乎 都 没有 积压 ， 随 着 上 层 IO 压 力 逐 渐 增 加 ， 位 于 路 径 中 最 底层 的 
Queue， 也 就 是 设备 驱动 程序 处 的 Queue 会 首先 出 现 积压 《此 处 抛 开 IO 
Scheduler 处 的 Queue 不 谈 ， 因 为 此 处 的 Queue 根 据 一 定 的 调度 算法 ， 总 
会 有 一 定 积 压 ) 。 当 积压 到 一 定 程 上 度 之 后 ， 这 个 Queue 就 进入 了 Queue 
Full 的 状态 ， 此 时 ， 往 上 一 层 的 Queue 开 始 积压 ， 满 了 之 后 ， 再 上 一 层 
的 Queue 就 开始 积压 。 就 这 样 一 直 反 映 到 程序 层 ， 此 时 就 会 直接 感知 到 
性 能 的 急剧 下 降 。 如 果 整 个 系统 中 只 有 一 个 进程 在 做 同步 十 DIO 模 式 的 











IO 操作 ， 那 么 就 可 以 观察 到 系统 路 径 的 最 确 层 的 Queue 中 几乎 任意 时 刻 

都 是 空 的 ， 因 为 此 时 Queue 不 可 能 积压 ， 任 意 时 刻 只 有 1 个 IO 请 求 在 从 上 
流 到 下 ， 但 是 我 们 在 探 察 的 时 候 能 碰 上 Queue 中 恰好 有 这 个 IO 存在 的 时 

候 的 几率 非常 低 。 当 有 大 量 并 发 的 IO 被 发 起 的 时 候 ， 整 个 所 经 过 的 路 径 
中 的 Queue 可 能 会 被 元 满 。 








监测 到 的 Queue ”Length 越 长 ， 束 证 明 Queue 积 压 越 大 ， 那 么 单个 IO 
的 延迟 就 越 高 ， 对 应 的 计算 公式 为 : IO Latency 二 (Queue Length 十 1) 
x IO Service Time， 其 中 IO Service Time 表 示 存 储 系统 硬件 处 理 每 个 IO 所 
耗 绍 的 时 间 ，IO ”Service “Time 对 于 存储 系统 上 自 映 来 说 ， 也 相当 于 IO 
Latency， 每 一 层 的 IO Latency 都 等 于 本 层 的 (Queue Length 十 1) x 其 下 
层 的 IO Latency， 所 以 这 个 公式 可 以 最 终 改 为 : Layer N IO Latency 王 
(Layer N Queue Length 十 1) x Layer CN 一 1) IO Latency。 根 据 这 个 公 
式 ， 可 以 推论 出 : 如 果 存 储 最 底层 出 现 瓶 贷 ， 那 么 最 底层 的 IO 
Latency (原生 Latecny〉 就 会 升 高 ， 它 的 升 高 直接 导致 了 其 Queue Length 
越 积 越 多 而 升 高 ， 此 二 者 的 升 遍 又 成 倍 地 升 遍 了 上 一 层 的 IO 
Latency〈 累 积 Latency) 。 一 层 层 的 扩大 之 后 ， 整 个 系统 路 径 中 的 Queue 
积压 越 严 重 ， 那 么 最 终 应 用 程序 层 的 IO 延迟 就 会 严重 地 成 倍 地 升 高 。 公 
式 中 的 变量 为 Queue Length 而 不 是 Queue Depth， 这 里 一 定 要 注意 。 











Queue 积 压 到 一 定 程度 ， 导 至 整个 Queue 充 满洲 出 之 后 ， 下 层 会 问 
上 返回 Queue Full 通 知 ， 上 层 得 知 后 会 做 出 相应 处 理 ， 比 如 降低 IO 发 送 
速率 等 。Queue Full 的 出 现 表 示 存 储 系统 瓶颈 已 经 达到 了 不 可 调和 的 地 
步 ， 这 种 情况 一 般 不 会 出 现 。 


主机 端 底层 发 生 Queue 积 压 情 况 下 系统 瓶 锋 点 判断 方法 : 如 果 链 路 
带宽 和 外 部 存储 系统 的 IOPS 尚 未 达到 额定 饱和 值 而 Queue 积 压 ， 那 么 说 
明 瓶 颈 归 于 磁盘 ， 如 果 IOPS 饱 和 ， 说 明 瓶 颈 归 于 存储 控制 器 的 处 理 能 


力 ; 如 果 市 宽 饱 和 ， 那 么 瓶颈 归于 链 路 速率 本 身 。 


当 出 现 Queue 积 压 情 况 时 ， 主 机 端的 IO 延迟 会 呈 指 数 曲 线 模 式 升 
高 ， 唯 一 可 以 做 的 就 是 降低 主机 端的 IO 并 发 度 或 者 Queue Depth， 这 样 
做 只 是 治标 不 治本 。 降 低 主 机 端 IO 并 发 度 或 者 Queue ”Dep 也 的 本 质 其 实 
是 要 应 用 做 出 妥协 。 这 里 又 可 以 分 为 两 种 情况 。 第 一 种 是 确 层 IO 与 上 层 
业务 啊 应 速度 没有 直接 联系 ， 即 底层 IO 啊 应 变 慢 不 影响 实际 业务 啊 应 时 
间 ， 那 么 我 们 此 时 就 可 以 大 刀 了 益 痉 地 降低 主机 端的 Queue ”Depth 和 IO 并 
发 度 ， 减 轻 存 储 系 统 的 压力 从 而 也 为 其 他 使 用 存储 系统 的 客户 端 打 通道 
路 。 这 种 情况 的 一 个 典型 例子 就 是 FS 预 读 ， 比 如 上 文中 论述 FS 预 读 时 
给 出 的 一 组 数据 ， 在 AIX 系 统 下 将 j2_maxpagereadahead 调 节 成 512， 世 
就 是 让 IO Size 为 2MB 大 小 。 当 然 底 层 协 议 本 里 并 不 允许 这 么 大 的 IO 
Size， 有 所 以 OS 会 自动 将 这 个 值 切 开 成 多 个 小 1I0O， 即 每 次 预 读 都 会 使 用 多 
个 IO 来 读 取 数 据 ， 不 管 预 读 线程 是 单线 程 异 步 IO 还 是 多 线程 同步 IO0， 单 
位 时 间 内 都 会 产生 大 量 预 谈 IO 从 而 塞 满 Queue， 造 成 Queue 积 压 。 而 此 
时 应 用 程序 的 10 响应 时 间 与 FS 预 读 力 度 之 间 并 没有 很 大 的 联系 ， 如 有 果 此 
时 因为 FS 的 预 恋 造 成 了 Queue 积 压 ， 那 么 我 们 就 可 以 晤 不 狂 隐 地 将 
j2_maxpagereadahead 降 低 ， 比 如 64。 比 如 下 面 的 数据 ， 将 
j2_maxpagereadahead 调 市 为 512 之 后 ，cp 操 作 所 耗 引 的 时 间 并 没有 相对 
调节 为 64 时 有 多 大 的 提升 《相反 还 有 所 降低 ) ， 但 是 反而 造成 了 存储 系 
统 的 Queue 积 压 ， 底 层 的 单个 IO 响应 时 间 急 剧 从 接近 0 增加 到 8 一 9ms。 
也 就 是 说 底层 的 啊 应 时 间 增 加 了 ， 但 是 其 并 没有 严重 影响 上 层 啊 应 时 间 
《 慢 了 不 到 1s， 在 测试 误差 允许 范围 内 ) 。 





























aix-cn22:/#ioo -0 j2_maxPageReadAhead 王 512 
Setting j2_maxPageReadAhead to 512 


aix-cn22:/#mount /vdev/vfs1Lvo02 /mnt3 


aix-cn22:/#time cp /mnt3/c /mnt2 
real Om12.46s 

USer gm0 .22sS 

SYS om9 .81S 


Read Write Other QFull] Read Write Average Queue Lun 


Ops Ops Ops kB kB Latency Length 

363 0 0 © 91136 0 8.69 30.02 /vol1/ 
368 0 0 © 95232 0 9.29 3.05 /vol1/ 
747 0 0 © 79592 0 3.72 3.00 /vol1/ 


aix-cn22:/#io00 -0 j2_maxPageReadAhead 王 64 
Setting j2_maxPageReadAhead to 64 
aix-cn22:/#mount /Xdev/fSslv02 /mnt3 
aix-cn22:/#time cp /mnt3/c /mnt2 

real Om11.67s 

user omo .22s 

SYS om9 .34s 


Read Write Other QFull Read Write Average Queue Lun 


Ops Ops Ops kB kB Latency Length 

383 0 0 © 97856 0 1.04 0.03 /vol1/ 
437 0 0 © 95936 0 0.90 0.03 /vol1/ 
380 0 0 © 97152 0 1.05 0.03 /vol1/ 


参数 的 调节 需要 严格 的 试探 ， 因 为 每 个 系统 都 不 同 ，IO 类 型 也 不 
同 ， 我 们 不 可 能 向 Nio 一 样 钻 到 Marix 里 面 去 探究 代码 的 执行 ， 但 是 我 们 
至 少 可 以 做 试探 来 探究 和 想象 底层 的 行为 。 比 如 确定 
j2_maxpagereadahead 参 数 的 最 适 值 ， 就 需要 我 们 逐渐 增 大 这 个 值 然 后 调 





查 IOPS、 和 带宽 和 IO 响 应 时 间 这 三 者 ， 设 置 过 低 则 不 能 发 挥 性 能 ， 设 置 
过 高 义 会 顾此失彼 ， 根 据 需 求 ， 总 有 一 个 最 合适 的 值 存在 。 








第 二 种 情况 则 是 底层 IO 的 啊 应 时 间 直 接 关 系 到 应 用 程序 的 啊 应 时 
间 ， 那 么 此 时 我 们 不 能 轻易 就 降低 Queue ”Depth 或 者 并 发 度 ， 因 为 这 样 
做 虽然 可 以 使 存储 系统 负载 减轻 一 些 ， 但 是 同样 造成 了 应 用 程序 啊 应 更 
加 缓慢。 此 时 残 要 纤 合 来 决策 ， 碍 看 一 下 是 否 其 他 主机 端 有 可 以 被 砍 掉 
的 不 必要 的 Queue ”Depth 和 IO 并 发 度 ， 如 果 有 则 砍 掉 以 减轻 存储 压力 。 
如 果 这 样 处 理 之 后 仍 不 能 改善 ， 那 么 唯一 可 以 做 的 就 是 消除 存储 端 瓶 
贷 ， 增 加 人 磁盘， 或 者 其 他 手段 ， 比 如 集群 化 、 迁 移 数 据 到 高 性 能 设备 
上 ， 或 者 使 用 SSD 等 。 





既然 Queue 积 压 是 个 坏 现 象 ，Queue 中 只 有 1 个 甚至 0 个 IO 等 待 才 是 

最 理想 的 状况 ， 那 么 为 何不 将 Queue ”Depth 调 成 2 算 了 ? 这 里 要 理解 的 
是 ，Queue 积 压 表示 某 处 出 现 瓶 颈 。 但 是 在 系统 仍 有 充足 的 处 理 能 

各 处 没有 产生 瓶颈 的 时 候 ， 存 储 系统 对 IO 的 处 理 是 很 快 的， 而 如 果 我 们 
将 Queue Depth 调 成 2， 那 么 会 喂 不 饱 存储 系统 。 就 像 吃 饭 时 候 一 样 ， 你 
饿 了 ， 想 吃 一 大 碗 米饭 ， 但 是 只 给 你 盛 来 一 杂 碗 米饭 ， 你 吃 的 碍 么 ? 吃 
完了 虽然 可 以 无 限制 再 去 盛 一 硫 再 吃 ， 但 是 这 样 做 效率 显然 不 如 一 下 子 
盛 一 大 碗 来 得 快 。 要 将 Queue ”Depth 调 成 适当 的 值 是 有 必要 的 。 当 用 大 
碗 盛 饭 之 后 ， 你 一 开始 吃 得 很 快 ， 满 一 碗 立即 吃 空 一 硫 ， 但 是 后 来 你 饱 
了 了， 下饭 速 度 越 来 越 慢 ， 此 时 碗 里 剩 饭 就 会 越 来 越 多 ， 此 时 已 经 达到 瓶 
颈 了 。 同 样 ， 也 不 能 把 Queue Depth 设置 的 无 限 大 ， 因 为 你 敢 给 出 这 个 
饭量 ， 证 明 你 对 IO 的 消化 能 力 很 棒 ， 那 么 客户 端 就 会 按照 这 个 饭量 来 给 
你 盛 饭 ; 但 是 你 如 果 没 那么 大 饭量 而 硬 充 胖子 的 话 ， 结 果 就 是 造成 

Queue 积 压 。 所 以 存储 系统 在 设计 的 时 候 就 会 根据 自身 处 理 能 力 和 IO 类 
型 比率 等 诸多 因素 来 最 终 确定 一 个 对 外 Queue ”Depth。 但 是 这 个 Queue 




















Depth 往 往 也 并 不 能 代表 真实 处 理 能 力 ， 比 如 对 于 小 块 连续 并 发 IO 这 种 
最 佳 IO 方式 。 这 就 相当 于 喝 稀 饭 ， 一 气 很 快 就 喝 完 了 ， 此 时 你 不 给 他 一 
个 大 碗 对 不 起 这 速度 ， 但 是 如 果 改 吃 米饭 ， 那 一 时 半 会 儿 吃 不 完 ， 此 时 
你 如 果 还 给 他 个 大 碗 ， 那 惑 容易 造成 积压 。 所 以 Queue ”Depth 的 确定 最 
终 只 是 一 个 折 中 值 ， 设 计 人 性 化 的 存储 系统 可 以 让 用 户 自 行 设置 Queue 
Depth 以 满足 不 同 需要 。 








对 于 一 些 人 为 积压 的 Queue， 比 如 IO Scheduer 中 的 Queue， 荣 种 意 
义 上 来 讲 ， 这 个 Queue 必 须 处 于 积压 状态 ， 因 为 只 有 Queue 中 存 有 一 定 
数量 的 IO 之 后 ，IO 调 度 算 法 才 会 有 效果 。 但 是 话 又 说 回来 ， 如 果 底 层 设 
备 处 理 能 力 够 强大 ， 速 度 也 人 够 快 ， 快 到 即使 不 使 用 IO 调度 也 能 够 快速 吃 
挥 Queue 里 的 存货 ， 那 么 此 时 要 IO 调度 有 何 用 呢 ? 人 为 积压 有 何 用 呢 ? 
一 点 用 没有 有 反而 影响 性 能 








所 以 ， 任 何 时 刻 只 要 发 现 Queue 中 有 存货 ， 那 就 一 定 证 明 底 层 有 瓶 
贷 ， 存 货 越 多 ， 魂 颂 越 大 。 这 是 铁 的 事实 。 系 统 IO 路 竹内 任意 两 个 模块 
之 间 的 Queue 都 遵循 上 述 原 则 ， 不 仅 是 主机 与 存储 设备 之 间 的 Queue， 
存储 系统 内 部 各 个 模块 之 间 的 Queue 同 样 遵守 。 





如 果 有 多 台 主 机 通过 同一 个 端口 共同 访问 一 台 存 储 设备 ， 那 么 此 时 
需要 尽量 确保 每 台 主 机 的 适配器 的 Queue Depth 都 相等 ， 并 且 确 保 它 们 
之 和 等 于 这 人 台 存 储 设 备 上 一 个 端口 的 Queue ”Depth。 这 样 做 ， 第 一 可 以 
保证 存储 系统 的 Queue 不 会 发 生 Queue Full 的 情况 ， 第 二 可 以 保证 每 台 主 
机 充 入 存储 设备 Queue 中 的 IO 数量 大 致 相同 ， 不 会 饿 死 任何 一 台 主 机 。 
当然 也 可 以 为 不 同 的 主机 设 定 不 同 的 Queue ” Depth 以便 实 现 性 能 分 级 ， 
但 是 同样 要 确保 所 有 主机 客户 端的 Queue ”Depth 之 和 不 要 超过 存储 系统 
上 这 个 端口 的 Queue Depth。 











在 某 些 OS 下 可 以 针对 每 个 LUN 设 置 各 上 自 的 Queue Depth， 当 然 ， 这 
样 做 一 定 需要 对 应 的 存储 控制 器 驱动 程序 文 持 。 比 如 在 AIX 系 统 下 ， 就 
可 以 设置 每 个 hdisk 的 Queue Depth， 只 要 保证 系统 中 所 有 hdisk 的 Queue 
Depth 之 和 不 大 于 对 应 的 底层 控制 器 驱动 提供 的 总 Queue Depth 即 可 ， 这 
样 就 可 以 针对 不 同 hdisk 给 予 不 同 的 优先 级 。 








8. Queue Length 与 IOPS 的 关系 


一 块 15KB RPM 的 FC 或 者 SAS 人 磁盘 ， 其 随机 读 IOPS 大 概 在 +400 左 
右 ， 随 机 写 IOPS 要 低 于 读 ， 有 些 磁盘 写 与 读 相差 不 太 大 ， 有 些 磁盘 则 相 
差 较 大 ， 大 概 20% 。 但 是 达到 这 个 峰值 ， 是 需要 做 出 一 定 尼 协 的 ， 这 个 
妥协 惑 是 IO 延迟 。 但 凡 要 让 磁盘 达到 它 最 大 的 IOPS《〈 指 随机 IOPS 而 不 
是 连续 IOPS， 单 块 磁盘 连续 读 IOPS 在 IO ”Size 很 小 时 可 达 上 千 ) ， 就 一 
定 要 将 磁盘 的 队列 充满 到 一 定 程度 。 为 何 要 这 样 呢 ? 因为 磁盘 都 是 支持 
一 定 的 Queue 算 法 的 ， 比 如 电梯 算法 ， 它 会 将 充 入 Queue 中 的 所 有 IO 进 
行 重 排 ， 以 便 和 磁头 臂 摆 向 同一 个 方向 时 可 以 撒 带 执行 更 多 的 IO 操作 。 而 
如 果 你 只 向 磁盘 Queue 中 充 入 了 1 个 IO 请 求 ， 执 行 完 之 后 再 充 入 1 个 IO， 
那么 此 时 执行 效率 是 最 低 的 ， 但 是 相对 于 每 个 IO 来 讲 ， 这 个 IO 本 身 被 执 
行 的 速度 将 会 是 最 快 的 ， 也 就 是 延迟 最 低 ， 因 为 此 时 磁头 恬 只 服务 于 这 
一 个 IO 请 求 ， 相 反 ， 一 次 性 向 Queue 中 充 入 多 个 IO 请 求 ， 那 么 磁头 辟 就 
会 在 一 次 摆动 过 程 中 服务 于 多 个 IO 请 求 ， 而 这 些 IO 在 微观 上 也 是 一 个 一 
个 被 执行 的 ， 只 不 过 执行 效率 提高 了 很 多 。 但 是 同时 ， 每 个 IO 的 响应 时 
闻 《〈 延 迟 ) ， 也 就 是 磁盘 处 理 每 个 IO 所 花费 的 时 间 也 就 提升 了 “为 何 ? 
见 下 文 ) ， 但 是 此 时 磁盘 所 表现 出 来 的 整体 IOPS 也 提升 了 。 乍 一 看 好 像 
有 些 矛 盾 ， 为 何 延迟 升 高 了 ， 也 束 是 处 理 每 个 IO 所 耗费 的 时 间 提 升 了 ， 
而 IOPS 却 不 降 反 升 呢 ? 我 们 就 来 分 析 一 下 这 个 问题 。 建 议 读者 在 这 里 先 
停 下 自己 思考 ， 然 后 将 自己 的 思考 与 作者 稍 后 给 出 的 分 析 做 比 对 ， 这 样 














可 以 加 深 印 象 。 


如 表 19-3 所 示 为 某 块 15KB RPM 的 3Gb/s SAS 硬 盘 的 测试 结果 。 测 试 
使 用 单 台 PC Server 十 SAS 卡 进行 ， 使 用 IOmeter 作 为 测试 工具 测 裸 盘 ， 
在 IOmeter 界 面 中 设置 不 同 的 “Outstanding 10” 来 调查 不 同 Queue Length 对 
磁盘 IOPS 的 影响 ，IO 类 型 为 4KB 块 的 100% 随 机 读 。 表 中 ART 表 示 
Average Response Time，MRT 表 示 Maximum Reponse Time。 














表 19-3 SAS 硬 盘 Queue Length 与 IOPS 


当 Queue Length〈 下 用 QL 代 蔡 ) 为 1 时 ， 属 于 典型 的 同步 IO 调用 模 
式 场 景 。 此 时 系统 IO 路 径 中 的 所 有 Queue， 包 括 IOmeter 应 用 程序 
Queue、 块 设备 驱动 Queue、HBA 适 配 卡 Queue、 和 磁盘 Queue 中 任何 时 刻 
只 有 这 一 个 IO， 并 且 这 个 IO 只 出 现在 这 一 串 Queue 中 的 一 个 之 中 。 


整 条 路 径 只 服务 于 一 个 IO， 此 时 IOmeter 所 得 出 的 ART 也 就 约 等 于 
底层 磁盘 的 平均 寻 道 时 间 ， 本 例 中 也 融 是 5.6ms。 





当 QL 增 加 到 2 的 时 候 ， 系 统 路 径 中 的 所 有 Queue 都 不 可 能 产生 积压 
(Queue Depth 一 般 为 8 以 上 ) ， 一 定 会 “ 充 入 便 下 发 >， 那 么 此 时 这 两 个 
IO 一 定 是 被 HBA 直 接 下 发 到 磁盘 Queue 中 等 待 执行 。 


磁盘 会 使 用 NCQ、TCQ 等 算法 ， 结 合 当 前 磁头 臂 的 位 置 ， 对 Queue 
中 的 IO 做 电梯 算法 来 决定 先 执 行 哪个 后 执行 哪个 ， 那 么 后 执行 的 就 必须 
等 待 先 执 行 的 执行 完毕 之 后 才能 被 执行 ， 也 就 是 说 IO 会 在 磁盘 Queue 中 
发 生 等 待 。 这 样 ， 理 论 上 讲 ， 两 个 IO 执行 完 所 耗费 的 时 间 应 该 等 于 执行 
1 个 IO 耗费 的 平均 时 间 乘 以 2 即 可 ? 








不 是 的 ， 平 均 寻 道 时间 是 使 用 一 个 一 个 的 随机 IO 下 发 到 磁盘 而 统计 


出 来 的 ， 多 个 IO 经 过 电梯 算法 排队 之 后 ， 会 收 到 一 定 的 优化 效果 。 比 如 
可 能 回 相 同方 向 摆动 两 次 就 可 以 执行 完 这 两 个 ID， 而 如 末 将 这 两 个 IO 分 
两 次 下 发 ， 那 么 磁头 可 能 必须 经 过 疝 两 个 方向 的 摆动 寻 道 才 可 以 完成 这 
两 个 IO。 所 以 本 例 中 ， 当 QL 二 2 时 ，ART 小 于 5.6x2 二 11.2ms。 依 此 类 
推 ， 当 QL 越 来 越 长 之 后 ， 这 种 效果 所 获得 的 收益 就 越 强 。 





有 人 会 产生 疑问 : 1000ms 人 ART (ms) = 二 IOPS， 这 个 等 式 应 当成 
并 ， 为 何 按照 本 例 中 的 结果 之 后 ， 除 了 QL 三 1 时 成 立 ， 而 其 他 QL 值 对 应 
的 数据 被 代入 后 却 都 不 成 立 呢 ?比如 QL 二 2 时 ，1000/9.87 二 101.3， 而 实 
际 却 是 202.62， 正 好 是 前 者 的 2 倍 ， 而 QL 三 4 时 所 得 到 的 结果 也 是 这 样 ， 
实际 值 为 理论 值 的 4 倍 ， 可 以 发 现 IOPS 二 [1000ms/ART (ms) ] xQL 
这 个 规律 ， 而 如 果 将 单位 ms 变 为 标准 单位 s， 那 么 这 个 公式 就 变 为 : 
IOPS 王 QL/ART。 读 者 看 到 这 个 公式 是 否 眼熟 ? 对 了 ， 它 就 是 本 书 第 3 
章 中 所 给 出 的 公式 。 








这 个 公式 本 身 是 正确 的 ， 那 么 问题 出 在 哪里 ? 还 得 从 IOPS 三 
QL/ART 这 个 公式 的 本 质 入 手 。 它 的 含义 是 : 每 秒 IO 操 作 数 等 于 QL 除 以 
平均 响应 时 间 ， 而 按照 常理 ， 每 秒 IO 操 作 数 应 当 等 于 1s 除 以 每 个 IO 的 平 
均 响应 时 间 。 前 者 是 实测 所 得 ， 后 者 是 理论 所 得 ， 似 乎 都 没有 错 。 错 在 
哪 ? 关键 就 在 “平均 响应 时 间 ” 上 ，ART 到 底 是 指 每 个 IO 被 执行 完成 所 耗 
费 的 时 间 ， 还 是 整个 QL 队列 的 所 有 IO 均 被 执行 完 所 耗费 的 时 间 。 如 果 
是 前 者 ， 那 么 公式 IOPS 二 VART 显 然 是 成 立 的 ; 而 如 果 是 后 者 ， 那 么 公 
式 IOPS 二 QL/ART 就 是 成 立 的 。 那 么 也 就 是 说 表 19-3 中 的 ART 是 指 队 列 
中 所 有 IO 均 被 执行 完成 所 耗费 的 平均 (磁盘 可 以 批量 返回 一 大 批 10 结 
果 ， 甚 至 整 Queue 批 量 执行 和 返回 ， 详 见 下 面 一 节 ) 时 间 ， 既 然 这 样 ， 
IOPS 也 就 当然 要 用 QL 而 不 是 1 来 除 以 这 个 ART 了 。 








15KB RPM SAS 盘 的 最 高 IOPS 为 400 十 左右 ， 那 么 我 们 用 1000/400 


三 2.5ms， 也 就 是 说 ，NCQ、TCQ 等 队列 优化 算法 最 终 可 以 使 得 单个 IO 
的 执行 时 间 从 本 例 中 平均 的 5.6ms 降 低 到 2.5ms， 提 升 了 约 50% 。 但 是 却 
增加 了 IO 在 队列 里 的 等 待 时 间 ， 等 待 多 长 时 间 可 以 参考 上 一 节 中 给 出 的 
计算 方法 : IO 延迟 =IO 等 待 时 间 十 IO 执行 时 间 。 所 以 ，Queue 的 存在 导 
致 磁盘 可 以 在 单位 时 间 内 执行 更 多 的 IO， 也 就 是 IO 执行 时 间 确 实 降低 

了 ， 但 是 所 有 IO 的 延迟 时 间 却 因为 IO 等 待 时 间 的 加 入 而 变 得 很 高 ， 每 个 
IO 的 等 待 时 间 等 于 排 在 其 前 面 的 所 有 IO 的 执行 时 间 的 累加 ， 可 想 而 知 。 





Queue 的 出 现 ， 会 将 每 个 IO 的 执行 时 间 降 低 ， 低 于 平均 寻 道 时 间 
《本 例 中 的 5.6ms) ， 但 是 却 有 一 个 副作用 ， 也 束 是 造成 队列 中 IO 等 待 
的 时 间 加 长 。 因 为 毕竟 IO 到 了 磁头 臂 这 一 层 一 定 是 一 个 一 个 被 执行 的 ， 
一 次 性 充 入 Queue 中 多 个 IO， 只 是 为 了 在 一 段 时 间 内 能 够 让 磁盘 执行 更 
多 的 IO， 但 是 所 付出 的 代价 便 是 这 些 IO 需 要 预先 排队 等 待 ， 增 加 了 IO 总 
响应 时 间 ， 也 束 是 IO 延迟 。 














那么 这 样 做 究竟 是 不 是 得 不 偿 失 呢 ? 谁 获 益 了 ? 谁 损失 了 ? 可 以 这 
么 说 ， 在 不 同 层面 看 这 个 问题 会 有 不 同 的 结论 。 先 从 单 块 磁 盘 层面 来 
看 ，Queue 让 单 块 磁盘 单位 时 间 内 可 以 执行 的 IO 数量 增加 了 ， 这 当然 是 
好 事情 ， 获 益 于 电梯 算法 ， 当 然 是 提高 了 效率 ， 使 得 单 盘 IOPS 从 QL=1 
时 的 178 提 高 到 了 QL 二 32 时 的 389， 同 时 单个 I0 的 执行 时 间 也 降低 了 。 
所 以 ，Queue 对 于 磁盘 来 讲 是 绝对 的 全 面 获 益 。 再 看 看 IO 适配器 一 层 ， 
比如 SAS 适 配器 驱动 程序 处 ， 这 一 处 也 维护 着 多 个 Queue， 包 括 接 收 、 
发 送 、 已 完成 、 未 完成 等 Queue， 上 层 下 发 的 IO 先 充 入 这 一 处 Queue， 
然后 驱动 程序 再 将 Queue 中 的 IO 通过 SAS 网 络 传送 给 对 应 的 磁盘 Queue 
中 ， 此 时 SAS 适 配器 驱动 需要 等 待 这 些 IO 完 成 ， 而 这 个 等 待 时 间 ， 也 就 
是 IO 延迟 ， 会 随 着 QL 的 提高 而 累加 提高 ， 所 以 ，Queue 的 出 现 对 于 SAS 
适配器 来 讲 有 所 损失 ， 但 是 也 有 受益 ， 即 整体 IOPS 增 加 。 同 样 ， 系 统 


























IO 路 径 中 再 往 上 ， 包 括 块 设备 驱动 、 文 件 系 统 、 内 核 其 他 IO 模块 ， 一 直 
到 最 终 的 应 用 程序 层 ， 皆 表现 为 IO 延迟 上 的 损失 以 及 IOPS 上 的 收益 。 
应 用 层 所 感知 到 的 IO 延迟 是 其 下 层 所 有 延迟 的 素 加 。 只 有 磁盘 是 唯一 一 
个 全 面 获 益 的 角色 。 








但 是 ， 刚 才 说 过 ， 在 不 同 层面 看 问题 会 有 不 同 的 结论 。 如 果 从 整个 
系统 全 局 地 来 看 ，QL 的 提高 会 致使 整体 系统 的 IOPS 提 高 ， 从 这 一 点 上 
来 看 确实 是 整体 受益 的 。 那 么 对 于 应 用 程序 层 来 讲 ， 它 可 以 选择 一 个 接 
一 个 地 发 送 IO， 也 可 以 选择 批量 异步 地 发 送 IJO。 如 果 业 务 层 决定 应 用 程 
序 就 要 一 个 接 一 个 地 发 送 ， 那 么 此 时 情况 是 从 源头 就 没有 那么 多 的 IO 
量 ; 而 如 果 业 务 层 决定 应 用 层 需 要 很 高 的 异步 10 发 送 量 ， 那 么 此 时 应 用 
程序 为 何不 一 股 脑 地 将 IO 下 发 下 去 呢 ? 积压 到 硬盘 处 可 以 提高 IOPS， 
但 是 如 果 积 压 在 应 用 程序 处 ， 不 但 提高 不 了 IOPS， 反 而 IO 延迟 一 样 也 
还 会 很 高 ， 积 压 在 哪里 不 是 积压 ? 最 终 还 是 要 看 应 用 层 所 感知 到 的 IO 延 
I 























综 上 所 述 ， 为 了 保证 整体 较 高 的 IOPS， 底 层 的 Queue 最 好 处 于 积压 
状态 。 如 果 不 让 IO 等 待 ， 不 排队 ， 那 么 整体 系统 也 就 无 法 达到 高 
IOPS， 此 时 虽然 单个 IO 的 延迟 是 最 低 的 ， 但 那 是 通过 牺牲 整体 IOPS 上 所 
换 来 的 ， 是 通过 在 应 用 层 积 压 IO 而 不 是 磁盘 层 积 压 而 换 来 的 。IO 迟 早 要 
被 发 送 ， 早 发 送 ， 等 待 长 一 些 以 获得 较 高 IJOPS， 还 是 现 用 现 发 送 ， 以 获 
得 单个 IO 的 低 延 迟 但 是 整体 较 低 的 IOPS， 这 个 就 要 看 实际 情况 到 底 需 
要 哪 种 策略 了 。 








羊毛 出 在 羊 身 上 ， 有 时 候 可 能 会 人 为 地 降低 Queue Depth 以 限制 QL 
以 保证 每 个 IO 的 延迟 不 要 太 高 。 这 仿佛 是 一 个 博弈 过 程 ， 即 存储 层 与 应 
用 层 的 博弈 ， 存 储 层 通过 限制 QD 来 获取 比较 好 看 的 IO 性 能 指标 ， 但 是 
其 本 质 其 实 是 通过 牺牲 应 用 层 IOPS 来 换取 的 ， 也 就 是 让 应 用 降低 IO 下 








发 速度 。 实 际 上 ， 现 实 中 多 种 应 用 系统 ， 其 产生 的 IO 属性 大 部 分 为 同步 
IO， 一 方面 是 受制 于 业务 层 需 求 ， 男 一 方面 也 受制 于 异步 IO 开 发 时 候 的 
难度 以 及 稳定 性 ， 除 非 对 存储 性 能 有 人 为 的 压榨 目的 考虑 ， 开 发 人 员 不 
太 愿 意 使 用 异步 10 模 式 。 这 样 ， 底 层 的 Queue 被 充满 到 一 定 程度 的 几率 
就 会 比较 低 ， 那 么 整体 IOPS 也 不 会 很 高 。 而 这 种 情况 是 很 多 用 户 所 迷惑 
的 ， 当 初 购 买 时 使 用 测试 工具 测试 时 表现 出 来 很 高 的 性 能 ， 但 是 为 何 实 
际 使 用 中 却 性 能 低下 ? 所 以 ， 看 完了 上 面 的 文字 ， 你 或 许 应 该 知道 性 能 
分 析 应 当 首 先 从 哪里 入 手 了 。 


























那么 是 不 是 QD 设置 的 越 高 ，IOPS 就 会 线性 提升 呢 ? 显 然 不 会 ， 没 
有 这 么 便宜 的 事情 。QL 越 长 ，NCQ、TCQ 等 算法 获得 的 效率 提升 比率 
就 越 大 ， 但 是 这 些 算 法 是 有 优化 极限 的 ， 而 且 上 层 下 发 的 每 批 IO 的 优化 
程度 也 是 不 一 样 的 ， 另 外 再 加 上 芯片 处 理 能 力 、 接 口 带 宽 等 潜在 瓶颈 点 
的 限制 ， 所 以 当 单 盘 IOPS 达 到 顶峰 值 以 后 ， 再 增加 Queue Length 束 没有 
效果 了 ， 反 而 此 时 延迟 会 大 幅 增加 。 每 个 设备 都 会 提供 一 个 最 适合 的 
Queue Depth 值 给 它 的 上 下 游 。 





大 部 分 HBA 卡 处 的 Queue 一 般 被 限制 为 16， 以 在 IOPS 与 IO 延迟 之 间 
保持 平衡 。 有 些 广 商 可 以 让 用 户 调节 QD， 有 些 则 不 可 以 。 设 置 QD 有 一 
定 的 讲究 ，IO 上 游 模块 的 靠 下 游 位 置 的 QD 要 等 于 其 可 并 发 连接 的 下 游 
模块 的 靠 上 游 位 置 的 QD 之 和， 如果 某 IO 模 块 下 游 只 连接 了 一 个 模块 ， 
那么 这 两 个 模块 耦合 处 的 QD 应 相等 。 不 直接 耦合 的 两 个 IO 模块 之 间 的 
QD 没 有 关联 。 系 统 路 径 上 的 同一 个 IO 模块 上 下 游 位 置 上 的 QD 要 保持 相 
同 ， 但 是 有 一 点 例外 ， 比 如 ， 如 果 这 个 模块 会 将 IO 进行 合并 、 拆 分 等 处 
理 的 话 ， 那 么 上 下 游 QD 要 按照 IO 处 理 之 后 产生 的 IO 数量 翻 倍 或 者 缩 倍 
的 倍率 来 进行 匹配 。 








第 3 章 中 曾经 提 到 过 ， 对 于 一 个 具有 强 消化 能 力 的 存储 系统 ， 一 次 


多 个 IO 与 一 次 一 个 IO 相 比 可 能 一 开始 表现 出 的 IO 延迟 相关 不 多 ， 怎 么 这 
里 两 个 JO 时 候 就 已 经 与 一 个 IO 时 候 相 差 较 大 了 ? 因为 这 是 单 块 磁盘 ， 不 
征 大 存储 系统 ， 消 化 能 力 当 然 有 区 别 ， 大 型 存储 系统 的 巨 量 RAM 缓 存 
对 单 块 磁盘 的 劣势 有 较 好 的 屏 贡 和 优化 作用 。 


IO Size 与 IO 延迟 的 关系 :， IO Size 越 大 ， 从 盘 片 读 写 以 及 传输 
每 个 IO 所 需要 的 时 间 就 越 长 。 所 以 ，Write Merge 操 作 其 实 是 会 
增加 每 个 IO 的 延迟 的 ， 但 是 它 提高 了 效率 ， 提 高 了 系统 吞吐 

量 。 一 些 网 络 传输 技术 ， 比 如 Infiniband 之 类 ， 其 物理 链 路 编码 
速率 可 能 与 其 他 的 传输 技术 相同 ， 但 是 延迟 却 比 其 他 网 络 低 。 
这 里 的 意思 就 是 说 Infiniband 的 传输 单元 小 ， 对 于 一 些小 的 IO 

操作 能 够 实现 更 高 的 响应 速度 ， 适 合 于 高 实时 性 的 传输 ， 但 是 
其 整体 吞吐 量 就 不 一 定 比 其 他 传输 技术 高 了 。 











9. SATA 协 议 中 的 NCQ 


关于 NCQ 的 首次 介绍 出 现在 本 书 的 第 3 章 中 ， 再 结合 之 前 刚刚 介绍 
的 Linux 下 的 IO_ Scheduler 原 理 ， 想 必 大 家 已 经 对 队列 《不 仅仅 是 NCQ ) 
中 的 电梯 和 其 他 优化 算法 有 了 一 个 大 概 了 解 了 。 在 这 里 再 对 NCQ 深 入 一 
步 。 经 过 刚才 的 介绍 大 家 已 经 了 解 ， 人 磁盘 可 以 将 队列 中 的 IO 进 行 优化 重 
排 然 后 依次 执行 ， 但 是 执行 完毕 每 个 IO 之 后 ， 并 不 一 定 要 立即 返回 这 个 
IO 的 结果 。 按 照 间 理应 该 是 立即 返回 ， 但 是 在 Queue 开 局 之 后 ， 破 盘 往 
往 要 积攒 一 定量 的 执行 结果 才 辐 主机 端 磁盘 控制 器 (FC 卡 、SAS 卡 、 
SATA 控 制 器 等 ) 返回 ， 这 样 做 是 为 了 降低 频繁 中 断 对 控制 器 的 影响 以 
及 对 链 路 带宽 的 浪费 。 磁 副 可 以 将 多 个 IO 执 行 的 结果 批量 返回 给 控制 
器 ， 每 一 批 传输 只 需要 一 个 中 断 即 可 ， 这 个 过 程 称 为 中 断 聚 合 。 





再 仔细 考虑 一 下 ， 主 机 端 控制 右 将 IO 一 个 一 个 地 充 入 磁盘 的 Queue 


中 (每 个 需要 被 Queue 化 的 命令 都 会 被 控制 器 设置 一 个 Tag 值 来 表征 这 个 
命令 ，SATA 队 列 深度 最 大 为 32， 所 以 Tag 的 值 可 以 是 0 一 31) ， 但 是 人 磁 
盘 却 可 以 将 这 些 IO 打 乱 顺 序 来 执行 ， 而 且 也 不 按照 IO 发 送 过 来 的 顺序 将 
结果 〈ACK 或 者 数据 ) 返回 给 控制 器 ， 如 果 没 有 一 种 特殊 的 机 制 来 处 理 
的 话 ， 主 机 控制 器 将 不 会 分 辨 出 磁盘 返回 的 结果 对 应 的 已 经 完成 的 IO 到 
底 是 哪些 。 解 决 这 个 问题 必须 由 磁盘 主动 ， 因 为 只 有 磁盘 知道 实际 的 IO 
执行 顺序 。 在 NCQ 中 ， 这 种 机 制 称 为 First Party DMA， 人 简称 FPDMA， 
之 所 以 称 为 “First ”Party” 是 因为 DMA 地 址 等 是 由 磁盘 来 主导 的 。 磁 盘 在 
每 执行 一 个 IO 之 前 ， 会 发 送 一 个 FIS (Frame Information Structure〉 给 主 
机 端 磁盘 控制 器 ，FIS 中 包含 了 当前 所 执行 的 IO 的 Tag 值 。 主 机 端 控制 器 
收 到 对 应 的 FIS 之 后 ， 便 知道 磁盘 当前 在 执行 的 IO 是 哪 一 个 了 “因为 是 

控制 器 之 前 将 IO 打上 Tag 并 充 入 到 磁盘 Queue 中 的 ) ， 那 么 控制 器 此 时 

就 可 以 将 这 个 IO 对 应 的 数据 从 内 存 对 应 的 地 址 传输 到 磁盘 〈 写 过 程 ) ， 

或 者 将 数据 传输 给 控制 器 从 而 控制 器 将 这 块 返回 的 数据 放置 到 对 应 的 内 
存 地 址 《〈 读 过 程 ) 。 





另外 ，FPDMA 还 可 以 允许 磁盘 先 传送 某 个 IO 的 一 部 分 数据 ， 然 后 
之 间 穿 差 传输 一 部 分 另外 某 IO 的 数据 ， 再 将 之 前 的 IO 剩余 数据 传 完 ， 为 
何 会 发 生 这 种 场景 ? 是 因为 旋转 等 竺 时间， 比如 有 两 个 IO，IO1 和 IO2， 
当 执行 IO1 时 ， 磁 头 寻 道 至 IO1 所 在 的 磁道 时 ， 刚 好 落 入 IO2 所 在 的 领 
地 ， 那 么 此 时 磁盘 不 会 浪费 这 个 时 际 ， 先 撒 带 着 读 出 或 者 写 入 IO2 的 内 
容 ， 然 后 等 待 盘 片 旋转 至 IO1 处 时 ， 再 读 出 或 者 写 入 IO1 的 内 容 。 而 之 前 
IO2 的 内 容 可 能 没有 读 或 者 写 全 《比如 刚才 寻 道 时 磁头 并 没有 落 到 IO2 的 
起 点 地 址 对 应 扇 区 的 起 始 字 节 ) ， 那 么 之 后 磁头 继续 去 读 IO2， 此 时 如 
果 有 IO3 可 以 获得 优先 * 朱 带 ? 式 的 优化 ， 束 重 复 刚 才 的 过 程 。 如 此 复杂 
的 机 制 ， 全 部 都 是 为 了 让 底层 时 际 被 充分 利用 。 











10. 面向 SSD 的 Queue 优 化 


对 于 NAND Elash 颗 粒 ， 单 个 逻辑 颗粒 《一块 物理 颗粒 中 可 以 有 多 
个 逻辑 独立 的 部 分 ， 暂 称 逻 辑 颗 粒 吧 ) 所 能 达到 的 读 写 速度 或 者 IO 是 很 
低 的 ， 比 如 20MB/s 到 30MB/s 的 样子 。 那 么 为 什么 SSD 可 以 达到 将 近 
280MB/s 的 读 速度 除了 SSD 内 部 有 较 
大 的 RAM 绥 存 之 外 ， 还 有 一 个 根本 原因 就 是 SSD 控 制 器 后 端 挂 接 的 
Flash 颗 粒 都 是 并 行 执行 IO 的 ， 而 不 是 像 机 械 便 盘 那 样 由 一 个 磁头 来 串 
行 执 行 IO0。 如 图 19-74 所 示 为 一 个 SSD 的 典型 内 部 逻辑 框图 。8 片 Flash 芯 
片 箱 粒 ， 每 两 个 挂 在 每 个 通 0 的 
通道 ， 也 就 是 说 每 个 通道 的 速率 为 40MB/s。4 个 通道 共同 连接 到 Flash 控 
制 器 ASIC 芯 片上 。 








19-74 SSD 内 部 典型 框图 


每 个 Flash 心 片 其 实 还 可 以 划分 为 更 小 的 单元 ， 也 即 是 Die 和 Plane， 
每 个 Die 可 以 包含 多 个 Plane， 一 般 为 两 个 。 每 个 Plane 都 有 各 自 的 Page 寄 
存 器 用 来 存储 读 出 或 者 待 写 入 的 Page 数 据 ， 所 以 每 个 Plane 可 以 同时 服务 
于 一 个 IO。 如 果 每 个 Flash 颗 粒 有 两 个 Die， 那 么 每 片 就 可 以 同时 服务 于 4 
也 就 是 并 发 4 个 ID， 那么 8 片 Flash 就 可 以 并 发 32 个 IO， 

道 可 以 并 行 各 下 发 4 个 IO 到 其 后 端 下 挂 的 每 厅 Flash 心 刻 来 等 符 执 
问 ， 后 二 内 有 并， 这 公交 通道， 每 人 0 
一 定 是 串 行 在 通道 中 传输 的 ， 何 谈 “ 并 行 *?? 这 个 问题 与 FCAL Loop 中 如 
何 实现 并 发 IO 的 本 质 是 一 样 的。 可 以 参考 本 书 附录 中 的 Q&A 相关 部 分 
| 即 目标 存储 介质 执行 IO 是 需要 一 定时 间 的 ， 对 于 机 械 人 硬盘 ， 
这 个 时 间 间 际 〈( 时 际 〉 表 现 为 寻 道 十 旋转 延迟 。 而 控制 器 利用 这 i 
际 ， 将 多 个 IO 下 发 到 多 个 目标 上 由 多 个 目标 并 行 执行 (各 自 寻 道 ， 





可 以 微观 并 行 ) ， 这 就 是 并 有 发， 虽然 在 传输 时 一 定 是 串 行 的 ， 但 是 执行 
时 却 是 并 行 的 。 那 么 对 于 Flash 心 片 ， 由 于 没有 寻 道 操作 ， 难 道 它 也 会 产 
生 时 隐 让 控制 器 < 有 机 可 乘 >， 然 后 分 派 多 个 IO 下 去 么 ?一 样 有 ，Plash 心 
片 执 行 IO 时 有 一 个 潜伏 期 ， 不 管 是 读 还 是 写 ， 写 需要 的 潜伏 期 比 读 更 

大 。 就 是 利用 这 个 潜伏 期 ， 使 得 控制 器 有 充足 的 时 间 可 以 通过 串 行 通道 
串 行 地 下 发 多 个 IO 给 后 挂 的 每 个 Flash 芯 片 ， 每 个 Flash 蕊 片 并 行 地 执行 

IO， 然 后 串 行 地 将 结果 返回 给 控制 器 。 








图 19-74 中 所 示 的 CE， 即 Chip Enable， 中文 叫 “ 片 选 *?， 是 用 来 让 控 
制 器 选择 IO 目 标的 。 每 个 Die 对 应 一 个 片 选 地 址 ， 控 制 器 通过 片 选 来 定 
位 到 每 个 Die 从 而 下 发 IO〈 可 针对 一 个 Die 中 的 多 个 Plane 并 行 下 发 
IO) 。 


随 着 集成 电路 技术 不 断 发 展 ，SSD 的 规格 越 来 越 高 ， 片 选 的 密度 越 
来 越 高 。 目 前 最 高 的 密度 是 每 个 Flash 芯 片 包含 4 个 CE， 每 片 2.5 英 寸 的 
SSD， 其 电路 板 正 反面 每 面 焊接 8 片 Flash， 共 16 片 Flash 就 可 以 有 64 个 片 
选 ， 每 个 卢 选 可 以 定 址 一 个 Die， 每 个 Die 如 果 有 两 个 Plane， 那 么 惑 可 以 
并 发 128 个 IO。 这 一 点 是 机 械 便 盘 想 都 不 敢 想 的 〈 机 械 硬 盘 虽 然 有 多 个 
磁头 ， 但 是 同一 时 刻 只 能 有 一 个 磁头 在 读 写 ， 只 能 并 发 一 个 IO， 或 者 说 
不 能 并 发 IO) 。 将 来 可 能 出 现 能 并 发 更 多 IO 的 更 高 规格 。 























能 并 发 多 少 IO， 束 意味 着 其 前 端的 Queue Depth 人 至少 要 有 多 深 。 并 
发 128 个 IO， 那 么 QD 至 少 要 有 128 才 能 满足 胃口 。 而 SATA 协 议 标 准 中 ， 
NCQ 最 大 的 QD 不 过 32 而 已 ， 己 经 无 法 满足 SSD 日 益 增 加 的 角 口 。 对 于 
此 ， 不 少 SSD 正 转 为 使 用 SAS 接 口 ， 因 为 SCSI 协 议 标准 中 的 TCQ 最 大 深 
度 为 256。 不 仅 如 此 ， 主 机 SAS、SATA 控 制 器 也 要 跟 上 这 一 变化 ， 需 要 
从 Firmware 和 Driver 两 个 层面 进行 Queue 优 化 操作 。 











如 图 19-75 所 示 为 刚才 那 球 SSD 的 测试 结果 ，100% 的 4KB 随 机 读 ， 
thread 为 线程 数 ， 每 个 线程 产生 一 个 同步 10， 所 以 整体 产生 的 并 发 IO 请 
求 等 于 线程 数 ， 也 等 价 于 队列 深度 。 可 以 看 到 1 个 IO 的 ART 为 0.2ms， 一 
直到 16 个 并 发 IO 的 ART 为 0.6ms， 翻 了 3 倍 。 而 对 比 机 械 硬 盘 的 测试 结 
果 ， 有 天 壤 之 别 ， 其 原因 就 是 因为 SSD 内 部 是 并 发 IO 的 。 但 是 从 16 一 32 
之 间 却 有 了 质 的 变化 ， 可 以 看 到 32 时 的 ART 相 比 16 时 翻 了 一 番 ，IOPS 增 
加 的 比例 却 微乎其微 ， 此 时 表明 这 块 SSD 的 IOPS 已 经 达到 饱和 ， 那 么 可 
以 判断 出 ， 这 个 SSD 的 最 大 并 发 I10 数 为 16， 也 就 是 有 16 个 片 选 。 此 时 再 
往 队 列 中 充 入 IO， 那 么 多 于 16 个 之 后 的 IO 只 能 等 待 ， 所 以 延迟 翻 倍 。 从 
测试 结果 还 可 以 看 出 ，SSD 就 算 再 差劲 ， 其 平均 延迟 是 远 远 低 于 机 械 硬 
盘 的 ， 而 IOPS 则 是 远 远 高 于 机 械 硬 盘 的 。 


























图 19-75 SSD 队 列 深 度 与 IOPS 曲 线 














另外 ，SSD 的 并 发 IO 与 机 械 盘 组 成 的 RAID 一 样 ， 也 是 有 一 定 几率 
的 ， 在 地 址 完全 平均 分 布 的 随机 小 块 IO 的 场景 下 ， 言 并 发 几率 达到 最 
高 。SSD 一 样 会 对 充 入 Queue 中 的 批量 IO 进行 优化 算法 ， 控 制 器 会 分 析 
Queue 中 的 IO， 看 看 其 中 哪个 IO 目标 地 址 正好 落 在 了 一 个 空 亲 的 Flash 果 
粒 片 选 上 ， 则 立即 将 其 下 发 。 其 首要 原则 就 是 不 让 任何 请 选 空 亲 ， 所 
以 ，SSD 执 行 IO 的 顺序 也 是 乱 序 的 ， 因 此 需要 NCQ 的 FPDMA 来 文 持 。 














至 此 ， 应 用 程序 发 起 的 IO 请 求 在 内 存 中 经 历 了 文件 系统 、 卷 管理 系 
统 、 设 备 驱 动 的 层 层 历 练 之 后 ， 终 于 出 了 内 存 ， 被 放 到 了 IO 总 线 上 进行 
传输 。 出 了 内 存 之 后 ，IO 请 求 首先 被 送 到 了 PCI 控 制 器 然后 立即 送 上 了 
PCI (PCIE、PCIX) 高速 总 线 快车 道 ， 下 一 站 目的 则 是 位 于 总 线 那 端的 
HBA 适 配 卡 。 进 入 适 配 卡 的 内 存 后 ， 经 由 适 配 卡 上 处 理 器 的 调度 ， 立 即 
又 被 发 送 到 了 适 配 卡 后 端 所 连接 的 浩瀚 网 络 中 。 至 此 ， 这 个 IO 请 求 终 于 





跑 出 了 被 蔡 钢 已 久 的 主机 ， 游 尺 于 浩瀚 的 网 络 海洋 之 中 。 殊 不 知 ， 等 待 
它 的 ， 将 是 为 一 个 洞天 ! 


19.2 ”理解 并 记忆 存储 端 10 路 径 架 构图 


本 节 论 述 IO 的 目的 地 ， 也 就 是 存储 系统 端的 IO 路 径 模块 架构 。IO 在 
起 源 地 主机 端 经 历 了 一 系列 复杂 的 操作 之 后 ， 最 终 被 发 送 给 存储 端 处 
理 。 任 何 上 层 的 以 及 任何 类 型 的 IO0， 在 离开 主机 端 之 后 ， 都 会 以 Block 
IO 的 形式 发 送 给 存储 系统 处 理 〈 基 于 Block 协 议 的 存储 系统 ) 或 者 以 网 
络 文件 IO 的 形式 发 送 给 NAS 存 储 系统 处 理 。IO 请 求 可 谓 是 方 出 龙潭 又 入 
虎穴 。 “存储 端 ? 这 三 个 字 有 三 种 理解 程度 : “本 地 磁盘 “主机 端 本 地 
RAID” 和 “外 部 磁盘 阵列 "， 其 中 前 者 与 后 两 者 有 着 本 质 区 别 ， 后 两 者 之 
间 并 没有 本 质 区 别 。 对 于 前 者 ， 从 设备 控制 器 驱动 程序 下 发 的 IO 请 求 会 
直接 被 控制 器 透 传 到 目标 设备 ， 而 对 于 后 两 者 ， 驱 动 程序 下 发 的 IO 请 求 
被 控制 器 接收 到 之 后 ， 控 制 器 本 身 还 需要 做 一 定 的 虚拟 化 映射 处 理 ， 最 
终 发 给 目标 磁盘 设备 的 IO 请 求 在 内 容 上 和 数量 上 都 不 一 定 与 驱动 下 发 的 
IO 相同 。 

















外 部 存储 系统 对 IO 的 处 理 过 程 与 主机 端 有 很 大 的 同 源 性 。 可 以 说 存 
储 系统 本 喘 就 是 一 台 主 机 ， 软 件 架 构 上 与 主机 相同 ， 都 是 操作 系统 十 应 
用 程序 组 成 的 ， 存 储 系统 的 操作 系统 ， 有 些 基于 Linux， 有 些 基 于 
Windows， 有 些 基 于 UNIX， 有 些 则 基于 VxWorks 等 。 


下 面 分 别 描述 一 下 存储 系统 中 的 各 个 层次 。 
19.2.1 物理 磁盘 层 


主机 端 发 送 的 任何 数据 最 后 都 要 存储 于 物理 磁盘 中 。 





对 于 一 个 高 可 靠 性 存储 系统 来 说 ， 磁 盘 的 Cache 必 须 被 设置 为 Write 
Through 模 式 ， 因 为 物理 磁盘 没有 任何 电池 保护 措施 ， 一 旦 失去 电源 ， 





人 磁盘 Cache 中 的 尚未 写 入 盘 片 的 数据 将 会 永久 丢失 ;而 如 果 Cache 运 行 在 
Write Back 模 式 下 ， 就 将 造成 数据 不 一 致 情况 的 发 生 。 对 于 不 文 持 永久 
Write _ Through 模式 的 磁盘 Cache， 只 能 靠 磁盘 控制 器 或 者 驱动 程序 来 强 
行 设 置 每 个 IO 的 FUA 位 来 通知 磁盘 进行 Write Through 模 式 的 写 入 。 





而 对 于 人 磁盘 自身 的 读 Cache， 控 制 器 不 会 干预 而且 所 有 存储 系统 
都 会 允许 磁盘 自 喘 的 Cache 对 任何 读 操 作 做 缓存， 甚至 还 可 以 进行 磁盘 
自身 的 预 读 。 如 本 章 前 文 所 述 ，Write Through 之 后 的 写 数据 会 一 直 留 在 
磁盘 自身 Cache 中 ， 作 为 读 绥 存 数据 而 存在 ， 这 里 需要 区 别 一 个 细节 ， 

即 缓存 中 的 预 读数 据 和 被 动 式 的 读数 据 ， 刚 才 说 的 这 种 Write Through 之 
后 被 动 留存 在 缓存 内 的 数据 称 为 被 动 式 读数 据 缓存 ， 而 磁盘 缓存 自 号 从 
盘 片 内 预 读 入 的 数据 为 主动 式 的 预 读 数据 。 























人 磁盘 读 缓存 对 于 小 块 连续 IO 的 效果 是 非常 显著 的 ， 如 果 在 主机 端 发 
起 512B 的 连续 地 址 IO， 则 在 存储 系统 处 即 可 以 监测 到 单 块 磁盘 本 身 接 
受 和 处 理 的 IOPS 甚 至 可 以 达到 高 于 1000， 这 显然 是 产生 了 Read ”Cache 
Hit 导 臻 。 在 综合 属性 的 IO 下 ， 单 块 磁 盘 的 IOPS 一 般 在 200~~400 之 间 。 





文 持 NCQ 或 者 TCQ 的 厂 盘 本 身 具 有 Queue 机 制 ， 控 制 器 可 以 将 一 批 
IO 充 入 磁盘 Queue 中 从 而 让 磁盘 自身 来 对 Queue 中 的 IO 进行 优化 操作 。 


盘 片 大 小 与 性 能 的 关系 


上 日前， 业界 新 推出 的 存储 系统 都 已 经 推广 使 用 2.5 寸 磁盘 ，3.5 寸 磁 
盘 由 于 其 耗 电 量 太 大 ， 占 用 空间 大 ， 已 经 不 能 满足 当今 时 代 节 能 降 耗 的 
需求 了 。 目 前 2.5 寸 的 SAS 磁 盘 其 容量 甚至 比 3.5 寸 SAS 盘 还 要 大 ， 目 前 最 
大 到 900GB。 并 非 技 术 上 3.5 寸 的 不 能 做 到 更 大 容量 ， 而 是 厂家 故意 使 
然 ， 即 推广 2.5 寸 磁盘 。 那 么 盘 片 变 小 了 ， 其 性 能 是 否 会 减弱 ? 答案 是 











肯定 的 。 多 种 原因 ， 首 先 2.5 寸 磁盘 其 目前 最 大 转速 为 15krpm， 但 是 相 
比 10krpm 的 2.5 寸 盘 来 讲 ， 成 本 大 幅 提 升 ， 所 以 目前 投入 使 用 的 都 是 
10krpm 的 规格 。 而 3.5 寸 盘 基本 上 都 使 用 15krpm 规 格 的 ， 转 速 上 低 了 一 
筹 ， 其 次 ， 小 盘 片 其 线 速度 会 比 大 盘 片 低 ， 加 上 转速 低 ， 两 两 加 成 ， 导 
致 性 能 下 降 。 但 是 我 们 知道 ， 盘 片 越 小 ， 磁 头 摆 动 周期 就 会 越 短 〈 并 不 
是 说 磁头 摆动 的 速度 高 了 ， 而 是 需要 摆动 的 距离 敌 了 ) ， 同 样 的 容量 密 
度 下 ，2.5 寸 盘 片 比 3.5 寸 盘 片 在 平均 寻 道 时 间 上 要 低 ， 而 寻 道 时 间 恰 恰 
是 影响 IO 性 能 的 重要 指标 ， 那 么 是 不 是 2.5 寸 的 比 3.5 寸 的 IOPS 性 能 要 高 
呢 ? 但 是 还 需要 考虑 一 点 ， 现 在 的 磁盘 对 队列 的 文 持 都 非常 成 熟 了 ， 虽 
然 论 单个 IO 的 平均 寻 道 时 间 ，2.5 确 实 比 3.5 强 ， 但 是 一 旦 外 部 IO 被 队列 
化 之 后 ， 那 么 单 IO 平 均 寻 道 时 间 这 个 参数 就 会 被 强烈 的 屏蔽 和 弱化 。 因 
为 在 队列 机 制 的 介入 下 ， 和 磁头 一 般 都 是 顺 着 一 个 方向 摆动 就 可 以 抄 带 执 
行 多 个 IO， 而 不 是 来 回 频繁 寻 道 摆动 ， 既 然 这 样 ， 不 管 副 片 多 大 ， 哪 怕 
10 寸 的 ， 其 向 一 个 方向 持续 摆动 时 执行 IO 的 效率 ， 就 取 诀 于 盘 片 旋转 时 
的 线 速 度 了 ， 线 速度 越 快 ， 旋 转 延 迟 时 间 越 少 ，IOPS 就 越 高 。 所 以 ， 在 
性 能 上 ，2.5 寸 盘 输 给 了 3.5 寸 盘 ， 但 是 在 能 耗 上 ， 前 者 比 后 者 可 以 降低 
40% 左 右 。 成 本 上 ， 目 前 2.5 寸 盘 依 然 高 于 3.5 寸 盘 ， 相 信 随 着 时 间 的 推 
移 ，2.5 寸 盘 的 成 本 会 逐渐 下 降 。 


























19.2.2 ”物理 磁盘 组 织 层 


多 块 磁盘 被 插入 到 一 个 扩展 柜 中 进行 集中 供电 散热 和 监测 。 扩 展柜 
都 会 为 每 个 磁盘 提供 两 个 接口 并 文 持 任何 时 刻 从 任何 接口 接收 或 者 发 送 
数据 。 扩 展柜 上 的 控制 模块 的 作用 请 见 本 书 前 面 的 章节 介绍 








扩展 柜 控 制 模块 本 身 可 以 说 是 一 个 散 入 式 系 统 ， 其 有 自己 的 CPU、 
内 存 、Flash ROM 水 久 存 储 蕊 片 ， 软 件 上 ， 它 有 自己 的 操作 系统 (一 般 


以 Firmware 的 形式 存放 在 Flash Rom 中 ) 。 扩 展柜 控制 模块 掌管 着 其 上 
磁盘 的 数据 传输 以 及 监测 ， 所 以 控制 模块 硬件 及 Firmware 是 否 稳定 ， 关 
系 到 整个 存储 系统 的 可 用 性 ， 有 些 控制 模块 被 设计 得 很 山寨 ， 整 天 不 是 
这 坏 就 是 那 坏 ， 硬 件 坏 完 了 就 出 Firmware Bug， 没 完 没 了 的 问题 。 控 制 
模块 一 旦 发 生 问 题 ， 轻 则 监测 不 到 硬盘 但 是 硬盘 数据 IO 正 常 ， 重 则 整个 
扩展 柜 的 磁盘 直接 与 机 头 断 开 ， 无 法 访问 到 。 


通常 情况 下 ， 扩 展柜 磁盘 的 数据 IO 与 监测 IO 是 分 开 的 两 条 路 径 ， 控 
制 模 块 上 有 一 类 关键 芯片， 也 就 是 FC Loop Switch 心 请 ， 低 端 一 些 的 只 
用 PBC (Port Bypass Circuit) 心 片 。 前 者 在 物理 上 是 交换 直通 架构 ， 后 
者 则 是 手 拉手 环 Loop 架 构 。 每 个 磁盘 都 与 这 个 必 有 卢 连 接 ， 心 族 的 上 行 通 
路 或 者 直接 与 机 头 上 的 适 配 卡 连 接 或 者 连接 到 上 行 级 联 扩 展柜 的 同样 必 
片 中 ， 数 据 IO 的 直接 控制 者 是 机 头 上 的 适 配 卡 和 它 的 驱动 程序 ，Loop 
Switch 心 片 只 起 一 个 物理 数据 传输 的 作用 以 及 FC Loop 仲 裁 啊 应 等 作 
用 。 所 以 只 要 这 个 心 请 正常 运作 ， 控 制 模块 上 其 他 地 方 出 现 问题 的 话 ， 
那么 至 少 可 以 保证 数据 IO 是 正常 的 ， 至 于 一 些 监测 动作 ， 比 如 磁盘 温度 
的 探寻 、 各 种 传感器 数据 探寻 以 及 与 SES 有 关 的 探寻 等 可 能 都 会 变 失 
效 。 但 是 一 旦 不 稳定 的 Firmware 发 生 崩 尝 导 致 整个 控制 模块 重启 ， 那 么 
此 时 会 连 数据 IO 都 不 可 进行 ， 机 头 上 的 操作 系统 会 认为 这 种 情况 为 磁盘 
技 失 ， 受 到 影响 的 RAID ”Group 全 部 需要 被 Rebuild， 这 无 疑 是 一 个 巨大 
的 滔 费 ， 不 但 影响 了 数据 访问 性 能 而 且 还 降低 了 磁盘 寿命 ， 更 严重 的 情 
况 还 会 导致 连环 灾难 ， 即 在 Rebuild 过 程 中 再 次 发 生 于 盘 ， 一 旦 一 个 
RAID 5 组 中 于 多 余 2 块 盘 ， 那 么 此 时 整个 RAID 组 的 数据 就 会 宣告 丢失 
J 























忆 之 ， 扩 展柜 控制 模块 的 设计 一 定 要 力求 稳定 。 其 次 在 连接 线 统 方 
面 也 需要 注意 ， 有 些 时 候 因为 线 统 问 题 而 导致 整个 柜子 无 法 访问 。 人 磁盘 








阵列 后 端 连接 所 使 用 的 线 缆 多 种 多 样 ， 有 各 种 各 样 的 铜 线 和 光缆 ， 虽 然 
它们 都 承载 着 FCAL 协 议 。 


19.2.3 ”后 端 磁 盘 控 制 右 /适配器 层 


磁盘 控制 器 以 一 个 适 配 卡 的 形态 存在 于 存储 系统 机 头 当 中 ， 当 然 有 
些 适 配器 是 集成 在 主板 之 上 的 ， 但 它 依 然 是 通过 PCIX 或 者 PCIE 总 线 与 
系统 桥 心 片 连 接 的 。 适 配器 的 每 个 接口 都 会 连接 一 个 扩展 柜上 对 应 的 接 
口 ， 由 于 扩展 柜上 提供 了 双 Loop 接 口 元 余 ， 所 以 一 个 机 头 上 可 以 同时 使 
用 两 个 适配器 接口 来 连接 同一 串 扩展 柜 ， 这 样 既 可 以 实现 路 径 元 余 又 可 
以 实现 链 路 市 宽 均 衡 。 当 然 ， 不 是 所 有 存储 系统 部 支持 这 样 做 的 ， 扩 展 
柜上 的 双 接 口 往往 是 各 目 连接 不 同 的 机 头 ， 两 个 机 头 之 间 做 元 余 或 者 负 
载 均 衡 。 




















机 头 上 的 操作 系统 执行 与 主机 系统 类 似 的 过 程 ， 通 过 驱动 程序 ， 从 
所 有 适配器 上 发 现 后 端 FCAL 等 网 络 上 的 Target 设 备 ， 每 个 Target 就 是 一 
个 物理 磁盘 。 


注意 : 任何 存储 系统 绝对 不 会 使 用 磁盘 自身 的 Write Back 模 式 
的 缓存 ， 因 为 一 旦 掉 电 ， 数 据 不 保 。 所 以 后 端 磁盘 控制 器 要 在 
初始 化 时 确认 所 有 磁盘 的 缓存 模式 ， 如 果 是 Native Write 
Through 模 式 ， 那 么 控制 器 可 以 不 做 任何 担忧 ， 但 是 如 果 是 
Write _ Back 模式 ， 那 么 控制 器 必须 在 每 个 写 IO 指 令 中 将 FUA 位 
置 位 以 强迫 磁盘 进行 Write Through。 但 是 一 般 来 讲 ， 稍 微 高 端 
一 些 的 存储 系统 所 使 用 的 磁盘 Fimware 均 为 硬盘 厂商 定制 的 ， 
这 些 Firmware 会 考虑 到 这 些 的 ， 一 般 都 会 支持 Native Write 
Through 模 式 。 但 是 对 于 一 些 低 端 存储 系统 ， 所 使 用 的 硬盘 可 
以 是 市 面 上 的 桌面 硬盘 ， 它 们 一 般 都 是 Write _ Back 模式 的 写 组 








存 ， 对 于 这 些 存储 系统 的 控制 左 就 需要 注意 了 。 


19.2.4 RAID 管 理 层 





机 头 上 的 操作 系统 识别 到 了 所 有 后 端的 磁盘 ， 下 一 步 它 需要 对 所 有 
这 些 磁盘 来 划分 RAID ”Group。 可 以 说 划分 RAID 组 完全 是 一 个 软件 行 
为 ， 与 任何 硬件 无 关 。 通 常 所 说 的 所 谓 “ 便 RAID? 都 是 极 具 误导 性 的 说 
法 。 所 谓 硬 或 者 软 ， 是 指 对 客户 端 主 机 系统 来 讲 的 。 任 何不 耗费 主机 
CPU 处 理 资 源 所 实现 的 功能 ， 对 于 主机 来 说 都 是 硬 ， 比 如 便 解 压 卡 、 硬 
RAID 卡 等 。 人 至 于 外 部 智能 磁盘 阵列 ， 其 对 RAID 的 管理 当然 也 不 耗费 主 
机 端 CPU 资源 ， 所 以 也 可 以 称 为 一 个 超大 硬 RAID 卡 了 。 


但 是 对 于 存储 系统 本 身 来 讲 ， 人 硬 RAID 这 个 词 没 有 任何 意义 。 操 作 
系统 可 以 使 用 各 种 方式 来 记录 RAID 信 息 ， 比 如 直接 记录 在 所 有 磁盘 上 
的 一 段 固定 保留 区 域 ， 或 者 记录 在 存储 系统 控制 器 的 Flash ROM 中 ， 但 
是 现代 存储 系统 都 会 选择 同时 保存 在 磁盘 固定 区 域 中 和 Flash ROM 或 者 
任何 其 他 形式 的 永久 存储 介质 中 各 一 份 。 这 样 做 的 好 处 就 是 当 把 磁盘 拔 
出 再 插入 时 ， 系 统 可 以 根据 磁盘 上 所 记录 的 信息 来 判断 这 个 磁盘 为 尚未 
加 入 任何 RAID 组 的 人 磁盘， 还 是 已 经 存在 的 某 个 RAID 组 中 的 磁盘 ， 而 不 
管 这 个 人 磁盘 插 在 哪个 适 配 卡 接口 下 的 哪个 扩展 柜 。 














Flash 中 保存 的 那 份 则 用 来 在 系统 局 动 时 与 磁盘 上 的 信息 作 比 对 看 看 
古 否 一 致 ， 如 果 不 一 致 则 会 用 茶 种 方式 提示 用 户 来 选择 使 用 哪 一 份 。 这 
种 功能 的 一 个 应 用 例子 就 是 ， 比 如 两 合同 样 型 号 的 存储 系统 ， 东 时 刻 管 
理 员 想 把 系统 A 上 的 一 整个 RAID 组 迁移 到 系统 B 上 ， 那 么 管理 员 需 要 把 
所 有 系统 A 上 对 应 这 个 RAID 组 的 所 有 磁盘 拔 下 来 然后 插入 系统 B 上 ， 系 
统 B 的 操作 系统 此 时 就 会 读 出 这 些 新 插入 磁盘 上 所 保存 的 信息 来 与 当前 
Flash 中 保存 的 信息 做 比 对 ， 发 现 Flash 中 并 没有 这 些 记 录 ， 所 以 系统 B 就 








会 认为 这 是 一 个 新 的 RAID 组 ， 经 过 一 些 配置 之 后 ， 系 统 将 Flash 中 的 信 
息 与 当前 信息 进行 同步 。 








系统 一 方面 可 以 让 用 户 手动 选择 用 哪些 磁盘 组 成 一 个 RAID 组 以 及 
RAID 的 类 型 ， 男 一 方面 也 可 以 目 动 创建 RAID 组 ， 用 户 只 要 给 出 这 个 组 
中 需要 包含 多 少 磁盘 ， 系 统 号 会 根据 最 优 条 件 目 动 创建 。 比 如 尽量 将 组 
中 的 磁盘 分 布 在 不 同 的 后 端 适 配 右 接口 的 不 同 扩 展柜 中 ， 尺 量 平 衡 。 











关于 RAID 条 带 化 编 址 。 条 带 化 其 实 有 两 个 合 义 ， 第 一 是 逻辑 地 分 
割 每 个 磁盘 为 多 个 Segment， 每 个 磁盘 相同 位 置 的 Segment 组 成 一 个 横 回 
条 带 ， 然 后 计算 校 验 的 时 候 ， 以 条 市 为 单位 。 条 融 的 另 一 个 售 义 ， 也 是 
最 重要 的 售 义 ， 是 条 带 把 本 来 的 纵 线 编 址 映射 为 了 横向 编 址 ， 即 整个 
RAID 组 逻辑 空间 对 应 的 物理 地 址 是 以 条 和 带 为 单位 问 下 排列 的 ， 条 市 内 
则 是 以 Segment 为 顺序 自 左 向 右 的 ， 而 Segment 内 则 又 是 自 上 而 下 的 顺 
序 。 这 种 纵横 结合 编 址 的 目的 就 是 为 了 让 某 个 IO 请 求 的 地 址 段 可 以 跨越 
整个 条 带 ， 这 样 ， 每 个 IO 就 会 有 多 个 人 磁盘 为 它 服 务 ， 提 高 速度 。 这 种 设 
计 思 想 对 于 某 些 情况 确实 可 以 提高 性 能 ， 但 是 在 另外 一 些 条 件 下 ， 性 能 
不 升 反 降 ， 所 以 ， 这 种 思想 目前 正在 被 逐渐 打破 ， 各 种 新 模式 正在 逐渐 
出 现 。 











关于 存储 系统 使 用 的 XOR 蕊 片 。XOR 芯 片 只 是 作为 一 种 外 设 与 存 
储 系统 机 头 硬件 的 IO 总 线 所 连接 ， 比 如 完全 可 以 使 用 PCIE 总 线 来 连接 
这 个 XOR 芯 片 ， 任 何 需 要 进行 XOR 的 运算 操作 ， 系 统 都 会 将 数据 发 送 
至 这 个 XOR 心 片 来 计算 ， 计 算 完 成 后 再 放 入 系统 内 存 。 由 于 XOR 心 片 
为 ASIC 设 计 而 不 是 普通 CPU 设计 ， 运 算 方 式 有 本 质 不 同 ， 所 以 大 大 减 
轻 了 存储 系统 主 CPU 的 压力 ， 所 以 可 以 说 XOR 心 片 为 存储 系统 的 一 种 硬 
加 速 器 了 。 








RAID 组 划分 本 身 是 一 个 非常 迅速 的 过 程 ， 因 为 它 并 不 涉及 很 多 实 
际 数据 的 IO 操 作 ， 只 是 将 分 组 信息 数据 写 入 磁盘 固定 位 置 即 可 。 最 耗费 
时 间 的 是 划分 之 后 的 RAID 组 初始 化 过 程 。 关 于 RAID 初 始 化 的 细节 请 参 
考 本 书 前 面 的 革 市 。 


最 后 ， 创 建 好 的 RAID 组 可 能 还 需要 为 其 指定 一 个 首选 控制 器 ， 即 
选择 由 哪个 机 头 控制 恬 来 负责 对 组 内 所 有 磁盘 的 数据 IO 操作 。 由 于 高 可 
用 的 存储 系统 一 般 都 具有 双 控 制 右 机 头 ， 每 个 机 头 都 连接 到 同一 串 或 者 
几 串 扩展 柜 ， 为 了 避免 发 生 数 据 一致 性 问题 ， 同 一 个 磁盘 任何 时 刻 一 般 
只 允许 由 一 个 机 头 访 问 ， 所 以 机 头 一 般 会 回 对 应 的 磁盘 发 起 SCSI 
Reservation 操 作 。 创 建 RAID 组 之 后 ， 所 有 组 中 的 磁盘 只 能 同时 被 一 个 
机 头 来 Reserve， 当 一 个 机 头发 生 故 障 之 后 ， 另 一 个 机 头 会 台 行 接管 所 
有 的 RAID 组 。 这 种 机 制 的 存储 控制 右 一 般 都 是 松 耦合 的 ， 比 如 NetApp 
的 FAS 系 列 存 储 。 但 是 目前 几乎 所 有 双 控 存储 系统 都 允许 双 控 同时 访问 
同一 块 磁盘 了 ， 而 只 是 将 其 上 的 LUN 来 分 配给 单独 一 个 控制 器 机 头 管 
理 ， 男 一 个 作为 见 余 。 同 一 个 磁盘 上 可 能 会 存在 多 个 LUN 的 数据 部 分 ， 
而 这 多 个 LUN 可 能 又 隶属 于 不 同 的 控制 器 管理 ， 所 以 此 时 就 需要 双 控 可 
以 同时 访问 同一 块 磁盘 。 








存储 系统 创建 RAID 组 的 目的 有 3 个 : 第 一 个 是 为 了 防止 物理 磁盘 损 
坏 导 致 的 数据 丢失 ;第 二 个 是 为 了 提高 数据 访问 速度 ， 做 对 应 的 条 珊 
化 ， 提 高 并 发 度 ， 第 三 个 是 将 底层 的 大 量 磁 盘 再 分 割 成 较 小 的 逻辑 空 
间 ， 也 就 是 RAID 组 ， 方 便 管 理 。 





1. RAID 的 Write Hole 现 象 及 应 对 方法 


如 图 19-76 所 示 为 Write Hole 现 象 的 示意 图 。 茶 时 刻 茶 条 人 带 上 正 有 一 
个 Segment (D1) 以 及 相应 的 Parity ”Segment (P) 需要 更 新 ， 但 是 在 更 


新 过 程 中 ， 突 然 断 电 。 此 时 磁盘 上 的 数据 状态 可 以 是 以 下 6 种 中 的 一 
种 : DT1' 以 及 P' 均 被 成 功 地 更 新 到 了 磁盘 上 、 只 有 P' 被 更 新 、 只 有 D1' 被 
更 新 ，D1 只 写 了 一 部 分 、P 只 写 了 一 部 分 、D1L1' 以 及 P' 均 只 写 了 一 部 
分 。 有 具体 是 哪 一 种 ， 系 统 不 得 而 知 。 至 于 “只 写 了 一 部 分 ?是 什么 意思 
呢 ? 大 家 知道 磁头 是 要 在 磁盘 上 进行 磁化 操作 以 写 入 数据 的 ， 所 谓 部 分 
写 入 就 是 指 磁头 只 磁化 了 对 应 Segment 中 的 一 部 分 扇 区 ， 甚 至 断 电 前 磁 
头 所 位 于 的 而 区 本 身 也 只 被 磁化 了 一 人 小段 或 者 一 大 段 ， 并 没有 全 部 破 
化 ， 这 就 是 所 谓 的 “部 分 写 入 ”。 











图 19-76 ”Write Hole 现 象 示意 图 





上 述 6 种 状态 中 ， 只 有 一 种 是 需要 的 理想 状态 ， 其 他 都 为 不 一 致 状 
态 ， 比 率 为 1:5， 所 以 系统 突然 断 电 之 后 ， 数 据 便 会 有 很 大 几率 处 于 不 
一 致 状态 ， 系 统 重 局 之 后 必须 对 这 种 情况 进行 处 理 。 断 电 之 前 未 写 入 成 
功 的 数据 ， 和 磁盘 不 会 返回 成 功 消 上 电 ， 那 么 控制 右 台 会 感知 到 断 电 之 前 的 
状态 。 在 电力 恢复 之 后 ， 控 制 器 会 将 上 次 断 电 前 未 写 入 成 功 的 数据 再 次 
履 盖 写 到 相同 的 地 址 ， 以 确保 写 入 成 功 。 但 这 样 做 的 前 提 是 控制 占 中 的 
数据 缓存 具有 电池 保护 ， 或 者 可 以 在 断 电 之 前 将 缓存 中 的 数据 转 存 到 永 
入 性 存储 介质 比如 Flash 卡 或 者 磁盘 中 存放 。 同 时 ， 系 统 需 要 使 用 某 种 状 
态 机 来 记录 每 次 更 新 条 带 的 结果 ， 更 新 开始 时 将 条 带 标记 
为 “no_sync”， 表 示 本 次 更 新 疝 未 完成 ， 如 有 果 此 时 掉 电 ， 那 么 重 司 之 后 
系统 可 以 感知 到 这 个 条 带 处 于 no_sync 状 态 ， 则 对 其 进行 重新 写 入 ， 写 
入 之 后 将 其 标记 为 in_sync， 即 条 带 此 时 是 一 致 的 。 每 个 条 带 的 状态 
Cno_syncin_sync) 都 被 记录 到 单独 的 元 数据 链 中 保存 。 














2. RAID 层 可 以 考虑 的 一 些 优化 设计 





有 时 候 ， 一 个 RAID 组 的 磁盘 上 可 能 只 承载 了 一 个 或 者 几 个 LUN， 


而 如 果 一 个 RIAD 组 中 的 所 有 的 LUN 所 占据 的 空间 与 RAID 组 全 部 空间 相 
差 很 大 的 话 ， 那 么 当 RAID 组 中 某 盘 故 障 后 插入 新 盘 开 始 重 构 的 时 候 ， 
就 没有 必要 将 全 部 条 带 都 进行 重 构 ， 完 全 可 以 只 重 构 那 些 被 LUN 所 占据 
的 条 带 。 当 然 ， 前 提 是 这 些 LUN 在 RAID 组 成 员 盘 上 的 位 置 都 是 固定 
的 ， 而 不 是 随时 变化 的 。 这 样 就 需要 RAID 管 理 层 与 LUN 管 理 层 相互 配 
合 来 实现 这 个 目的 ， 这 样 就 会 大 大 降低 重 构 时 间 ， 延 长 设备 寿命 。 目 前 
已 经 有 一 些 产 品 实现 了 这 个 功能 。 











RAID 层 在 管理 RAID 0 时 可 以 采用 更 加 灵活 的 方式 。 如 图 19-77 左 侧 
所 示 ， 有 三 块 容量 各 不 相同 的 磁盘 ， 如 果 用 它们 来 组 成 RAID ”3/4/5/6 这 
种 校 验 型 的 RAID， 那 么 系统 必定 会 以 容量 最 小 的 盘 为 准 ， 其 他 盘 容 量 
比 这 大 的 部 分 将 会 被 截断 而 不 用 。 但 是 对 于 RAID 0， 无 须 校 验 ， 所 以 也 
就 不 受 这 个 限制 。 图 19-77 右 侧 所 示 的 RAID 0 布局 方式 中 ， 有 三 大 块 区 
域 ， 被 称 为 Zone。 


图 19-77 灵活 布局 的 RAID 0 系统 








此 外 ，RAID 管 理 层 还 负责 山区 重 定 癌 等 操作 ， 详 见 本 书 之 前 章 
下。 


19.2.5 LUN 管 理 层 


RAID 组 划分 之 后 ， 操 作 系统 对 竺 每 个 RAID 组 束 是 一 个 多 辑 上 的 连 
续 地 址 的 存储 空间 ， 如 果 用 操作 系统 驱动 链 的 眼光 来 看 ， 那 么 每 个 
RAID 组 也 都 会 有 一 个 驱动 程序 ， 这 个 驱动 程序 负责 将 RAID 组 逻辑 空间 
地 址 翻译 映射 为 底层 物理 磁盘 的 物理 地 址 ， 然 后 将 对 应 的 IO 请 求 传递 给 
磁盘 控制 器 驱动 程序 。 





在 RAID 组 之 上 ， 存 储 系统 还 会 生成 刃 一 层 逻 辑 层 次 ， 即 LUN， 


LUN 也 是 存储 系统 最 终 虚 拟 出 来 的 最 后 一 层 东 西 。LUN 会 被 直接 映射 给 
客户 端 主机 使 用 ， 客 户 端 主机 在 其 上 自身 存储 适配器 总 线 扫描 的 过 程 中 会 
发 现 一 个 Target 中 的 若干 LUN。 





前 文中 提 到 过 ， 存 储 系统 会 将 每 个 RAID 组 视 作 一 个 连续 地 址 的 逻 
辑 存储 空间 ， 也 就 相当 于 一 个 大 逻辑 磁盘 。 那 么 LUN 在 这 个 逻辑 空间 之 
内 到 展 是 怎么 分 布 的 呢 ? 是 像 普通 操作 系统 分 区 一 样 ， 按 照 连 续 的 地 址 
一 段 一 段 地 来 分 割 ， 还 是 可 以 像 文件 系统 一 样 ， 每 个 块 可 以 分 布 在 逻辑 
空间 内 的 任何 区 域内 ， 然 后 用 一 个 复杂 的 数据 结构 来 将 这 些 分 艇 的 块 组 
合 起 来 形成 逻辑 上 连续 的 LUN 呢 ?这 个 问题 并 没有 严格 的 答案 ， 每 个 三 
商 的 实现 方法 都 不 同 。 有 些 厂商 束 是 使 用 前 者 的 方式 ， 即 每 个 LUN 在 
RAID 组 空间 内 都 是 连续 的 一 大 块 ， 而 有 些 矿 商 为 了 获得 极 高 的 灵活 
性 ， 直 接 采 用 了 某 个 文件 系统 来 管理 LUN， 也 就 是 说 ，LUN 在 这 个 文件 
系统 下 面 就 是 一 个 文件 ， 这 个 文件 可 以 存放 在 底层 逻辑 空间 内 的 任何 区 
块 中 ， 可 以 连续 ， 当 然 也 可 以 随机 分 布 。 使 用 文件 系统 来 管理 LUN 的 一 
个 典型 例子 残 是 NetApp 的 WAFL 文 件 系 统 ， 这 里 就 不 做 过 多 摘 述 了 。 所 
以 说 ， 存 储 系 统 内 部 也 有 卷 管理 系统 或 者 文件 系统 ， 这 两 个 模块 将 底层 
逻辑 空间 再 映射 分 割 为 上 层 的 逻辑 空间 ， 也 就 是 LUN。 




















下 面 还 是 用 几 张 示意 图 来 描述 LUN 在 RAID 组 内 的 分 布 方式 吧 。 总 
结 了 一 下 共有 4 种 分 布 方式 。 虽 然 在 具体 设计 实现 的 时 候 又 会 有 细节 的 
不 同 ， 但 是 总 体 的 思想 就 是 这 4 种 。 


1. 纵 回 非 条 融化 LUN 分 布 方式 
这 种 模式 下 ， 每 个 LUN 的 逻辑 地 址 是 纵向 分 布 的 ， 即 用 完了 第 一 块 


磁盘 再 用 第 二 块 磁盘 ， 但 是 底层 的 RAID 组 还 是 以 Stripe 方 式 来 做 逻辑 分 
割 并 且 计 算 校 验 值 的 ， 所 以 这 种 方式 下 的 LUN 与 条 带 是 垂直 的 。 这 种 








LUN 分 布 方式 在 一 定 条 件 下 是 非常 合适 的 ， 具 体 见 下 文 。 如 图 19-78 左 
半 部 分 即 为 这 种 方式 的 示意 图 。 





图 19-78 条 带 和 非 条 带 LUN 分 布 方式 





2. 横 问 条 带 化 LUN 分 布 方式 





这 种 LUN 分 布 方式 是 大 多 数 产品 都 在 使 用 的 设计 。LUN 与 Stripe 平 
行 。 这 种 分 布 方式 在 一 定 条 件 下 会 显示 出 非常 低 的 性 能 ， 有 共 体 见 下 文 。 
如 图 19-78 中 右 半 部 分 即 为 这 种 方式 的 示意 图 。 注 意 ， 图 中 的 Parity 磁 盘 
只 是 示意 图 ， 对 于 RAID 5 来 讲 Parity 是 分 布 式 的 。 











另外 值得 一 提 的 是 ， 有 些 产 品 设 计 要 求 LUN 在 磁盘 上 的 分 布 必须 连 
续 ， 不 可 打 断 。 比 如 上 图 中 的 例子 ， 如 果 删 除了 茶 个 LUN， 那 么 对 应 的 
这 块 空间 将 会 被 标记 为 空间 ， 而 如 果 随 后 需要 创建 一 个 LUN， 但 是 这 个 
LUN 却 比 空余 的 这 块 空间 要 大 ， 那 么 就 不 能 够 直接 使 用 这 块 空间 ， 而 必 
须 在 整个 空间 尾部 划分 一 块 新 的 空间 给 这 个 LUN; 如 果 整 个 空间 内 已经 
没有 连续 的 空余 空间 来 容纳 这 个 LUN， 但 是 零散 的 空余 空间 加 起 来 却 可 
以 容纳 这 个 LUN， 那 么 此 时 系统 会 做 类 似 文件 碎片 整理 的 动作 ， 将 茶 个 
或 者 全 部 的 LUN 前 移 或 者 后 移 ， 将 缝隙 合并 ， 空 出 连续 的 空间 。 这 样 做 
的 根本 原因 就 是 因为 这 些 产品 所 设计 的 LUN 映 射 管理 系统 并 没有 足够 的 
智能 来 在 不 连续 的 底层 空间 来 做 映射 。 而 有 些 产 品 则 可 以 做 到 。 











3. 类 文件 系统 LUN 分 布 方式 





这 种 分 布 方式 与 文件 系统 无 异 ， 只 不 过 每 个 文件 可 能 比较 大 ， 比 如 
几 十 GB， 几 百 GB， 甚 至 FTB。LUN 其 实 本 来 就 是 一 个 Block 集 合 ， 逮 





辑 上 连续 ， 物 理 上 可 以 不 连续 。 这 种 LUN 分 布 方式 其 实 就 是 Filedisk 思 
想 ， 再 比如 经 常用 的 光盘 文件 镜像 ISO 格式 。 如 图 19-79 所 示 即 为 这 种 方 
式 的 示意 图 。 


图 19-79 ”类 文件 系统 LUN 分 布 方式 








当然 ， 这 张 图 所 表示 的 分 布 情况 并 不 一 定 就 是 实际 情况 ， 而 是 一 个 
极端 情况 。 可 以 看 到 每 个 LUN 的 碎片 都 很 多 ， 而 且 都 是 随机 分 布 的 ， 这 
种 情况 可 不 是 好 现象 ， 过 于 随机 的 分 布 会 导致 当 执行 连续 地 址 IO 时 性 能 
大 打折 扣 ， 而 连续 IO 本 应 该 是 性 能 最 好 的 IO 方式 。 








4， 基于 分 布 式 RAID 的 LUN 分 布 方式 


| 


前 文 介绍 了 存储 系统 划分 RAID 组 的 3 个 目的 。 但 是 我 们 仔细 从 宏观 
的 角度 想 一 想 ， 如 果 不 划分 RAID 组 ， 又 会 是 一 个 什么 样子 呢 ? 会 不 会 
有 本 质 区 别 呢 ? 也 就 是 说 ， 如 果 将 系统 中 的 所 有 物理 磁盘 组 成 一 个 大 的 
罗 辑 空间 ， 然 后 直接 让 LUN 分 布 到 其 上 ， 是 不 是 也 可 以 呢 ? 





如 图 19-80 所 示 即 为 这 种 分 布 式 RAID 的 示意 图 。 所 谓 “ 分 布 
式 ?RAID， 指 的 是 一 个 RAID 组 无 顷 独 占 某 几 块 硬盘 ， 可 以 与 其 他 不 同 
类 型 的 RAID 共 享 同 一 批 物理 人 硬盘， 另外 ， 同 一 块 磁盘 可 以 承载 任何 一 
种 RAID 类 型 的 一 部 分 。 


图 19-80 “分 布 式 RAID 模 式 的 LUN 分 布 


逻辑 空间 映射 管理 的 最 高 修炼 成 果 束 是 文件 系统 ， 同 样 ， 存 储 系统 
中 LUN 了 映射 管理 的 最 高 修炼 境界 也 就 是 文件 系统 。 我 们 来 举例 说 明 一 些 
厂商 修炼 的 结 


入 门 代 表 : 多 数 常 规 设计 ， 即 图 19-78 所 示 的 两 种 LUN 分 布 和 管理 


进 阶 代表 : WAFL。WAFL 是 绝对 细腻 的 纯 文件 系统 ， 甚 至 实现 了 
File In File 的 设计 ， 但 是 其 底层 仍 未 脱离 RAID Group。 炉 火 纯 青 代表 : 
XIV、VRAID。XIV 已 经 完全 实现 了 灵魂 脱 壳 而 游 思 有余 ， 它 并 没有 
RAID 组 的 概念 。 部 分 原因 是 因为 它 只 能 实现 镜像 式 RAID 10， 只 不 过 是 
分 布 式 RAID 10， 没有 了 RAID 组 的 概念 。 在 物理 磁盘 出 错时 ， 它 可 以 只 
恢复 被 实际 数据 所 占用 的 空间 而 不 需要 全 盘 恢复 ， 也 就 是 说 上 层 逻 辑 空 
闻 的 分 布 完全 游离 于 所 有 物理 磁盘 可 以 任意 映射 而 且 也 不 依附 于 磁盘 ， 
关于 XIV 的 具体 细节 请 参考 本 书 前 面 的 章节 。HP EVA 系列 存储 系统 中 
用 的 VRAID 的 设计 模式 与 图 19-80 所 示 类 似 ， 但 是 它 尚 未 做 到 XIV 那 样 
的 只 恢复 被 占用 的 数据 。 














提示 : ”目前 市 场 上 的 产品 大 多 数 还 是 使 用 横 癌 条 带 LUN 分 布 
方式 。 纵 回 的 分 布 方式 几乎 没有 人 如 此 设计 。 分 布 式 RAID 的 
LUN 分 布 方式 也 没有 产品 能 做 到 如 图 所 示 的 那 种 灵活 程度 ， 
HP 公司 VRAID 只 是 一 个 初级 版 。 但 是 类 文件 系统 的 LUN 分 布 
方式 ，WAFL、XIV、3PAR 等 都 已 经 可 以 做 到 ， 而 且 WAF] 也 
是 有 潜力 做 到 以 任何 方式 分 布 LUN 并 且 提 供用 户 配 置 接口 的 洪 
力 的 。 完 全 块 级 虚拟 化 的 LUN 分 布 方式 是 将 来 的 趋势 。 








5. 全 打 散 式 LUN 分 布 方式 





上 述 的 几 种 LUN 分 布 方式 都 是 局 限 在 某 个 RAID 组 中 的 。 比 如 系统 
中 共有 100 块 盘 ， 每 10 块 做 成 一 个 RAID 5 组 ， 然 后 在 各 个 RAID 组 中 再 划 
分 LUN， 每 个 RAID 组 之 间 的 LUN 互 不 影响 。 划 分 成 多 个 RAID 组 有 利于 
性 能 和 容量 隔离 ， 组 与 组 之 间 在 容量 与 性 能 上 不 会 产生 冲突 (忽略 底层 





传输 链 路 以 及 系统 总 线 等 底层 冲突 ) 。 然 而 ， 有 男 一 些 新 型 的 开放 式 存 
储 ， 比 如 IBM 的 XIV 以 及 3PAR 等 ， 它 们 的 LUN 是 被 打 散 成 小 块 〈 比 如 
XIV 镁 度 是 IMB ) 然后 将 这 些 块 均 衡 地 分 散在 系统 中 的 所 有 磁盘 中 。 这 
种 分 布 方式 的 优点 是 巨大 的 ， 在 应 对 随机 IO 方面 提速 很 多 。 理 论 上 讲 ， 
如 果 将 LUN 均 衡 分 散在 所 有 磁盘 中 ， 系 统 中 如 果 有 180 块 磁盘 ， 那 么 系 
统 理想 状态 下 最 大 可 以 并 发 针对 这 个 LUN 的 180 个 随机 IO， 实 际 中 并 发 
几率 也 很 高 〈 并 发 几率 随 着 盘 数 提高 而 提高 ) ， 每 个 盘 同 一 时 刻 都 服务 
于 一 个 IO， 而 如 果 只 将 这 个 LUN 分 布 到 比如 10 块 盘 组 成 的 RAID ”5 组 
中 ， 理 论 上 最 大 只 可 以 并 发 5 个 随机 IO， 而 且 并 发 几率 很 低 。 线 性 提升 
随机 IO 的 性 能 是 这 种 全 打 散 的 LUN 分 布 方式 的 最 大 好 处 。 





但 是 这 种 分 布 方式 也 有 一 个 致命 的 缺点 ， 即 在 面 对 大 块 连续 IO 的 情 
况 下 ， 系 统 很 难受 。 如 图 19-81 所 示 为 某 采 用 全 打 散 式 LUN 分 布设 计 的 
产品 。 假 设 某 LUN 的 物理 块 顺序 为 1234567， 这 7 个 块 的 分 布 如 图 所 示 ， 
系统 中 会 为 每 个 块 保留 一 份 元 余 块 。 当 某 应 用 发 起 读 取 从 1 一 7 这 7 个 块 
的 时 候 ， 本 应 为 连续 IO， 但 是 此 时 系统 所 做 的 事情 就 完全 不 是 连续 IO 的 
行为 了 。 由 于 系统 并 不 是 按照 严格 横向 条 带 化 方式 分 布 LUN， 所 以 原本 
连续 的 块 可 能 随机 地 分 布 到 每 块 硬盘 的 不 同位 置 ， 这 样 ， 原 本 连续 IO 就 
变 为 了 随机 IO。 虽 然 此 时 仍然 可 以 多 盘 并 发 提供 服务 ， 但 是 每 个 盘 都 要 
随机 寻 道 来 读 写 它 所 拥有 的 分 块 。 传 统 意义 上 的 “连续 IO 不 需要 频繁 寻 
道 ” 的 结论 不 再 适用 这 个 情况 了 。 











图 19-81 全 打 散 式 LUN 分 布 模式 








主机 发 起 对 这 个 LUN 上 的 这 7 个 数据 块 的 连续 读 IO 操 作 时 : 





(1) 先 从 一 个 框 子 中 的 磁盘 上 将 1 和 2 数据 块 读 入 缓存 “磁盘 需要 
多 次 寻 道 ) 。 


(2) 再 从 另 一 个 柜子 将 3、4、7 数 据 块 读 出 《磁盘 需要 多 次 寻 
道 ) ， 并 且 通 过 入 部 以 太 网 矩阵 传递 给 接收 主机 IO 请 求 的 那个 柜子 。 


(3) 再 从 另外 一 个 柜子 中 将 5、6 数 据 块 读 出 (磁盘 需要 多 次 寻 
道 ) ， 并 且 通 过 入 部 以 太 网 矩阵 传递 给 接收 主机 IO 请 求 的 那个 柜子 。 


(4) 接收 主机 IO 请 求 的 柜子 收集 到 所 有 数据 块 之 后 ， 将 数据 块 返 
回 给 主机 。 


以 上 只 是 在 单 LUN 的 连续 IO 方面 ， 而 在 面 对 多 LUN 并 发 的 大 块 连续 
IO 时 ， 整 个 系统 性 能 骤 降 。 本 质 原因 就 是 因为 LUN 被 均衡 打 散 ， 大 块 连 
续 IO 必 定 会 在 单位 时 隐 内 占用 几乎 所 有 磁盘 为 某 个 LUN 服 务 ， 而 此 时 如 
果 再 有 第 二 个 LUN 也 接受 大 块 连续 IO， 那 么 所 有 的 磁盘 也 同时 需要 服务 
于 这 个 LUN， 这 样 这 两 个 LUN 就 产生 了 资源 争 抢 ， 系 统 到 底 优 先 服 务 于 
哪个 LUN 呢 ? 这 就 像 一 个 十 字 路 口 ， 红 灯 到 底 亮 几 秒 才 合适 呢 ? 不 管 怎 
么 样 ， 系 统 肯定 不 会 以 太 大 的 时 阶 粒 度 来 轮流 服务 每 个 LUN， 这 样 就 必 
然 导 致 雪上 加 霜 。 对 一 个 LUN 的 连续 IO 访问 已 经 牵动 了 所 有 盘 ， 更 别提 
同时 服务 多 个 LUN 的 IO 了 。 














所 以 ， 全 打 散 的 LUN 分 布 方式 ， 最 好 提供 给 用 户 以 可 控 的 接口 ， 让 
用 户 来 定义 具体 茶 个 LUN 如 何在 系统 中 的 磁盘 上 进行 分 布 。 针 对 不 同 的 
应 用 系统 ， 选 择 不 同 的 分 布 方式 ， 而 不 是 一 竺 子 定 死 。 目 前 据 笔 者 所 知 
只 有 中 科 赣 是 的 BWFS 提 供 模 癌 条 囊 化 与 纵 问 顺序 分 布 这 两 种 文件 分 布 
方式 〈 文 件 分 布 与 LUN 分 布 本 质 是 相同 的 ) 。 

















另外 ， 为 了 避免 磁盘 频 索 寻 道 的 问题 ， 全 打 散 式 的 LUN 分 布 可 以 选 
择 尽 量 将 逻辑 上 连续 的 LUN 块 分 布 到 尽量 连续 的 物理 磁盘 块 中 ， 这 样 最 
起 码 可 以 保证 单 LUN 大 块 连续 IO 情况 下 性 能 不 打折 扣 。 这 样 做 融 相 当 于 





横向 条 带 化 的 分 布 模式 了 ， 只 不 过 是 横 跨 到 系统 中 的 所 有 磁盘 中 了 ， 但 
是 这 样 做 也 同时 降低 了 LUN 分 布 的 灵活 性 。 但 是 不 要 误解 一 点 ， 横 跨 系 
统 中 所 有 盘 并 不 意味 着 所 有 盘 组 成 一 个 大 的 RAID ”5 组 ， 可 以 组 成 多 个 
RAID ”5 组 ，LUN 分 布 于 底层 传统 RAID 是 分 开 的 两 个 层面 。 应 始终 牢 
记 ， 不 管 LUN 如 何 分 布 ，RAID 只 管 在 组 内 磁盘 的 横 癌 相同 地 址 上 的 数 

据 计 算 校 验 并 保存 ，RAID 是 防止 单 盘 失 效 的 ， 不 要 将 其 与 上 层 的 东西 

混 消 。 








6. LUN 分 布 方式 的 设计 对 其 他 阵列 局 级 功能 的 影响 


LUN 分 布 的 方式 直接 决定 着 一 个 产品 后 期 对 Snapshot、RAID 组 扩 
容 、Thin Provision 以 及 动态 数据 分 级 (Dynamic Storage Tiering, DST) 
的 开发 难 易 度 以 及 粒度 。 这 个 问题 很 显然 ， 如 果 采 用 横向 条 融化 定 死 方 
式 来 分 布 LUN， 那 么 其 他 一 切 蜗 级 功能 的 设计 也 就 受到 很 大 局 限 了 。 








RAID 组 扩容 :首先 来 看 RAID 组 扩容 应 该 怎么 处 理 。 当 RAID 组 内 
新 加 了 一 块 磁盘 之 后 ， 为 了 保持 所 有 LUN 依 然 横 跨 所 有 盘 ， 而 且 还 必须 
保证 物理 地 址 或 者 逻辑 地 址 的 连续 性 ， 那 么 系统 可 以 选择 使 用 两 种 方式 
来 填充 新 加 入 的 空余 空间 。 第 一 种 是 完全 条 办 法 ， 就 是 将 Segment 一 个 
一 个 地 往 上 移动 ， 从 而 填补 空 除 ， 这 个 工作 是 耗费 大 量 IO 和 计算 资源 
的 ， 读 出 、 写 入 频 系 ， 写 入 时 还 需要 计算 XOR， 但 是 此 时 的 XOR 计 算 
读 惩罚 要 相对 少 一 些 ， 因 为 根据 公式 新 数据 的 校 验 数 据 二 〈 老 数据 
EOR 新 数据 ) EOR 老 校 验 数 据 ， 此 时 老 数据 二 0， 系 统 事 先 就 知道 了 ， 
不 需要 读 盘 操作 ， 但 是 老 校 验 数据 还 是 要 读 出 的 。 进 行 重 构 的 同时 还 需 
要 继续 接受 上 层 下 发 的 IO 操作 ， 对 应 用 不 能 有 影响 〈 有 具体 机 制 可 以 参考 
本 书 之 前 章节 以 及 附录 1 中 对 RAID 初 始 化 过 程 的 描述 ) 。 如 图 19-82 所 
示 为 扩容 前 与 扩容 后 的 分 布 图 。 虽 然 这 个 办 法 很 策 而 且 耗 费 大 量 资源 ， 














但 是 其 可 以 保证 LUN 物 理 地 址 的 连续 性 ， 一 了 百 了 。 





图 19-82 ” 笨 办 法 扩容 


第 二 种 办 法 则 是 不 移动 实际 数据 ， 磁 盘 加 入 之 后 ， 首 先进 行 重 构 ， 
将 Parity 重 算 成 一 致 的 (由 于 是 在 线 扩容 ， 同 时 可 以 接受 主机 IO， 所 以 
必须 重 算 Parity; 如 果 是 离线 扩容 ， 那 么 只 需要 同人 磁盘 发 送 Zero ”Disk 指 
令 让 磁盘 自己 将 自己 的 数据 清 零 ， 之 后 就 不 需要 重 算 Parity 了 ， 因 为 根 
据 XOR 算 法 ， 加 入 0x00 之 后 ， 原 有 的 Parity 值 不 变 ) ， 之 后 就 放 那 不 管 
了 。 因 为 加 入 新 磁盘 对 之 前 的 LUN 容 量 是 没有 影响 的 ， 之 前 的 LUN 完 全 
可 以 选择 不 动 地 方 。 如 果 此 时 用 户 想 在 这 块 剩 余 空 间或 者 原 有 磁盘 的 剩 
余 空 间 内 创建 新 LUN， 首 先 选 择 在 原 有 空间 内 横向 分 布 这 个 LUN， 如 果 
空间 不 够 ， 那 么 拿 这 块 新 加 入 的 纵向 空间 来 补 齐 ， 这 样 会 造成 LUN 的 物 
理 地 址 并 不 是 按 顺 序 横 跨 在 物理 磁盘 上 的 ， 就 需要 做 一 个 映射 表 来 影射 
不 规则 的 物理 地 址 到 规则 的 逻辑 地 址 了 。 如 图 19-83 所 示 为 这 种 思想 指 
导 下 的 扩容 前 后 布局 图 ， 可 以 看 到 LUN3 已 经 被 分 成 两 部 分 ， 横 向 部 分 
横 跨 原 有 磁盘 ， 空 间 不 够 的 话 就 文 出 一 个 分 部 到 新 加 入 磁盘 中 纵 癌 分 
布 。 这 么 做 的 好 处 就 是 除了 重 算 Parity 外 不 耗费 其 他 资源 ， 但 是 会 永远 
维护 一 个 地 址 影射 表 ， 而 且 同 一 个 LUN 的 不 同 部 分 有 不 同 的 性 能 。 属 于 
一 种 野 路 子 。 























图 19-83 ”地 址 映射 方式 扩容 








相对 的 ， 如 果 使 用 类 文件 系统 的 块 级 虚拟 化 方式 来 分 布 LUN， 那 么 
应 对 RAID 组 扩容 根本 不 是 问题 ， 甚 至 可 以 除了 重 算 Parity 外 什么 都 不 用 
做 ， 为 何 呢 ?” 因 为 这 种 LUN 分 布 方式 其 原本 就 维护 了 比较 复杂 的 块 映射 
表 ， 而 且 分 块 粒度 恒定 ， 分 布 的 有 章法 有 套路 ， 虽 然 上 面 那 个 野 路 子 也 
有 点 这 个 意思 了 ;， 但 是 毕竟 还 是 野 路 子 ， 























同时 ， 如 果 选 择 使 用 纵向 非 条 带 化 模式 ， 那 么 面 对 这 种 情况 也 根本 
不 用 做 什么 ， 除 了 Parity 重 算 之 外 。 


Thin Provision: 对 于 横 癌 条 带 化 的 LUN 分 布 模式 下 如 何 实现 
Thin， 请 参考 本 书 之 前 章节 。 类 文件 系统 的 LUN 分 布 方式 虽然 可 
以 天 然 地 实现 Thin， 但 是 依然 面临 性 能 问题 ， 它 的 性 能 问题 与 是 
否 开 启 Thin Provision 功 能 无 关 ， 而 是 其 这 种 机 制 天 然 就 决定 了 在 
大 块 连续 IO 下 的 性 能 折扣 《〈 见 前 文 ) 。 即 使 对 全 打 散 模式 做 了 改 
进 ， 比 如 前 文 提 到 的 让 逻辑 连续 的 块 物理 上 也 尽量 连续 ， 那 么 一 
且 开 局 Thin 之 后 ， 物 理 上 是 否 连 续 就 不 是 我 们 所 能 控制 的 了 ， 多 
个 LUN 会 互相 挤占 ， 这 样 就 不 连续 了 ， 此 时 大 块 连续 IO 性 能 无 法 
得 到 保证 。 

Snapshot: 我 们 知道 Snapshot 有 两 种 方式 ，CoFW、WR (或 称 
Redirect On Write，ROW) 。 复 制 或 者 重 定向 写 是 有 一 个 粒度 
的 ， 比 如 4KB， 甚 至 128KB 等 。 对 于 小 块 全 打 散 式 LUN 分 布 模 
式 ， 这 些小 块 就 可 以 作为 Snapshot 的 复制 粒度 ， 另 外 ， 这 种 模式 
下 系统 本 来 就 需要 维护 一 份 元 数据 ， 比 如 各 种 链表 、 位 图 等 来 记 
录 逻 辑 位 置 与 物理 位 置 的 对 应 关系 ， 而 Snapshot 也 需要 类 似 的 元 
数据 ， 所 以 元 数据 方面 又 可 以 统一 整合 了 。 这 极 大 方便 了 
Snapshot 的 设计 和 开发 。 而 对 于 横 回 条 融化 或 者 纵 同 非 条 带 化 模 
式 ， 引 入 Snapshot 之 后 需要 引入 一 套 额外 的 元 数据 链 ， 增 加 了 开 
发 难度 和 设计 难度 。 

DST: 既然 是 块 级 动态 数据 分 级 ， 那 么 天 然 就 可 以 与 全 打 散 的 
LUN 分 布 模式 以 及 类 文件 系统 LUN 分 布 模式 相 融 合 了 。 只 需要 增 
加 基层 Tier 级 别 的 定义 ， 比 如 SSD Tier0， 将 热点 块 分 布 到 SSD 中 
同时 变更 地 址 映射 表 即 可 ， 另 外 ， 再 加 入 一 层 热 点 判断 和 迁移 集 
略 层 即 可 。 底 层 丝毫 无 须 改 变 。 而 对 于 其 他 类 型 的 LUN 分 布 模 























式 ， 隐 需 要 引入 全 新 的 映射 链表 来 处 理 分 布 在 不 同 Tier 中 不 同位 
置 的 LUN， 增 加 了 开发 难度 。 


所 以 ，LUN 分 布 方式 直接 决定 了 一 球 产 品 的 前 后 期 开 友 难度 、 功 
能 、 性 能 、 易 用 性 、 后 期 新 功能 开发 可 行 性 等 。 阵 列 中 玩 的 就 是 LUN， 
除了 RAID 之 外 ， 其 他 高 级 数据 加 工 功能 都 是 基于 LUN 的 ， 底 层 架 构 直 
接 决 定 上 层 实现 方式 和 效率 。 





7. 关于 LUN 的 对 齐 问题 


所 有 存储 系统 在 创建 LUN 的 时 候 都 会 要 求 用 户 来 选择 这 个 LUN 将 要 
被 何 种 主机 操作 系统 使 用 ， 这 样 做 的 原因 其 实 是 因为 不 同 操作 系统 使 用 
不 同 的 文件 系统 和 卷 管理 系统 ， 而 不 同 的 文件 系统 或 卷 管理 系统 又 会 从 
磁盘 的 不 同 地 址 来 作为 文件 系统 管理 的 空间 的 起 始 地 址 ， 比 如 ， 至 少 不 
可 能 将 LBA0， 也 就 是 MBR 扇 区 作为 文件 系统 的 空间 。 








而 常规 情况 下 ， 存 储 系 统 中 所 创 四 1984 起 始 地 下 个 对 曾 不 总 图 

建 的 LUN 都 是 Segment 的 整数 倍 ， 即 

Segment 对 齐 的 。 但 是 由 于 文件 系统 或 者 主机 端 卷 管理 程序 会 从 某 个 非 0 
的 起 始 地 址 来 作为 自 映 空间 的 边界 ， 并 不 知晓 这 个 LUN 其 实 是 横路 在 多 
块 物理 磁盘 上 的 ， 这 种 使 用 非 0 地 址 为 边界 ， 导 致 了 FS 或 者 VM 的 逻辑 
Block 也 可 能 横路 于 多 个 物理 磁盘 。 那 么 也 就 是 说 ，FS 或 Cache Manager 
每 操作 一 个 Block 或 Page， 融 需要 占用 两 块 磁盘 而 不 是 1 块 ， 产 生 了 惩 
训 ， 如 图 19-84 所 示 。 为 了 解决 这 个 问题 ， 存 储 系统 会 根据 用 户 在 创建 
LUN 时 给 出 的 操作 系统 类 型 来 动态 地 在 LUN 了 映射 关系 式 内 将 对 应 的 起 始 
地 址 侦 移 量变 量 的 值 癌 前 推移 对 应 的 而 区 数量 ， 从 而 达到 与 上 层 的 逻辑 
起 始 地 址 重合 。 上 下 不 对 齐 会 导致 严重 的 性 能 问题 ， 存 储 系统 一 般 均 会 
判断 这 种 情况 是 否 发 生 并 且 通 过 某 些 输出 来 通知 用 户 ， 比 如 当 存 储 系 统 


向 后 某 个 LUN 下 发 1 个 IO 请 求 时 ， 到 了 底层 却 变 成 了 两 个 ， 那 么 就 很 容 
易 判 断 发 生 了 Misalign 情 况 。 


为 了 解决 这 个 问题 ， 存 储 系统 都 会 针对 不 同 的 操作 系统 来 分 布 
LUN， 将 LUN 中 对 应 FS 起 始点 的 LBA 地 址 与 底层 卷 的 Block 边 界 对 齐 ， 
也 就 是 类 似 于 将 LUN 在 底层 RAID ”Group 中 前 移 一 定 长 度 的 LBA 地 址 ， 
这 段 长 度 会 根据 不 同 操作 系统 而 不 同 。 








8. LUN 碎 片 整理 


请 不 要 误会 这 里 所 说 的 “碎片 整理 ”。 主 机 端的 碎片 整理 整理 的 是 
LUN 里 的 文件 系统 块 ， 而 阵列 段 的 LUN 碎 片 整 理 指 的 是 阵列 自身 在 底层 
物理 磁盘 层面 整理 被 分 裂 成 多 块 的 LUN， 将 其 合并 成 一 个 物理 上 连续 的 
空间 。 为 何 会 出 现 LUN 碎 片 ? 这 个 问题 不 得 不 拿 NetApp 的 WAEFL 来 开刀 
了 。LUN 在 WAFL 下 就 是 一 个 彻头彻尾 的 文件 ， 与 普通 文件 系统 中 的 文 
件 别 无 二 致 。 正 因 如 此 ， 不 可 避免 这 个 LUN 会 随 着 时 间 的 增长 就 可 能 被 
分 布 到 底层 物理 空间 的 各 个 位 置 ， 连 续 IO 到 了 底层 变 为 了 随机 IO， 这 是 
谁 都 不 想 看 到 的 。 所 以 WAFL 提 供 了 雁 片 整理 程序 。 当 然 ，WAFL 对 
LUN 的 分 布 是 最 极端 也 是 最 容易 的 做 法 。 其 他 厂商 对 LUN 的 分 布 没有 如 
此 的 灵活 ， 基 本 上 都 是 连续 的 横向 分 布 在 底层 RAID 组 之 上 的 。 





比如 EMC 的 Clariion CX4 系 列 存 储 中 ， 当 在 某 个 RAID 组 中 创建 了 3 
个 LUN， 之 后 删除 了 第 二 个 LUN， 那 么 此 时 便 会 在 RAID 组 物理 空间 上 
留 下 一 个 空 际 。 如 果 随 后 打算 再 次 创建 一 个 新 LUN， 如 果 待 创建 的 LUN 
的 大 小 小 于 等 于 这 个 空隙 ， 那 么 系统 会 将 这 个 LUN 分 布 到 这 个 空隙 中 ， 
这 是 最 好 的 状况 ; 如 果 尺 寸 大 于 这 个 空 际 ， 那 么 系统 就 只 能 选择 其 他 的 
更 大 的 空余 空间 来 创建 这 个 LUN， 这 块 空隙 就 不 能 够 被 利用 ， 这 个 空 阶 
就 被 称 为 “碎片 ?， 当 然 这 种 雁 片 肯定 不 如 WAEFL 的 碎片 粒度 大 。EMC 提 











供 了 碎片 整理 程序 ， 如 图 19-85 所 示 为 一 个 空 隐 碎 片 产 生 的 过 程 。 图 19- 
86 所 示 为 碎片 整理 之 后 的 LUN 分 布 状 况 。 


图 19-85 ”LUN 碎片 的 产生 











图 19-86 碎片 整理 完毕 的 状态 








在 Scale-Out 架 构 的 存储 系统 中 ， 很 多 厂商 就 硕 望 LUN 被 打 碎 ， 比 如 
IBM 的 XIV、3PAR InservT 系 列 、EMC 的 Symmetrix V-Max 系列 ， 它 们 
的 LUN 分 布 思想 都 是 打 碎 分 布 到 多 个 节点 的 存储 空间 中 ， 这 样 来 讲 ， 相 
当 于 LUN 被 故意 设计 为 碎片 ， 用 多 个 节点 并 行 地 服务 于 这 些 碎 片 。 这 样 
做 在 随机 IO 访问 的 情况 下 确实 会 提升 效能 ， 但 是 在 多 LUN 并 发 连续 IO 的 
情况 下 ， 效 果 可 能 适得其反 ， 具 体 分 析 可 见 本 章 后 面 内 容 。 











思考 : ”LUN 分 布 方式 、ThinProvision、 自 动 分 级 存储 ， 仔 细 想 
来 ， 这 三 者 其 实 是 可 以 融洽 的 ， 因 为 它们 三 者 的 基础 都 是 块 级 
别 粒 度 的 数据 分 布 和 移动 。 比 如 ， 某 个 LUN 以 类 文件 系统 方式 
来 分 布 ， 分 布 粒度 以 1GB 为 单位 增长 ， 利 用 类 似 文件 系统 元 数 
据 的 方式 来 记录 整个 LUN 的 映射 链 关 系 ， 同 时 ， 也 可 以 容易 地 
实现 数据 的 自动 分 级 ， 以 1GB 为 粒度 ， 构 建 一 个 数据 库 来 追踪 
记录 每 个 1GB 区 域 的 属性 、 访 问 频率 、 当 前 所 处 的 层级 等 信 
恩 ， 然 后 定时 启动 分 级 迁移 策略 。 

所 以 ， 在 设计 LUN 分 布 方式 的 时 候 ， 一 定 要 结合 考虑 今后 的 增 
值 功 能 规划 。 如 果 LUN 的 分 布 方式 过 于 定 死 ， 那 么 就 不 利于 今 
后 的 Thin 以 及 自动 分 级 的 实现 了 。 




















19.2.6 “前端 接口 设备 及 驱动 层 


存储 系统 前 端 接口 用 于 连接 主机 客户 端 。 与 主机 所 不 同 的 是 ， 存 储 
设备 会 有 更 多 种 类 和 数量 的 网 络 接口 ， 比 如 FC 接口 、 用 于 iSCSI 协 议 的 
以 太 网 接口 、SAS 接 口 等 。 主 机 客户 端 会 通过 前 端 接口 识别 存储 系统 映 
射 的 LUN 并 且 对 LUN 做 数据 IO 或 者 控制 IO 操作 。 








注意 : ”前 并 接口 处 需要 注意 的 一 个 地 方 束 是 Queue Depth， 在 
各 个 层次 都 尚未 产生 瓶颈 的 时 候 ，Queue ”Depth 越 大 ， 一 次 接 
受 和 处 理 的 IO 承 越 多 ， 系 统 表现 出 来 的 IOPS 和 吞吐 量 承 会 越 
高 。 但 是 当 任 何 一 处 达到 瓶 须 的 时 候 ，Queue 就 会 逐渐 开始 积 
压 IO 请 求 ， 单 个 IO 的 啊 应 时 间 会 随 着 积压 严重 程度 而 越 来 越 


wa 
[三 】 
Do 





19.2.7 ”缓存 管理 层 





外 部 存储 系统 一 般 都 安装 有 比较 多 的 内 存 来 作为 数据 缓存 ， 并 且 为 
了 防止 突然 断 电 或 者 系统 Down 机 导致 的 内 存 数据 丢失 ， 外 部 存储 系统 
一 般 都 会 使 用 各 种 方法 来 保存 这 些 尚 未 被 写 入 人 硬盘 的 Dirty 数 据 。 有 些 直 
接 使 用 电池 给 内 存 供电 ; 有 些 则 使 用 位 于 存储 设备 机 染 内 的 微型 UPS 不 
间断 电源 在 外 部 电源 故障 时 将 内 存 中 的 Dirty 数 据 写 入 硬盘 数据 区 之 后 再 
将 系统 Gracefully Shutdown; 或 者 利用 内 部 微型 UPS 直 接 将 内 存 中 的 所 
有 数据 Dump 到 硬盘 的 固定 位 置 的 空余 空间 之 后 将 系统 Shutdown 待 电源 
恢复 后 再 读 入 内 存 然后 写 入 硬盘 数据 区 ; 有 些 则 使 用 电池 给 内 存 和 一 个 
Flash 卡 供电 ， 发 生 电源 故障 之 后 ， 通 过 某 个 智能 必 片 将 内 存 中 的 数据 
Dump 到 Flash 卡 中 存放 。 








1. 关于 缓存 的 分 配 


存储 系统 内 存 分 为 两 大 部 分 : 一 是 供 存储 系统 的 操作 系统 内 核 以 及 








其 他 上 层 程序 运行 所 需要 的 内 存 空间 ， 二 是 用 于 绥 存 读 写 数据 的 数据 绥 
存 。 数 据 缓存 义 可 分 为 读 缓存 和 写 缓存 ， 至 于 读 和 写 缓存 所 占 的 比例 ， 
不 同 产 品 设计 也 不 同 ， 但 是 一 般 情 况 下 ， 写 缓存 所 占 比例 大 于 读 绥 存 。 
因为 对 于 一 个 大 容量 的 存储 系统 ， 绥 存 的 大 小 相对 于 磁盘 容量 来 讲 是 九 
牛 一 毛 ， 读 缓存 在 大 多 数 情况 下 的 命中 率 都 不 会 很 高 ， 所 以 与 其 将 内 存 
分 配给 读 缓存 ， 不 如 多 分 配 一 些 给 写 缓存 ， 因 为 在 Write _ Back 模式 下 ， 
一 般 情 况 下 的 写 总 是 “命中 ”的 (区 别 于 “ 写 命中 ”， 后 文 会 介绍 “ 写 不 命 
中 ”) 。 然 而 请 理解 ， 读 或 者 写 缓存 ， 并 不 一 定 是 物理 上 分 界 的 ， 各 目 
也 并 不 一 定 是 物理 上 连续 的 ， 任 何 一 个 缓存 Page 只 要 被 标记 为 Dirty， 那 
么 这 个 Page 就 属于 写 绥 存 ， 一 旦 标记 被 抹 挥 ， 那 么 它 就 属于 读 缓存 了 。 
一 些 高 端 产 品 上 共有 很 大 的 缓存 ， 这 些 高 端 控 制 器 对 读 写 缓存 可 能 会 进行 
物理 上 的 分 界 ， 读 和 写 互 不 干扰 。 





























2. 关于 写 缓存 镜像 











对 于 双 控 制 器 架构 的 存储 系统 ， 图 19-87” 双 控制 器 写 缓 存 镜 像 示意 图 
为 了 防止 控制 器 自身 故障 所 导致 的 内 
存 数据 丢失 ， 两 个 控制 器 之 间 的 写 缓存 是 互 为 镜像 的 关系 ， 即 控制 器 A 
收 到 一 个 写 IO 操 作 ， 则 会 立即 将 这 个 IO 请 求 及 其 数据 通过 控制 莫 间 内 部 
互联 链 路 发 送 给 控制 右 B 一 份 保留 ， 然 后 才 可 以 问 主 机 客户 端 返回 成 功 
言 写 。 当 控制 右 A 将 这 个 IO 写 入 磁盘 之 后 会 通知 控制 器 B 将 它 保 留 的 IO 
副本 作废 以 便 腾 出 空间 。 如 图 19-87 所 示 为 双 控 制 器 写 缓存 镜像 的 示意 
图 。 绥 存 镜像 的 过 程 会 增加 主机 端的 IO 响应 时 间 ， 并 且 系 统 的 总 体 写 带 
宽 会 受制 于 控制 器 间 的 数据 链 路 速率 ， 当 然 ， 设 计 优 展 的 存储 系统 都 会 
消除 这 个 瓶颈 。 控 制 器 间 链 路 速率 至 少 要 与 所 有 前 端 总 线 市 宽 之 和 的 
20%% 差 不 多 ， 一 般 场 景 下 写 与 读 的 比例 可 以 按照 二 八 开 。 








3. 关于 缓存 命中 率 


对 于 连续 IO， 由 于 系统 预 读 的 效应 ， 命 中 率 通 常 可 以 保证 比较 高 。 
但 是 对 于 随机 度 很 大 的 IO 请 求 ， 命 中 率 普 遍 非 常 低 。 对 于 随机 IO 命中 率 
低 的 问题 目前 没有 什么 特效 解决 办 法 ， 除 非 使 用 不 需要 机 械 寻 道 的 存储 
介质 比如 SSD。 被 从 磁盘 读 入 缓存 的 数据 在 传输 给 主机 端 之 后 并 不 会 立 
即 作废 ， 而 是 停留 一 段 时 间 来 倍 一 磁 运 气 看 看 是 否 一 段 时 间 内 还 有 IO 请 
求 读 取 同 样 的 数据 或 者 地 址 有 交集 的 数据 。 随 着 数据 被 不 断 的 读 入 ， 系 
统 总 要 作废 一 些 老 数据 而 引入 一 些 新 数据 ， 存 储 系统 一 般 使 用 
LRU (Least Recently Used) 算法 来 决定 绥 存 中 哪些 数据 作废 哪些 继续 
保留 。 系 统 会 在 Page Table 中 为 每 个 Page 记 录 一 个 最 后 访问 时 间 惟 以 及 
Dirty Bit。 











预 读 是 显著 提高 命中 率 的 手段 ， 预 读 方式 根据 产品 设计 而 不 同 ， 但 
是 目前 三 丙 采 用 的 方法 都 大 同 小 异 。 有 一 类 Multi Stream Detection 设 计 
需要 着 重 介 绍 一 下 。 假 设 主机 端 有 1 个 进程 在 对 某 个 LUN 发 起 读 IO，IO 
属性 为 连续 IO， 地 址 从 0 往 上 逐 1 增加 ， 比 如 LBA0、1、2、3、4、5、 
ee 此 时 存储 系统 会 感知 到 这 种 连续 性 从 而 做 大 力度 的 预 读 动 作 ， 绥 
存 命中 率 非 常 高 ;但 是 如 果 主 机 端 有 两 个 进程 对 这 个 LUN 做 读 IO 操 作 ， 
而 且 每 个 进程 发 起 的 IO 属性 也 各 自 都 为 连续 IO， 第 1 个 进程 从 地 址 0 开始 
逐 1 增加 ， 第 2 个 进程 从 地 址 4 开始 逐 1 增加 ， 由 于 两 股 IO 流 是 混合 发 回 存 
储 系 统 的 ， 那 么 它们 的 混合 排列 就 可 能 是 类 似 “0 45 1 6 234 78 5 9” 这 种 
方式 。 存 储 系统 接收 到 这 串 IO 流 ， 昌 然 小 范围 内 地 址 是 不 连续 的 、 跳 跃 
的 ， 但 是 大 范围 之 内 ， 地 址 还 是 连续 的 ， 并 且 如 果 将 这 串 被 合并 的 IO 流 
智能 地 监测 分 开 为 两 个 独立 的 流 〈Stream) 的 话 ， 那 么 就 会 发 现 其 实 看 
似 随 机 的 IO 其 实 是 连续 的 ， 那 么 系统 就 可 以 有 针对 性 地 加 大 预 读 力度 ， 
提高 命中 率 了 。 而 不 具有 这 种 Multi Stream Detection 功 能 的 系统 ， 面 对 




















这 种 泥 合 流 时 ， 其 预 读 力度 束 不 会 太 大 。 实 际 情况 中 可 能 存在 多 个 
Stream 混 合 ， 这 就 对 算法 的 效率 有 了 更 高 的 要 求 。 





然而 ， 对 于 大 了 甘 连 续 读 IO 来 讲 ， 预 读 就 变 得 没有 意义 了 ， 此 时 前 端 
数据 的 需求 处 于 供不应求 状态 ， 所 以 哪里 还 会 有 “了 预 ? 该 这 一 次 呢 ? 所 
以 ， 有 些 存储 系统 提供 配置 参数 ， 如 果 用 户 确 定 茶 个 LUN 所 接受 的 IO 都 
征 大 块 连续 IO， 那 么 可 以 关闭 针对 这 个 LUN 的 预 读 以 绕 过 系统 了 预 读 代 码 
流程 ， 节 约 计算 资源 。 








几乎 所 有 人 都 认为 缓存 命中 率 的 概念 只 对 读 IO 有 意义 而 对 于 写 没有 
任何 意义 ， 其 实 这 种 看 法 是 片面 的 。 在 茶 种 特殊 情况 下 ， 写 也 需要 缓存 
命中 的 ， 如 果 不 命 中 ， 则 需要 耗费 一 些 额 外 的 惩 列 步骤， 说 到 这 里 大 家 
可 能 就 有 所 感 党 了。 下文 将 描述 所 谓 真 正 的 “ 写 命中 ?是 什么 意思 。 











4. 关于 缓存 管理 单位 


目前 所 有 操作 系统 对 内 存 的 管理 都 是 使 用 Page 为 单位 ， 一 个 Page 可 
以 是 4KB、8KB、16KB 甚 至 更 大 。 存 储 系统 内 部 也 运行 着 操作 系统 ， 所 
以 存储 系统 的 缓存 管理 单位 也 一 样 是 Page。 并 且 ， 操 作 系 统 将 文件 、 块 
设备 等 此 映射 到 Page _ Cache 中 ， 存 储 系 统一 样 也 是 将 LUN 来 映射 到 Page 
Cache 中 。 既 然 这 样 ， 本 章 前 文中 所 述 的 那些 在 主机 端 发 生 惩 姑 现 象 ， 
在 存储 系统 内 部 一 样 是 存在 的 。 如 采 主 机 端 发 癌 存 储 系统 的 IO 请 求 长 度 
不 足 1 个 Page， 而 这 个 Page 在 Cache 中 尚未 被 恋 入 ， 那 么 此 时 便 会 触发 
Page Fault， 需 要 Page In 过 程 。 而 Page In 过 程 几乎 在 所 有 的 操作 系统 中 
都 是 一 个 同步 过 程 ，Page 只 能 一 个 接 一 个 的 被 从 底层 谈 入 ， 而 这 又 更 拖 
慢 了 整体 性 能 ， 如 果 主 机 端 采 用 的 是 Write Through 模 式 ， 那 么 这 个 影 啊 
会 直接 被 联动 到 IO 源头 。 


明白 了 上 面 这 一 点 ， 就 可 以 彻底 理解 所 谓 “ 写 命中 ”了 。 本 书 前 面 章 
节 提 到 的 “ 写 命 中 ”只 包含 了 一 种 情况 ， 即 先后 多 次 写 IO 针 对 同一 地 址 ， 
则 所 有 这 些 IO 就 可 以 被 覆盖 为 最 后 所 接收 到 的 写 IO， 最 终 只 需要 向 下 层 
发 起 一 次 IO。 而 写 命中 还 包含 男 一 个 含义 ， 即 一 旦 某 个 写 IO 长 度 小 于 1 
个 Page， 或 者 不 能 被 Page 大 小 除 尽 《比如 4.5KB) ， 那 么 除 不 尽 的 那 部 
分 所 落 入 的 Page 的 内 容 如 果 已 经 位 于 Cache 中 ， 那 么 此 时 这 个 写 IO 就 命 
中 了 ， 可 以 直接 在 对 应 的 Page 中 有 履 盖 入 接收 到 的 数据 并 标记 整个 Page 为 
Dirty。 但 是 如 果 除 不 尽 的 那 部 分 对 应 的 Page 内 容 并 未 在 Cache 中 ， 需 要 
Page In 过 程 ， 那 么 此 时 就 说 这 个 写 IO 未 命中 ， 或 者 部 分 命中 ， 意 味 着 需 
要 耗费 额外 的 读 入 过 程 。 不 管 是 否 全 部 命中 ， 只 要 是 IO 长 度 除 不 尽 
Page， 还 会 产生 额外 的 数据 写 入 〔 除 不 尽 的 那 部 分 所 占 的 Page 需 要 全 部 
被 写 入 底层 介质 ， 而 不 是 仅 写 入 余数 部 分 ) 。 




















如 果 遇 到 IO 起 始 地 址 不 对 齐 Page 边 界 的 状况 ， 则 后 果 会 更 加 严重 。 
如 果 某 个 IO 恰好 横 跨 在 两 个 相 邻 的 Page 中 间 ， 则 系统 需要 读 入 这 两 个 
Page， 如 果 是 写 IO， 则 读 入 之 后 还 要 再 写 入 这 两 个 Page。 





综 上 所 述 ， 最 好 使 用 4KB 可 除 尽 的 IO 长 度 ， 即 起 始 地 址 和 长 度 皆 为 
4KB 的 倍数 ， 否 则 会 引起 性 能 问题 。 使 用 文件 系统 提供 的 API 一 般 不 会 
出 现 4KB 不 对 齐 的 情况 ， 而 如 果 直 接 对 块 设备 或 者 RAW 设备 作 IO， 则 
尽量 在 IO 源头 就 保证 发 出 的 IO 符合 4KB 对 齐 条 件 。 可 见 对 齐 的 重要 性 。 





有 不 少 高 端 存储 系统 可 以 对 Page 的 大 小 进行 调整 以 符合 典型 的 IO 长 
度 。 比 如 数据 库 类 程序 ， 它 们 一 般 直 接 使 用 RAW 设 备 进 行 IO， 而 且 它 
们 将 数据 以 Extent (或 称 segment、block 等 ， 叫 法 不 重要 ) 的 形式 存储 在 
LUN 中 ， 它 们 每 次 读 入 或 者 写 出 的 单位 也 是 Extent 的 整数 ， 此 时 ， 存 储 
系统 就 应 当 将 Page 大 小 调节 为 与 Extent 相 等 即 可 。 如 果 小 于 Extent， 则 会 
因为 更 多 的 Page mm 请 求 而 影响 性 能 〈 每 个 Page Im 都 是 同步 操作 过 程 ) ， 








而 且 Page 越 小 ，Page _ Table 映射 表 的 容量 越 大 ， 浪 费 束 越 多 ， 查 找 效 率 
也 越 差 ， 如 果 Page 大 于 Extent， 则 可 能 会 产生 读 写 惩 如 ， 得 不 偿 失 。 所 
以 ， 使 二 者 相等 是 最 好 的 办 法 。 


5. 关于 Cache 分 区 技术 


一 些 存储 系统 甚至 可 以 对 整个 Cache 进 行 分 区 ， 为 不 同 的 LUN 对 应 
的 Cache 设 定 不 同 的 Cache 大 小 以 及 Page 大 小 ， 这 样 做 就 更 加 灵活 了 。 
Cache 分 区 商业 化 的 典型 代表 是 HDS 公 司 的 USP 以 及 AMS 系 列 存储 系 
统 。 如 图 19-88 所 示 为 针对 不 同 应 用 需求 分 配 不 同 大 小 Page 尺 寸 的 Cache 
分 区 的 示意 图 。 








图 19-88 ”为 不 同 应 用 设置 不 同属 性 的 Cache 分 区 

















如 图 19-89 所 示 为 对 分 布 在 SATA 盘 RAID 组 中 的 LUN 和 分 布 在 FC 盘 
RAID 组 中 的 LUN 分 配 不 同 的 Cache 分 区 ， 进 行 逻辑 隔离 。 由 于 SATA 盘 
的 低 性 能 ， 容 易 造 成 缓存 积压 ， 影 响 FC 盘 性 能 的 发 挥 ， 所 以 有 必要 进 
行 缓存 的 逻辑 隔离 ， 这 个 问题 被 称 做 “快慢 盘问 题 ， 随 后 会 介绍 。 














图 19-89 为 SATA 盘 的 RAID 组 和 FC 盘 的 RAID 组 隔离 分 区 





如 图 19-90 所 示 为 在 HDS 的 存储 系统 中 创建 多 个 Cache 分 区 的 界面 。 
图 19-91 则 为 分 配对 应 的 Cache 分 区 给 对 应 的 LUN 的 界面 。 





图 19-90 ”设置 Cache 分 区 图 19-91 将 对 应 的 Cache 分 区 分 配给 对 应 的 
LUN 





6.， 关于 Write Back 模 式 的 缓存 对 读 和 写 I0 的 影响 


大 家 都 知道 ， 在 没有 缓存 的 情况 下 ， 读 总 是 比 写 要 快 的 。 但 是 一 旦 
有 了 绥 存 ， 情 况 就 彻底 不 同 了 。 如 果 绥 存 是 Write Back 模式 并 且 足 够 
大 ， 此 时 写 就 可 能 比 读 快 得 多 ， 因 为 恋 可 能 不 命中 ， 但 是 写 一 定 都 
会 “命中 ”(〈 不 考虑 写 惩 罚 ) 。 而 且 Write Back 模式 的 缓存 也 会 弱化 连续 
写 与 随机 写 之 间 的 性 能 差距 ， 因 为 不 管 是 随机 还 是 连续 ， 主 机 端 发 送 的 
所 有 与 请求 只 要 一 到 达 存 储 系统 缓存 就 被 通知 成 功 。 判 断 是 否 随机 和 和 连 
续 是 存储 系统 本 喘 的 事情 ， 受 影响 的 也 只 是 存储 系统 自身 后 端的 性 能 ， 
但 是 对 主机 端 来 讲 没 有 影响 。 所 以 ，WB 模 式 下 ， 对 于 主机 端 来 说 ， 随 
机 写 总 比 命中 率 低下 的 随机 读 要 快 得 多 。 综 上 上 所 述 ， 写 缓存 比 读 绥 存 的 
收益 更 大 ， 这 就 是 为 何 写 绥 存 占 的 比例 比 读 缓存 大 的 原因 。 

















但 是 ， 如 果 遇 到 诸如 每 秒 上 百 兆 流量 的 大 块 的 连续 写 IO 的 情况 ， 那 
么 此 时 这 些 写 IO 数据 没有 必要 占用 Cache 不 放 ， 此 时 存储 系统 会 触发 类 
似 Write _ Through 的 直接 写 盘 动作 ， 从 而 尽量 快速 地 释放 Cache 空 间 以 迎 
接 后 续 IO 的 到 来 。 


存储 系统 对 IO 的 处 理 像 Linux 上 的 IO Scheduler 一 样 ， 也 会 对 IO 进行 
Merge 处 理 ， 一 旦 过 到 地 址 连续 或 者 有 重合 交集 的 情况 ， 那 么 这 些 IO 会 
被 Merge 成 一 个 大 IO 来 提高 效率 ， 节 约 后 端 资 源 。 








7. 关于 写 绥 存 的 Elush 动 作 





缓存 不 可 能 无 限 大 ， 理 所 当然 ， 当 写 缓存 中 的 Dirty Page 达 到 一 定 
的 比例 的 时 候 ， 系 统 必须 要 将 这 些 Dirty Page 写 入 对 应 的 LUN 以 腾 出 空 
间 来 接收 后 续 的 IO 数据 。 在 中 高 端 存储 系统 中 ， 这 个 比例 一 般 都 是 可 调 
节 的 。 绥 存 就 像 一 个 蕾 水 池 ， 当 蓄 水 达到 一 定 水 位 线 的 时 候 ， 束 需要 有 
所 动作 ， 和 否则 引起 水 漫 金山 ， 后 末 不 可 收拾 。 所 以 ， 这 个 写 缓 存 Dirty 比 
例 靖 值 又 被 称 为 "High Watermark”。 当 水 位 到 达 HW 之 后 ， 引 发 Flush， 


蕾 水 池 放 水 ， 水 位 逐渐 降低 ， 当 降低 到 “Low watermark” 时 ， 停 止 放 
水 。 这 种 Flush 触 发 方式 称 为 “watermark Flush”， 当 然 不 同 厂 商 产品 叫 法 
不 同 。Flush 过 程 毕竟 是 一 个 很 耗费 资源 的 过 程 ， 这 期 间 ， 主 机 客户 端 
的 IO 会 受到 不 小 的 影响 。 正 因 如 此 ， 如 果 退 求 稳 定 的 写 IO 性 能 ， 则 应 当 
适当 调 低 HW， 让 系统 增加 Flush 的 频率 ， 每 次 Flush 耗 费 的 时 间 将 缩短 ， 
保持 有 一 定 的 空余 Cache 和 尽快 释放 系统 资源 以 用 来 接收 新 到 的 写 IO。 
这 样 ， 对 于 前 问 就 会 表现 为 比较 恒定 的 IO 汶 ， 而 不 至 于 每 次 都 到 了 最 后 
才 收 拾 烂 摊子 ， 导 致 剩余 Cache 捉 襟 见 肘 ， 前 庙会 表现 为 IJO 流 时 大 时 小 
时 快 时 慢 不 稳定 。 








如 果 系 统 长 时 间 未 达到 HW， 那 么 此 时 系统 也 需要 来 一 次 放水 以 防 
止 污水 存放 时 间 太 久 ， 夜 长 梦 多 。 比 如 每 10 秒 放 一 次 等 。 这 个 浆 值 一 般 
是 不 可 调 的 。 这 种 Flush 触 发 方式 称 为 “Time Flush”。 


如 果 系 统 需 要 做 一 些 高 层 的 操作 ， 比 如 做 Snapshot 等 ， 那 么 此 时 务 
必需 要 将 绥 存 Flush 一 次 而 不 管 是 否 达 到 了 时 间 立 值 或 者 HW。 因 为 只 有 
Dirty Page 全 部 写 入 底层 介质 之 后 ，Snapshot 才 可 以 反映 这 个 时 间 点 硬盘 
上 的 数据 。 这 种 Flush 触 发 方式 称 为 “Sync Flush”。 


如 果 遇 到 大 流量 的 连续 大 块 1O 写 入 ， 那 么 HW 会 频繁 的 达到 ，Flush 
会 连续 进行 ， 这 种 Flush 方 式 称 为 “B2B Flush”， 即 Back To Back Flush， 
发 生 这 种 情况 表明 存储 系统 已 经 应 接 不 上 暇 了 。 但 是 ， 并 不 一 定 非 要 过 到 
大 流量 的 IO 写 入 时 才 会 引发 B2B Flush， 有 时 候 由 于 后 端的 瓶颈 ， 也 可 
能 引发 。 比 如 在 系统 接收 了 大 量 的 随机 写 IO 之 后 ，Flush 这 些 随机 分 散 
的 IO 会 引起 后 端 磁 盘 大 量 的 寻 道 操作 ， 过 程 会 非常 慢 ， 而 此 时 前 端 如 果 
依然 有 大 量 的 写 IO 到 来 ， 那 么 HW 叉 会 达到 ， 系 统 将 再 次 触发 Flush， 
Flush 也 会 连续 进行 ， 整 体 性 能 受到 影响 。 





在 系统 进行 Flush 时 ，Dirty Page 被 描述 为 链 对 象 ， 每 个 对 象 包含 了 
一 串 定量 的 Dirty Page， 每 串 Dirty Page 都 会 尽量 保持 地 址 连续 以 实现 整 
条 写 ， 然 后 这 些 对 象 被 传送 给 RAID 层 ，RAID 层 判断 是 否 需 要 读 出 
Parity 和 被 履 盖 的 数据 来 进行 XOR 计 算 ， 如 果 需 要 则 读 出 ， 如 果 不 需 要 
则 为 整 条 写 ， 则 整 条 数据 间 进 行 XOR 计 算 Parity。 然 后 RAID 层 负责 将 算 
好 的 数据 传送 给 底层 设备 驱动 从 而 写 入 对 应 的 硬盘 。Flush 是 一 个 极其 
耗费 系统 资源 的 过 程 ， 这 个 过 程 会 动员 全 体 资 源 的 文 持 ， 尽 快 地 将 数据 
写 入 人 磁盘。 





8. 关于 电池 保护 缓存 


对 于 一 些 使 用 电池 保护 缓存 的 产品 ， 当 电池 发 生 故 障 时 ， 比 如 检测 
不 到 电池 输入 端 电压 ， 或 者 电压 降低 到 办 值 之 后 长 时 间 无 法 充电 恢复 其 
电压 ， 那 么 此 时 系统 就 认为 电池 失效 ， 并 且 会 将 缓存 设置 为 Native Write 
Through 模 式 ， 任 何 写 IO 必 须要 写 入 磁盘 之 后 才 会 返回 成 功 信 号 给 主机 
客户 端 ， 此 时 系统 性 能 将 会 受到 很 大 的 影响 ， 写 IO 进行 重 排 合并 优化 的 
时 间 几 乎 为 0， 只 能 碰 运 气 。 当 电池 恢复 之 后 ， 又 会 重新 恢复 Write Back 
模式 。 








有 些 产 品 选 择 在 掉 电 或 者 以 意外 宕 机 之 后 将 缓存 中 的 数据 复制 到 一 
张 Flash 卡 中 存放 ， 比 如 IBM DS5000 系 列 ， 这 个 过 程 只 需要 耗费 很 少 的 
电量 ， 所 以 只 需 利 用 若干 大 电容 来 储存 电量 即 可 。 有 些 广 商 则 提供 一 个 
小 UPS， 意 外 罕 机 或 者 掉 电 之 后 ， 将 缓存 中 的 数据 复制 到 后 端 某 几 块 磁 
盘 中 存放 ， 这 种 做 法 需要 更 大 的 电量 文 持 。 





9. 关于 缓存 LUN 技 术 


某 些 情况 下 ， 主 机 对 茶 个 LUN 的 IO 性 能 要 求 非 ? 


By 
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Hr 
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迟 ， 则 有 些 存 储 系统 可 以 将 整个 LUN 或 者 LUN 的 某 些 部 分 读 入 缓存 并 且 
对 应 的 Page 不 会 被 Page Out， 这 些 数据 一 直 被 保留 在 缓存 当中 ， 以 获得 
最 小 的 IO 延迟 。 这 种 情况 下 ， 即 便 是 主机 发 送 大 量 的 随机 IO 操作 ， 也 不 
会 受到 磁盘 寻 道 的 影响 。 这 种 做 法 的 代价 就 是 耗费 大 量 缓存 空间 。 








10. 资源 均衡 问题 


当 存 储 系 统 中 有 不 同性 能 的 介质 层 时 ， 慢 速 介 质 会 消耗 更 多 的 绥 存 
和 IO 资源 ， 因 为 慢 速 介质 相 比 于 快速 介质 需要 更 长 的 时 间 才 能 完成 一 个 
IO 请 求 ， 这 样 就 会 导致 缓存 中 对 应 这 个 IO 操作 所 保留 的 资源 将 要 停留 更 
长 的 时 间 。 这 些 资源 包括 Page 页 面 空 间 、 代 码 堆 栈 、 状 态 机 、Workers 
进程 等 。 这 样 ， 如 果 系 统 中 同时 存在 慢 速 和 快速 介质 ， 那 么 快速 介质 的 
效果 便 可 能 会 由 于 得 不 到 所 需 的 资源 而 大 打折 扣 ， 在 极端 条 件 下 ， 这 些 
资源 可 能 会 被 耗 尽 ， 导 致 不 管 后 端 采 用 何 种 介质 ， 其 对 外 的 表现 都 会 处 
相同 = 








此 问题 可 以 扩大 到 任何 对 资源 的 和 争 抢 问题 。 比 如 ， 即 使 针对 同一 种 
性 能 层级 的 两 个 存储 空间 ， 对 其 下 发 不 同类 型 的 IO 请 求 ， 也 会 造成 资源 
争 抢 。 随 机 IO 总 是 会 占据 更 多 的 资源 ， 而 连续 IO 本 应 该 是 表现 出 更 快 的 
速度 ， 但 是 可 能 受累 于 随机 IO 的 资源 争 抢 ， 连 续 IO 的 效果 可 能 会 被 拖 下 
水 ， 在 极端 条 件 下 可 能 表现 出 与 随机 IO 相同 的 速度 。 











面 对 这 个 问题 ， 所 有 广 商都 需要 考虑 将 资源 进行 合理 划分 ， 为 高 速 
介质 分 配 一 定 比例 的 资源 ， 并 且 动 态 调整 。 根 据 某 些 测试 结果 来 看 ， 并 
不 是 所 有 厂商 都 有 此 实现 的 。 当 混用 FC 与 SATA 盘 时 ， 某 些 存储 设备 针 
对 FC 磁 盘 所 表现 出 来 的 性 能 与 同样 数量 的 SATA 盘 所 表现 出 来 的 性 能 相 

















11. 存储 系统 中 的 QOS 


Cache 分 区 、 资 源 预 留 、 自 动 分 级 存储 等 措施 ， 都 属于 存储 系统 的 
QOS 范畴 ， 包 括 上 文中 所 述 的 解决 资源 均衡 的 问题 ， 也 属于 QOS。 不 同 
的 主机 、 不 同 的 应 用 系统 其 所 要 求 的 IO 性 能 或 者 容量 都 是 不 同 的 。 而 一 
台中 高 端 存储 系统 往往 同时 为 多 人 台 应 用 主机 同时 提供 存储 服务 ， 这 台 必 
然 要求 存 储 系统 对 这 些 主机 和 应 用 区 分 对 符 ， 而 不 是 无 序 的 谁 抢 着 算 谁 
的 。 正 像 网 络 设备 一 样 ， 存 储 系 统 也 需要 利用 网 络 进行 数据 传输 ， 那 么 
就 免不了 多 数据 流 争 抢 资 源 的 问题 了 ， 存 储 系统 完全 也 可 以 像 网 络 设备 
那样 实现 茶 种 加 权 队 列 来 控制 不 同 数据 流 的 优先 级 和 带宽 控制 。 但 是 目 
前 这 种 技术 尚未 有 获得 厂商 高 度 推 广 的 迹象 。 











HDS 公 司 在 其 高端 USP 系 列 存储 中 提供 了 多 种 QOS 组 件 ， 包 括 : 
Cache Partition、 Virtual Partition Manager (VPM) 、Server Priority 
Manager (SPM) 和 HiCommand QOS Modules (HQM) 。 绥 存 分 区 之 前 
已 经 介绍 过 ，VPM 则 是 相当 于 把 一 台 物 理 的 阵列 逻辑 地 划分 为 多 个 部 
分 ， 每 个 部 分 之 间 不 争 抢 资源 ， 整 个 划分 过 程 通过 两 层 来 实现 : 最 底层 
首先 划分 缓存 以 及 磁盘 ， 称 为 Cache Logical Partition (CLPR) ， 每 个 
CLPR 中 包含 一 定数 量 的 缓存 以 及 一 定数 量 的 RAID 组 ; 第 二 层 为 Storage 
Management Logical Partition (SLPR) ， 一 个 SLPR 即 表现 为 一 个 虚拟 逻 
辑 阵列 ， 每 个 SLPR 中 可 以 包含 多 个 CLPR。 图 19-92 显 示 了 SLPR 与 CLPR 
之 间 的 关系 。 





图 19-92 ”SLPR 与 CLPR 的 关系 


HDS 公 司 USP 系 列 存储 设备 的 另 一 项 QOS 功能 则 是 Server Priority 
Manager。 该 软件 的 主要 功能 是 在 多 人 台 主 机 使 用 同一 存储 系统 的 情况 


下 ， 保 证 高 优先 级 的 主机 应 用 的 性 能 ， 避 免 其 受到 其 他 低 优先 级 主机 的 
影响 。 可 以 选择 从 IOPS 或 者 市 宽 两 个 角度 来 对 主机 做 优先 级 处 理 ， 二 者 
不 能 同时 选择 ， 可 以 通过 阵列 端口 或 者 主机 FC 卡 的 WWPN 来 对 不 同 主 
机 进行 分 类 。 此 外 还 提供 Threshold ”Control 功 能 ， 比 如 当 高 优先 级 主机 
的 IO 和 需求 下 降 到 某 特定 值 〈( 用 户 指 定 〉 时， 系统 自动 关闭 对 低 优 先 级 主 
机 的 IO 限制 ， 这 样 可 以 避免 当 高 优先 级 主机 的 IO 负载 自己 下 降 到 很 低 程 
度 时 ， 低 优先 级 主机 的 IO 仍然 被 限制 ， 从 而 充分 利用 资源 。 图 19-93 上 所 
示 为 在 Server Priority Manager 中 根据 端口 来 配置 IOPS 或 者 带宽 需求 时 的 
界面 。 








图 19-93 Server Priority Manger 配 置 界 面 


HQM 则 是 针对 一 系列 应 用 程序 〈 包 括 Oracle、Sybase、Exchange 
Server、File Server) 所 提供 的 一 种 与 应 用 紧密 结合 的 端 到 端的 性 能 监控 
统计 软件 模块 。 以 HiCommand QoS for _ Oracle 为 例 ， 它 的 功能 主要 包 
括 : 





自动 用 现 Oracle 应 用 的 下 层 构件 ， 并 将 其 展现 为 拓扑 结构 ; 

识别 、 报 告 Oracle 应 用 与 AN 构件 的 依赖 关系 ; 

实时 监控 从 应 用 到 存储 系统 的 性 能 状况 ， 通 过 历史 数据 统计 提供 
性 能 需求 及 预测 ; 

目 动 发 现 、 监 控 、 分 析 容 量 使 用 情况 ， 协 助 制定 未 来 容量 计划 ; 
基于 策略 ， 对 影响 Oracle 的 存储 事件 上 自动 做 出 啊 应 。 





类 似 地 ，EMC 公 司 的 Navisphere Quality of Service 
Manager (CNQM) 也 提供 了 类 似 的 QOS 功 能 。NQM 首 先 根据 用 户 的 设 
置 对 所 有 进入 的 10 流量 进行 分 类 ， 可 以 按照 LUN、IO “Size、IO 类 型 

( 读 / 写 ) 以 及 未 明确 指定 的 所 有 其 他 类 型 IO (Background Class 类 型 ) 


来 划分 IO 类 型 ， 系 统 将 持续 监控 这 些 IO 类 别 。 之 后 ， 系 统 根据 用 户 所 设 
置 的 IO 优先 级 信息 ， 包 括 IOPS、 带 宽 吞 叶 量 、 响 应 时 间 来 对 对 应 类 别 
的 IO 实现 优先 级 排序 从 而 实现 QOS。 如 图 19-94 所 示 为 NQM 的 主 配 置 界 
面 。 图 19-95 所 示 则 为 定义 IO 类 别 以 及 限制 条 件 的 配置 界面 。 











图 19-94 NQM 的 主 配置 界面 

















图 19-95 ”Server Priority Manger 配 置 界面 





12. 特殊 的 IO 和 缓存 管理 


不 得 不 提 一 下 NetApp 的 WAEFL 对 IO 与 缓存 的 管理 。 (本 书 多 处 介绍 
WAEFL 并 不 是 笔者 对 其 有 肾 拜 之 意 ，WAEFL 优 势 很 多 ， 劣 势 也 不 少 。 只 
是 个 人 比较 了 解 ， 打 算 做 到 知 无 不 言 ) 


大 家 知道 Linux 下 的 EXT3 文 件 系 统 ， 其 可 以 使 用 多 种 日 志 模 式 。 第 
一 种 是 只 记录 操作 行为 ， 而 对 所 操作 的 目标 数据 原 内 容 、 新 内 容 不 记 
录 ， 这 与 数据 库 的 日 志 不 同 ， 第 二 种 则 是 操作 行为 与 目标 原 内 容 与 新 内 
容 都 记录 ， 与 数据 库 的 记录 方式 相同 。 默 认 方式 下 使 用 前 者 ， 既 降低 资 
源 消 耗 ， 又 能 够 保证 元 数据 一 致 性 ， 但 是 并 不 能 保证 文件 内 容 也 一 致 。 
比如 ， 复 制 茶 超大 文件 到 90%% 的 时 候 ， 中 途 断 电 ， 重 局 之 后 你 可 能 会 发 
现 这 个 文件 根本 没有 出 现在 目标 ， 或 者 已 经 复制 的 容量 只 有 50% 而 不 是 
90%。 但 是 如 果 使 用 了 全 内 容 记 录 模 式 的 日 志 ， 那 么 重 局 之 后 系统 只 会 
将 原子 操作 回 滚 ， 此 时 你 会 发 现 已 经 复制 过 去 的 数据 可 能 也 是 90%， 也 
可 能 是 89%， 总 之 回 深 粒 度 会 变 小 ， 只 回 深 断 电 有 瞬间 不 一 致 的 已 分 配 间 
接 块 ， 此 时 这 份 没 复制 完 的 文件 你 可 以 删 挥 然后 重新 复制 。 第 二 种 日 志 























方式 会 拖 慢 系 统 性 能 ， 但 是 却 能 够 获得 最 佳 的 一 致 性 以 及 最 小 的 数据 丢 
失 。 


WARPI 也 是 一 个 日 志文 件 系 统 ， 也 同样 使 用 内 容 十 元 数据 一 起 记录 
的 日 志方 式 ， 这 是 理所当然 的 ， 因 为 作为 一 个 企业 级 存储 系统 来 讲 ， 保 
证 数据 一 致 性 和 不 丢失 是 基线 要 求 。 但 是 如 何 解 决 性 能 拖 慢 问 题 呢 ? 
WAFL 的 办 法 就 是 将 日 志 直 接 保 存在 RAM 中 而 不 是 硬盘 上 ， 再 使 用 后 备 
电池 来 防止 掉 电 引发 的 数据 丢失 ， 这 样 ， 性 能 问题 解决 了 ;， 然而， 容量 
问题 并 没 解决 ，WAFL 用 来 保存 日 志 的 RAM 〈 也 就 是 NVRAM， 其 实 就 
是 电池 保护 的 普通 RAM) 只 有 几 GB， 最 大 也 不 过 4GB， 除 去 镜像 对 方 
控制 喜 的 部 分 ， 只 有 一 半 ， 再 加 上 刷 盘 的 High ”Water Mark 被 定 死 为 
50% ， 所 以 每 当日 志 量 达到 1GB 的 时 候 ， 系 统 就 必须 触发 刷 盘 操作 。 














有 人 产生 疑问 了 ， 存 储 系统 中 不 是 有 几 十 GB 甚 至 上 百 GB 的 缓存 
么 ? 为 什么 不 能 拿 出 大 部 分 来 充当 WAFL 日志 存 放空 间 ? 这 样 WAFL 的 
性 能 应 该 更 好 啊 ?” 是 的 ， 但 是 WAFL 有 个 硬指标 ， 也 就 是 至 少 每 隔 10s 
要 做 一 次 刷 盘 动作 产生 一 个 一 致 性 点 〈CheckPoint，CP) 。10s 的 时 间 
并 不 是 空穴来风 ， 有 两 个 原因 。WAEFL 最 怕 的 就 是 不 一 致 ， 由 于 其 是 一 
个 彻底 的 文件 系统 ， 所 以 为 了 保障 一 致 性 这 个 基线 要 求 ， 其 刷 盘 的 间隔 
相对 其 他 厂商 产品 来 讲 是 最 频繁 的 ， 即 便 有 电池 保护 ，WAEFL 也 不 能 够 
完全 相信 电池。 这 一 点 从 NetApp 在 磁盘 上 使 用 额外 空间 来 存放 
Checksum 的 做 法 就 可 见 一 班 ，NetApp 对 底层 硬件 是 完全 信 不 过 的 ， 
为 它 自 己 不 生产 便 件 ， 这 是 其 中 一 个 原因 。 另 外 一 个 原因 ， 每 次 刷 盘 需 
要 耗费 巨大 的 系统 资源 ， 所 以 需要 尽量 降低 每 次 刷 盘 的 数据 量 ， 如 果 每 
次 刷 盘 要 几 十 GB 的 数据 ， 那 系统 将 会 顿 卡 ， 前 问 应 用 主机 的 IO 延迟 将 
诡 升 ， 这 是 谁 都 不 想 看 到 的 。 所 以 NetApp 把 NVYRAM 的 大 小 进行 了 严格 
限制 ， 这 样 可 以 让 每 次 CP 的 时 候 能 够 快速 完成 同时 不 至 于 对 前 端 造成 














影响 。WAEFL 这 种 刷 熏 方式 并 不 是 细水长流 型 的 ， 是 一 批 一 批 来 的 ， 属 
于 山洪 暴发 型 。 


实际 中 B2B (Back to Back) 类 型 的 CP 时 有 发 生 ， 也 就 是 系统 连续 
处 于 CP 状 态 下 。 特 别 是 局 带宽 应 用 下 ，NVRAM 快 速 充 满 ， 造 成 系统 连 
续 CP， 此 时 也 相当 于 细水长流 方式 的 刷 盘 了 。 但 是 由 于 NVRAM 总 数据 
量 不 大 ， 连 续 CP 不 会 对 前 并 造成 顿 卡 的 影响 。 











NetApp 在 系统 中 除了 NVRAM， 还 配 有 几 十 GB 的 另 一 部 分 RAM。 
这 部 分 RAM 主 要 用 来 运行 操作 系统 以 及 各 种 增值 软件 功能 、 存 放 预 读 
数据 以 及 用 于 刷 盘 时 的 数据 读 入 、 修 改 、 写 入 过 程 所 需要 读 入 的 数据 
(从 NVRAM 中 读 出 的 待 写 入 的 内 容 与 RAID 校 验 计 算 所 需 从 磁盘 读 出 的 
数据 块 ) 。 





综 上 所 述 ， 对 于 NetApp 的 产品 ， 其 实际 等 效 写 绥 在 为 NVRAM 容 量 
的 四 分 之 一 ， 目 前 最 大 也 就 是 4:4 王 1GB。 至 于 系统 剩余 的 其 他 RAM 的 
大 小 会 对 性 能 有 多 大 影响 ， 尚 不 可 乱 猜 ， 但 是 从 商务 角度 考虑 ， 广 商 间 
都 在 诡 规 格 、 诡 参数 ， 各 家 产品 都 不 会 在 RAM 规 格 上 落后 ， 管 他 有 多 
少 效果 ， 先 配 到 业界 水 平 再 说 。 同 时 ， 不 了 解 技术 细节 的 用 户 也 时 常 被 
厂商 所 忽 修 误导 了 标书 。 


本 书 的 一 个 目的 束 是 让 所 有 人 了 解 存储 底层 细节 。 
19.2.8 ”数据 前 处 理 和 后 处 理 层 


外 部 智能 存储 系统 之 所 以 称 为 智能 ， 并 不 是 由 于 其 能 管理 大 量 的 磁 
盘 ， 生 成 大 量 的 LUN， 拥 有 众多 的 前 后 端 接口 ， 而 本 质 原 因 其 实 是 它们 
拥有 一 些 高 附加 值 的 Data Cooker。 这 些 Data Cooker 专 门 对 原始 数据 进行 
预 处 理 或 者 后 处 理 ， 它 们 就 像 大 厨 一 样 对 原始 数据 进行 加 工 处 理 ， 最 后 





实现 一 些 让 人 耳目 一 新 的 功能 ， 包 括 : Snapshot、LUN Mirror、LUN 
Clone、Data Migrating、Data Tier、 Disaster RecoveIy、 CDP、 


Dedupilcation、Space Reclaiming、Virtualization 等 。 


这 些 Data Cooker 会 以 各 种 方式 租 入 到 整个 存储 系统 中 ， 比 如 组 入 到 
系统 底层 驱动 链 中 ， 或 者 直接 以 用 户 态 程序 存在 。 它 们 的 插入 会 改变 原 
本 的 数据 流 路 径 甚至 数据 内 容 。 比 如 Snapshot， 一 旦 针对 某 个 LUN 生 成 
了 Snapshot， 那 么 任何 针对 这 个 LUN 的 IO 就 都 会 被 Snapshot 模 块 过 滤 和 
处 理 。Snapshot 属 于 前 处 理 ， 即 数据 在 被 写 入 介质 之 前 就 会 被 处 理 。 后 
台 Deduplication 束 属于 一 种 后 处 理 ， 即 当 数 据 被 写 入 介质 之 后 ， 当 系统 
不 忙 的 时 候 ，Deduplication 模 块 对 数据 进行 采集 和 计算 并 且 消 除 重 复 的 
数据 块 。 后 处 理 的 例子 还 包括 比如 Space “Reclaiming， 这 个 模块 也 是 需 
要 在 后 台 来 完成 对 浪费 的 存储 空间 的 回收 。 








关于 数据 前 处 理 和 后 处 理 的 内 容 已 经 在 本 书 之 前 的 章节 中 介绍 过 ， 
这 里 就 不 再 多 说 了 。 


19.2.9 ”存储 系统 处 理 一 个 I0 的 一般 典型 流程 


下 面 用 一 张 图 来 结束 本 节 。 如 图 19-96 所 示 为 一 个 外 部 存储 系统 处 
理 一 个 IO 请 求 的 典型 流程 图 。 图 中 所 示 的 仅 为 基本 的 流程 ， 并 未 引入 具 
体 的 细节 ， 细 节 过 程 可 以 参考 本 节 之 前 的 文字 。 














图 19-96 ”存储 系统 IO 请 求 典 型 流程 图 








19.3 IO 性 能 问题 诊断 总 论 


本 间 前 两 节 已 经 通 历 了 从 IO 起 源 地 到 IO 目 的 地 之 间 的 全 部 过 程 。 本 
节 将 对 其 做 一 个 总 结 。 











业务 层 ， 始 作 俑 者 ! IO 的 源头 是 应 用 程序 ， 而 程序 是 为 了 业务 需求 
而 生 的 。 程 序 对 IO 性 能 的 需求 直接 反映 了 业务 的 类 型 和 复杂 度 。 如 果 我 
们 能 够 精简 业务 ， 简 化 业务 流程 ， 提 高 业务 效率 ， 那 么 将 会 从 根本 上 降 
低 程 序 对 IO 性 能 甚至 整个 IT 系统 的 需求 。 


应 用 层 ， 刁 不 由 己 ! 人 在 江湖 ， 喘 不 由 己 ! 程序 反映 的 是 业务 刀 
辑 ， 业 务 逻 辑 有 多 复杂 ， 程 序 束 有 多 复杂 ， 相 对 应 的 数据 库 在 俘 询 或 者 
更 改 数据 的 时 候 押 发 出 的 IO 就 有 多 复 汪 。 当 然 ， 程 序 发 起 的 IO 操作 并 不 
是 与 业务 逻辑 复杂 度 严 格 对 应 的 。 一 些 应 用 程序 或 者 数据 库 执行 脚本 对 
展 层 IO 欠 考虑 ， 编 程 的 时 候 粗 枝 大 叶 ， 并 没有 调 伍 后 层 的 情况 ， 所 以 并 
未 做 到 优化 处 理 。 有 了 时候 应 用 层 只 要 稍微 变 一 变 设 计 、 语 句 执 行 顺序 或 
者 IO 调用 方式 等 ， 就 会 带 来 很 大 的 收益 。 所 以 对 IO 要 求 比 较 高 的 应 用 程 
序 在 设计 时 需要 专门 对 IO 模块 进行 设计 。 比 如 SQL 语句 ， 实 现 同样 的 业 
务 需 求 ， 换 一 种 方式 ， 也 许 就 能 得 到 成 百 上 干 倍 的 速度 提升 。 























操作 系统 ， 主 战场 总 指挥 官 ! 操作 系统 平台 提供 了 所 有 程序 的 运行 
环境 ， 直 接 操作 底层 硬件 ， 提 供 多 种 IO 调用 模式 以 满足 不 同 需求 。 在 
Windows 下 ，IO Manager 使 用 IRP 作 为 信使 来 将 所 有 驱动 链 连接 了 起 
来 ; 在 Linux 下 ， 系 统 使 用 bio 作 为 信使 也 将 各 个 驱动 层 联系 了 起 来 。 








物理 磁盘 ， 鞠 映 尽 阅 死 而 后 已 ! 存储 系统 中 最 受 导 敬 者 : 物理 磁 
盘 ! 它们 勇往直前 ， 前 仆 后 继 ， 从 不 偷懒 ， 永 远 勤 牵 工 作 于 第 一 线 ! 存 











储 系统 最 受伤 的 劳动 者 : 物理 磁盘 ! 为 什么 受伤 的 总 是 我 ， 为 什么 如 此 
辛劳 最 后 却 还 是 成 为 众矢之的 ? 只 怪我 独 臂 难 挡 重 兵 啊 ! 





网 络 传输 层 ， 我 怎么 感觉 不 到 你 ! 底层 链 路 层 是 很 容易 被 忽视 的 一 
个 地 方 ， 不 过 好 在 这 一 层 出 问 题 或 者 出 现 配置 不 当 导致 的 瓶颈 的 几率 相 
对 其 他 层次 来 说 是 很 低 的 ， 只 要 链 路 速率 匹配 ， 线 缆 接 触 良 好 ， 一 般 都 
不 会 引发 性 能 问题 。 


19.3.1 上 所谓 “优化 ”的 含义 














本 章 前 半 部 分 对 系统 IO 路 径 进 行 了 解剖 ， 形 成 了 一 张 IO 路 径 图 ， 并 
且 洞 察 了 IO 请 求 在 整个 系统 路 径 中 的 流向 以 及 每 个 层次 对 IO 的 处 理 方 
式 ， 并 且 引 出 了 一 些 需 要 注意 的 地 方 ， 可 以 这 么 说 ， 所 谓 “ 优 化 ”， 其 实 
应 该 是 一 个 消除 瓶颈 和 问题 的 过 程 ， 如 果 各 处 都 没有 瓶颈 或 者 问题 ， 那 
么 优化 是 没有 意义 的 。 整 个 主机 和 存储 系统 就 像 生 物体 一 样 ， 是 一 个 造 
化 产物 ， 其 本 来 就 具有 完美 的 自我 优化 功能 ， 这 是 生命 之 本 能 ， 但 是 总 
会 有 一 些 那 恶 势 力 入 侵 导 致 系统 功能 素 乱 ， 或 者 一 些 原 发 的 系统 自身 功 
能 紊乱 。 我 们 需要 做 的 ， 就 是 消除 这 些 导 致 功能 紊乱 的 问题 ， 让 系统 恢 
复 如 初 。 














诊断 可 以 在 两 个 层次 上 进行 ， 一 层 是 在 主机 操作 系统 内 核 或 者 存储 
系统 内 核 设 计 的 时 候 所 做 的 优化 ， 即 原生 的 优化 ， 这 种 优化 不 但 要 考虑 
普遍 情况 ， 还 需要 考虑 特殊 情况 ， 也 就 是 说 需要 提供 足够 的 参数 设置 让 
用 户 根据 不 同 的 IO 属性 和 要 求 来 调整 这 些 参数 。 第 二 是 在 主机 操作 系统 
或 者 存储 系统 中 进行 瓶颈 探测 和 消除 的 工作 ， 这 种 工作 为 表面 优化 ， 即 
尽 最 大 所 能 让 系统 原 有 的 能 力 发 挥 出 来 。 表 面 优化 又 有 两 层 ， 第 一 是 做 
到 参数 的 设置 与 系统 设计 思想 以 及 当前 的 IO 属性 相 匹 配 而 不 是 背 道 而 
驰 ， 第 二 是 做 到 平衡 负载 、 按 需 分 配 《〈 注 意 ， 不 是 负载 均衡 ， 平 衡 不 等 


于 平均 ) ， 将 资源 最 大 化 平衡 地 利用 。 





这 便 是 性 能 优化 的 含义 了 。 性 能 优化 既 不 是 魔术 也 不 是 魔法 ， 它 不 
可 能 让 不 存在 的 东西 变 得 无 中 生 有 “但 可 能 将 有 的 东西 弄 丢 ) ， 对 于 生 
物体 来 讲 ， 可 以 服用 一 些 药物 来 暂时 性 的 激发 各 器 官 功能 ， 但 是 这 样 做 
是 有 害 的 ， 损 害 右 官 功能 ， 它 违背 了 自然 和 谐 的 本 质 ， 并 且 也 不 能 维持 
长 入 。 对 于 计算 机 系统 来 讲 ， 可 以 使 用 超频 等 手段 来 所 升 一 点 反 性 能 ， 
但 是 这 无 疑 是 自欺欺人 。 要 做 到 本 质 上 的 优化 ， 只 能 从 造物 时 的 设计 入 
手 ， 不 同 生物 体 有 着 不 同 的 设计 ， 有 的 力 大 无 穷 ， 有 的 可 以 飞行 ， 存 储 
系统 也 一 样 ， 不 可 能 让 老虎 长 出 地 膀 。 我 们 能 够 做 的 只 是 治病救人 ， 而 
不 是 去 改造 人 ， 改 造 是 造物 主 的 事情 。 

















性 能 优化 的 本 质 包含 四 个 字 : 合适 合理 。 比 如 用 一 个 低 性 能 的 存储 
系统 来 承载 一 个 对 性 能 要 求 很 蜗 的 应 用 ， 而 又 要 求 进行 性 能 优化 ， 看 想 
让 存储 系统 “ 超 水 平 友 挥 "， 这 是 不 可 能 的 。 能 做 的 只 有 将 各 种 参数 调 市 
成 与 这 个 存储 系统 底层 设计 相合 适 的 值 ， 而 且 合理 设置 分 配 存储 资源 ， 
好 钢 用 在 刀刃 上 ， 榨 干 整个 系统 性 能 。 这 样 做 了 之 后 ， 合 适合 理 就 完成 
了 ， 那 么 性 能 优化 也 就 完成 了 ， 如 宋 结 果 不 理 想 ， 那 只 能 说 明 存 储 系统 
整体 性 能 不 能 满足 应 用 需求 ， 需 要 根据 情况 扩充 硬盘 数量 或 者 更 换 更 强 
大 的 存储 系统 。 


19.3.2 ”如 何 发 现 系 统 症状 














当然 ， 下 药 须 对 症 ， 而 要 判断 症状 就 需要 望 闻 问 切 。 对 于 存储 系 
统 ， 一 样 需 要 一 番 望 闻 问 切 过 程 。 要 分 析 路 径 中 哪里 出 了 问题 ， 就 一 
定 要 在 整 条 路 径 中 都 来 进行 跟 踩 。 


对 于 用 户 程序 所 发 起 的 IO，Windows 下 的 Filemon 和 Linux 下 的 Strace 





是 跟踪 程序 发 起 的 IO 的 好 工具 。 当 IO 进入 内 核 层 之 后 ， 在 Windows 下 可 
以 使 用 性 能 监视 器 ，Linux 下 则 可 以 使 用 iostats 等 ，AIX 系 统 下 这 方面 的 
工具 更 多 ， 比 如 topas、filemon、nmon 等 。 


利用 这 些 工具 来 查看 IO 在 内 核 层 是 否 被 分 解 或 者 合并 ， 是 否 产生 了 
读 写 惩罚 ， 产 生 的 惩罚 本 身 是 读 还 是 写 等 ， 在 这 一 层 都 可 以 判断 出 来 。 
而 当 IO 出 了 主机 操作 系统 内 核 进入 外 部 存储 系统 控制 器 之 后 ， 就 必须 在 
存储 控制 器 端 使 用 IO 监测 工具 来 探测 了 。 理 论 上 讲 ， 主 机 端 所 监测 到 的 
内 核 层 IO， 应 该 与 外 部 存储 端 所 接收 到 的 I0 一 一 对 应 ， 但 是 并 不 排除 中 
途 的 智能 网 络 传输 设备 会 对 IO 进 行 诸如 合并 、 分 解 、 复 制 等 操作 。 一 般 
情况 下 ， 非 智能 网 络 设备 并 不 会 改动 任何 数据 IO， 所 以 主机 内 核 层 的 下 
部 发 起 的 IO 其 实 也 可 以 通过 外 部 存储 系统 上 的 监测 工具 来 查看 。 











IO 流入 外 部 存储 系统 内 核 之 后 所 经 历 的 处 理 过 程 ， 也 可 以 使 用 存储 
设备 所 提供 的 监测 工具 来 查看 ， 一 直到 IO 流出 后 端 适 配器 最 终 靶 向 目标 
磁盘 之 前 的 IO 行为 都 可 以 被 监测 到 。 最 后 ， 通 过 分 析 这 整 条 路 径 中 所 有 
层次 上 的 IO 监测 数据 ， 就 可 以 得 出 大 致 的 症状 。 











提示 : ”不 到 万 不 得 已 ， 最 好 别 使 用 工具 来 直接 检测 应 用 程序 
发 起 的 IO， 因 为 这 些 IO 监 测 工具 一 般 是 第 三 方 开发 并 且 都 是 插 
入 驱动 链 中 来 作用 的 ， 弄 不 好 会 对 程序 产生 影响 ， 更 甚至 可 能 
引起 系统 崩 沉 。 所 以 ， 蜗 层 的 监测 工具 是 最 后 的 救命 稻草 。 














19.3.3 ”六 剂 展 药 治愈 IO 性 能 低下 


由 于 本 章 前 面 的 部 分 已 经 对 IO 路 径 有 了 详细 的 分 析 ， 相 信 大 家 在 阅 
读 了 之 后 都 会 对 如 何 优化 IO 性 能 有 了 目 己 的 宏图 ， 所 以 本 节 就 不 再 详细 
介绍 ， 只 做 一 下 大 方面 的 总 结 ， 忆 结 出 六 剂 治愈 IO 性 能 低下 的 良药 。 面 








对 大 多 数 英 名 其 妙 的 性 能 低下 问题 ， 只 要 对 症 下 药 ， 那 么 十 之 八 九 都 会 
药 到 病 除 。 


症状 1: 存储 系统 每 秒 接 收 到 的 IO 数 远 未 达到 系统 标 称 值 ， 链 路 带 
宽 也 远 示 达到， 前端 接口 的 Queue Length 远 小 于 Queue Depth， 并 没有 
严重 积压 现象 ， 存 储 系 统 后 端 磁盘 繁忙 度 很 低 。 主 机 端 程序 的 IO 延迟 
很 低 ， 但 是 吞吐 量 以 及 IOPS 并 未 满足 要 求 。 

可 能 病因 : 阳 火 不 旺 ， 不 能 上 自 举 。 调 用 方式 欠 火 候 。 

病因 判断 : IO 源头 的 并 发 度 不 够 ， 程 序 使 用 了 单线 程 同步 IO0。 在 这 
种 情况 下 ， 程 序 无 法 利用 全 部 的 存储 系统 性 能 ， 虽 然 每 个 IO 的 延迟 很 
低 ， 同 步调 用 的 程序 也 会 获得 一 定 的 性 能 ， 但 是 毕竟 没有 异步 调用 或 者 
多 线程 同步 调用 时 所 显现 的 性 能 。 











药方 : 生发 阳 气 。 修 改 程序 使 用 腊 步 IO 调 用 或 者 多 线程 设计 。 


症状 2: 存储 系统 每 秒 接收 到 的 I0 数 远 未 达到 系统 标 称 值 ， 链 路 带 
宽 也 远 未 达到 ， 前 疹 接 口 的 Queue Length 值 接近 Queue Depth 值 ， 显 示 
有 积压 的 IO0， 存 储 系统 后 端 磁 盘 繁 忙 度 很 低 。 主 机 端 程序 的 IO 延迟 很 
低 ， 但 是 吞吐 量 以 及 IOPS 并 未 满足 要 求 。 





可 能 病因 : 经 络 不 通 ， 气 清 淤 阻 。Queue Depth 过 低 。 


病因 判断 : 可 以 判断 此 时 程序 发 起 IO 的 并 发 度 依然 不 够 ， 因 为 程序 
的 IO 延迟 很 低 ， 如 果 是 并 发 的 IO 造成 底部 积压 ， 那 么 对 于 程序 来 讲 其 IO 
的 啊 应 时 间 会 很 高 而 不 是 低 。 正 因为 程序 发 起 的 IO 是 一 个 接 一 个 的 ， 所 
以 每 个 IO 的 啊 应 时 间 才 会 保持 较 低 的 值 ， 但 是 底部 的 Queue 依 然 造 成 了 
积压 ， 由 于 存储 系统 标 称 值 远 未 达到 ， 后 端 也 不 繁忙 ， 所 以 这 种 积压 一 





定 不 是 由 于 存储 系统 后 端 磁盘 资源 或 者 计算 资源 耗 尽 导致 的 。 所 以 问题 
就 在 于 Queue Depth 不 够 。Queue Depth 有 两 处 可 调节 ， 一 是 主机 端 存储 
控制 句 张 动 程序 处 ， 二 是 存储 系统 前 端 接口 适配器 驱动 处 。 





药方 : 疏通 经 络 ， 通 则 不 痛 。 调 节 以 上 两 处 Queue Depth， 使 其 增 
大 到 一 个 合适 的 值 ， 根 据 本 章 前 文 所 述 的 Queue ”Depth 的 一 些 规则 来 确 
定 。 另 外 ， 本 病例 中 如 果 主 机 端 程序 的 IO 延迟 很 高 ， 其 他 症状 不 变 ， 那 
么 就 表明 程序 可 能 在 使 用 异步 I0 或 者 多 线程 并 发 同步 IO0， 治 疗 方法 相 
同 。 








症状 3: 存储 系统 检测 到 Cache Hit 率 极 低 ， 磁 盘 几 乎 百 分 百 繁 
忙 ， 而 前 端 I1OPS 和 带宽 很 低 ， 业 务 所 要 求 的 响应 时 间 无 法 满足 。 





可 能 病因 : 急 火 攻心 ， 阴 虚火 旺 。IO 随 机 该 过 大 。 


病因 判断 : IO 的 随机 度 过 大 ， 严 重 增 加 了 存储 系统 磁盘 寻 道 时 间 ， 
性 能 跟 不 上 。 


药方 : 降 火 凉 心 ， 滋 阴 养 阴 。 向 RAID 组 内 加 入 更 多 磁盘 ， 或 者 更 
换 电 转速 高 规格 的 磁盘 ， 或 者 使 用 缓存 LUN 等 类 似 技 术 ， 或 者 直接 将 对 
应 磁盘 更 换 为 SSD 等 存储 介质 ， 汶 阴 养 阴 ， 此 为 治标 。 改 善 程序 的 IO 设 
计 或 者 降低 业务 的 复杂 度 ， 也 就 降低 了 IO 的 随机 度 ， 降 火 深 心 ， 此 为 治 
本 。 





症状 4: 从 主机 端 或 者 存储 系统 端 监测 到 的 主机 内 核发 出 的 IO 从 数 
量 和 容量 上 都 表现 为 较 高 的 值 ， 通 过 计算 理论 上 可 以 满足 程序 的 需 
求 ， 但 是 程序 层 却 表现 得 很 迟 绥 ，IO 延 迟 、IOPS、 带 宽 等 儿 达 不 到 从 
存储 端 监测 到 的 数据 所 体现 的 指标 ， 那 么 此 时 可 以 判断 在 主机 内 核 中 
产生 了 惩罚 。 








可 能 病因 : 心神 不 宁 ， 心 烦 意 乱 。 主 机 问 发 生 惩 避 现象 。 


病因 判断 : 此 证 为 心病 ， 判 断 起 来 非常 难 ， 因 为 不 管 是 从 主机 器 入 
核 克 部 还 是 从 存储 端 表 现 出 来 的 IO 行为 是 无 法 判断 是 人 否 在 主机 内 核 处 产 
生 了 惩罚 的 。 唯 一 判断 方法 是 在 用 户 程序 下 方 使 用 IO 跟踪 工具 来 监测 本 
层 的 IO， 然 后 与 内 核 层 发 出 的 IO 做 对 比 ， 如 果 发 现 不 匹配 ， 比 如 底层 的 
IO 在 数量 和 容量 上 为 程序 发 起 IO 的 数 倍 ， 则 可 能 引发 了 征召 。 但 是 对 于 
多 程序 并 发 访问 外 部 存储 的 情况 下 ， 很 难 判断 是 哪个 程序 引发 的 惩 避 ， 
此 时 可 以 使 用 差 量 法 判断 : 在 一 个 IO 流 恒定 的 时 间 范 围 内 ， 让 程序 提升 
一 定 倍数 的 IO 并 发 度 或 者 IO 发 送 速率 ， 同 时 监测 确 层 发 出 的 IO 情况 ， 不 
引发 惩罚 的 程序 对 确 层 的 IO 浮 动 影 响 绝对 值 较 小 ， 这 个 浮动 值 基 本 等 于 
程序 层 的 浮动 值 ， 而 引发 惩 避 的 程序 会 引起 底层 IO 浮动 上 升 一 个 较 大 的 
值 。 利 用 这 一 点 可 以 初步 判断 到 撒 是 哪个 程序 引发 了 惩 避 ， 之 后 ， 可 以 
单独 部 署 这 个 程序 进一步 调查 其 IO 惩罚 情况 ， 从 而 做 出 改正 措施 。 


























药方 : 静心 安神 。 对 于 主机 器 内 部 产生 惩 召 ， 导 致 的 原因 有 两 种 。 





第 1 种 是 因为 程序 发 起 的 IO Size 不 等 于 Page ”Size 的 整数 倍 或 者 IO 
Size 平 均值 远 小 于 Page Size。 第 1 种 情况 可 以 通过 更 改 Page 大 小 来 解决 ， 
不 过 修改 Page 大 小 一 定 要 经 过 深思 邵 虑 。 因 为 OS 内 的 Page 是 全 局 的 ， 如 
果 只 是 某 个 程序 的 IO Size 过 小 ， 则 不 能 因 喧 废 食 而 影响 了 其 他 程序 。 如 
果 程 序 的 IO Size 虽 不 为 Page 整 数 倍 但 是 规则 ， 比 如 512B、1KB 等 ， 则 尽 
量 使 用 DIO 模 式 来 越过 Page ”Cache。 但 是 一 定 要 注意 DIO 的 对 象 ， 如 果 
是 文件 或 者 块 设备 ， 那 么 在 某 些 OS 之 下 (比如 AIX)〉 ， 这 些 目标 对 象 依 
然 需要 使 用 Page Cache， 而 只 是 越过 了 文件 系统 Page Cache， 并 未 越过 
块 设备 的 Page Cache。 所 以 在 这 类 系统 下 ， 使 用 DIO 的 时 候 最 好 是 针对 
字符 设备 ， 也 就 是 RAW 设 备 。 此 外 ， 也 并 不 一 定 非 要 使 用 DIO 或 者 
RAW， 如 果 程 序 偏 要 使 用 内 核 缓存 来 IO 文件 或 者 块 设备 ， 那 么 务必 在 











调用 时 不 要 使 用 Write Through 参 数 ， 因 为 这 样 会 加 重 惩 可 力度 。 如 采 程 
序 发 起 的 IO Size 并 不 是 512B 对 齐 的 ， 而 又 因为 惩 可 而 产生 了 性 能 问题 ， 
那么 此 时 解决 办 法 也 是 尽量 不 要 使 用 Wirite Through 模 式 来 进行 IO 调用 。 





第 2 种 是 因为 程序 发 起 的 IO 的 起 始 地 址 并 没有 落 在 Page 的 边界 ， 寻 
致 额外 的 读 入 或 者 写 出 1 个 或 者 多 个 Page。 对 于 第 2 种 情况 ， 应 当 尽 量 去 
修改 应 用 程序 ， 别 无 他 法 。 总 之 ， 修 改 应 用 程序 让 其 发 出 的 IO Size 即 为 
Page 的 倍数 ， 起 始 地 址 又 落 在 Page 边 界 ， 这 是 最 理想 的 状况 ， 此 为 治 
本 。 


症状 5: 主机 端 并 未 发 出 大 量 的 10 请 求 ， 但 是 存储 系统 却 忙 得 不 可 
开交 ， 同 时 存储 系统 上 并 没有 诸如 Deduplication 等 Data Cooker 的 后 台 
操作 ， 主 机 端 I0 延 迟 偏 高 。 


可 能 病因 : 心神 不 宁 ， 心 烦 意 乱 。 存 储 端 发 生 惩 避 现象 。 


病因 判断 : 这 种 症状 属于 更 加 隐秘 的 心病 ， 是 最 难 判断 的 一 种 。 这 
种 症状 只 是 一 个 极端 的 状况 ， 实 际 中 很 少 会 有 惩 避 严重 到 通过 监测 数据 
就 可 以 观察 到 的 地 步 ， 加 之 多 主机 共同 访问 存储 系统 造成 的 混合 因素 ， 
更 加 难以 判断 。 但 是 一 些 存 储 系统 会 对 这 种 内 部 每 如 加 以 监控 和 输出 ， 
用 户 只 需要 根据 输出 值 来 判断 惩 避 的 力度 即 可 。 造 成 存储 系统 内 部 发 生 
惩罚 的 原因 除了 主机 端的 两 种 原因 之 外 ， 还 有 第 3 种 ， 即 LUN 起 始 地址 
的 不 对 齐 《〈 见 本 章 前 文 ) 。 一 旦 发 生 这 种 情况 ， 纵 使 主机 端的 IO 再 规则 
和 对 齐 ， 那 么 存储 端 也 会 出 现 惩 昼 现 象 。 


药方 : 静心 安神 。 对 于 LUN 不 对 齐 引 发 的 惩罚 ， 多 半 是 因为 在 创建 
LUN 的 时 候选 择 了 不 匹配 的 操作 系统 类 型 ， 此 时 则 需要 做 LUN 迁 移动 
作 ， 或 者 删 掉 重 建 。 对 于 主机 端 IO Size 不 能 被 Page 整 除 的 情况 ， 可 以 说 


这 种 情况 对 于 程序 发 起 的 IO 是 比较 币 见 的 ， 但 是 对 于 主机 内 核发 起 的 
IO， 一 般 很 少见 。 程 序 发 起 的 不 规则 IO 经 过 主机 内 核 之 后 一 般 都 会 经 过 
Page Cache， 所 以 会 被 映射 为 规则 的 Page 对 齐 的 IO 之 后 被 发 癌 存 储 系统 
处 理 。 但 是 不 排除 一 些 特殊 情况 ， 比 如 程序 使 用 了 DIO， 或 者 直接 操作 
RAW 设备 ， 同 时 又 没有 让 IO ”Size 为 存储 端 Page 的 整数 倍 ， 这 就 比较 常 
见 了 。 对 于 这 种 情况 的 解决 办 法 ， 需 要 综合 考虑 。 和 存储 并 的 Page Size 一 
般 是 可 以 调 市 的 ， 如 果 存 储 端的 Page Size 与 主机 端的 平均 IO Size 相 差 太 
大 的 话 ， 那 么 需要 考虑 将 存储 端 Page Size 设 置 为 所 有 主机 端 IO Size 的 平 
均值 。 对 于 主机 端 发 送 的 IO 起 始 地 址 与 存储 端 Page 边 界 不 重合 的 情况 ， 
也 是 很 少见 的 ， 如 果 排 除了 LUN 不 对 齐 导致 的 因素 ， 问 题 依然 存在 ， 那 
么 只 能 说 明 主 机 端 不 按 和 常理 出 有 牌 ， 这 种 情况 必须 要 修改 应 用 程序 的 IO 设 
pl 


症状 6: 存储 系统 单个 RAID 组 中 硬盘 很 多 ， 转 速 也 很 快 ， 存 储 系 
统 控制 器 处 理 能 力也 强大 ， 这 个 RAID 组 中 有 多 个 LUN 分 配给 了 多 个 主 
机 使 用 。 就 是 不 知道 为 什么 ， 当 一 台 主 机 访问 其 上 的 LUN 时 ， 性 能 很 
好 ， 但 是 一 旦 有 男 一 台 主 机 同时 访问 这 个 LUN， 或 者 访问 这 个 RAID 组 
上 其 他 LUN 的 时 候 ， 性 能 又 降 ， 两 台 主 机 获得 的 性 能 之 和 还 不 如 之 前 
单 台 主 机 所 获得 的 性 能 。 














可 能 病因 : 筋骨 劳损 ， 不 堪 重 人 匀 。 多 LUN 共 享 同一 RAID 组 IO 冲 
Rs 


病因 判断 : 磁盘 最 怕 什 么 呢 ? 寻 道 。 一 个 RAID 组 中 的 磁盘 数量 是 
一 定 的 ， 这 也 就 注定 了 它 能 够 提供 的 性 能 是 个 定量 ， 如 果 将 多 个 LUN 放 
在 同一 个 RAID 组 之 上 上， 那么 这 多 个 LUN 就 要 来 瓜分 整个 RAID 组 的 性 
能 ， 分 配 的 方法 是 有 讲究 的 。 正 如 本 章 前 文 所 述 ，LUN 在 RAID 组 内 的 
分 布 有 多 种 方式 ， 可 以 按照 纵向 顺序 的 分 布 ， 也 可 以 按照 横向 横路 所 有 








磁盘 分 布 ， 可 以 混合 型 分 布 ， 甚 至 可 以 完全 随机 分 布 。 


简单 纵向 顺序 分 布 的 LUN， 由 于 每 个 LUN 只 占用 1 块 或 者 几 块 硬盘 
《根据 LUN 大 小 和 磁盘 大 小 而 定 ) ， 所 以 每 个 LUN 的 性 能 都 是 固定 的 ， 
不 同 的 LUN 之 间 不 会 相互 影响 ， 除 非 它 们 占用 的 磁盘 有 相交 。 但 是 这 样 
的 分 布 方式 也 注定 了 每 个 LUN 的 性 能 有 限 ， 如 果 使 用 146GB 硬 盘 ， 而 
LUN 的 大 小 小 于 146GB， 那 么 这 个 LUN 所 拥有 的 性 能 容量 只 等 于 单 块 磁 
盘 的 性 能 。 











简单 横向 顺序 分 布 的 LUN， 由 于 每 个 LUN 都 横 跨 了 所 有 硬盘 ， 所 以 
每 个 LUN 都 能 享受 到 整个 RAID 组 的 性 能 容量 ， 但 前 提 是 一 段 时 间 内 只 
有 针对 其 中 1 个 LUN 的 IO 被 处 理 。 如 果 一 旦 其 上 的 多 个 LUN 都 在 接受 
IO， 那 么 由 于 每 个 LUN 是 横向 排 布 在 所 有 硬盘 上 的 ， 同 时 读 写 为 不 同 的 
LUN 中 的 数据 ， 就 要 求 磁 盘 不 断 地 寻 道 ， 磁 头 臂 时 而 摆动 到 LUN1 的 区 
域 ， 时 而 摆动 到 LUN2 的 区 域 。 这 就 好 比 一 个 十 字 路 口 ， 任 意 时 刻 只 能 
有 一 条 路 的 车 辆 处 于 行进 状态 ， 另 一 条 路 车 辆 必须 等 待 ， 一 个 绿灯 周期 
结束 的 时 候 ， 男 一 条 路 的 车 辆 开始 发 动 ， 发 动 过 程 是 很 慢 的 ， 束 类 似 磁 
盘 寻 道 过 程 。 如 果 遇 到 特殊 堵车 情况 ， 可 能 一 个 绿灯 周期 上 只 能 过 1 辆 
车 。 所 以 ， 由 于 十 字 路 口 的 存在 ， 造 成 了 两 条 路 的 车 辆 都 无 法 维持 高 速 
行进 ， 单 位 时 间 内 两 条 路 的 行进 里 程 之 和 远 小 于 没有 红绿灯 时 的 正常 行 
村 人 




















所 以 说 ， 被 寻 道 打 汤 的 滋味 是 极其 难受 的 ， 存 储 系 统 内 部 在 面 对 这 
种 情况 的 时 候 ， 或 许 会 做 一 些 特殊 的 考虑 。 比 如 类 似 Linux 下 的 IO 
Scheduler 中 的 CFQ 的 思想 ， 将 所 有 LUN 平 等 地 对 待 ， 并 且 做 一 个 比较 合 
理 的 周期 ， 如 内 核 可 以 依次 从 每 个 LUN 的 Queue 中 取出 一 定量 的 IO 充 入 
后 问 适 配器 驱动 的 Queue 中 ， 每 次 充 入 的 IO 数 就 决定 了 每 个 LUN 得 到 服 
务 的 周期 。 这 个 周期 是 有 考究 的 ， 就 像 红 绿灯 一 样 ， 如 果 你 设 定 红绿灯 





周期 为 10s， 那 可 能 有 些 车 还 没 局 动 利 索 昵 ， 红 灯 已 经 到 了 。 相 应 地 ， 
如 果 内 核 依次 轮流 地 从 每 个 LUN 的 Queue 中 只 拿 出 1 个 IO 充 入 到 底层 
Queue 中 ， 那 么 底层 磁盘 所 做 的 动作 就 是 每 执行 一 个 IO， 就 寻 道 一 次 将 
磁头 定位 到 很 远 处 的 下 一 个 LUN 的 区 域 ， 执 行 完 后 再 寻 道 ， 每 个 IO 都 需 
要 寻 道 ， 一 段 时 间 内 ， 大 跨度 寻 道 所 耗费 的 时 际 比 例 远 远大 于 传输 ， 那 
其 效率 可 想 而 知 。 所 以 这 个 周期 需要 根据 实测 结果 和 理论 推导 一 同 确 
定 。 同 一 个 RAID 组 内 越 多 的 LUN 同 时 接受 IO， 那 么 整体 性 能 就 越 差 ， 
磁盘 寻 道 造成 的 浪费 比例 也 就 越 大 ， 整 体 性 能 差 到 无 可 救 药 。 








注意 : ”以 上 所 描述 的 性 能 损失 只 针对 连续 地 址 IJO， 因 为 连续 
IO 之 所 以 本 应 该 性 能 良好 是 因为 寻 道 开销 很 小 ， 而 多 LUN 横 问 
分 布 导致 了 针对 每 个 LUN 的 连续 IO 整体 表现 为 了 随机 IO， 所 以 
性 能 会 大 打折 扣 《 也 就 是 前 文 所 述 的 “将 原本 有 的 东西 弄 

丢 ”) 。 而 原本 针对 每 个 LUN 的 随机 IO 却 并 不 会 打折 ， 因 为 随 
机 IO 本 来 就 需要 频繁 寻 道 ， 所 以 多 LUN 并 发 的 随机 IO， 和 单个 
LUN 的 随机 IO 相 比 ， 在 磁盘 数量 相等 的 时 候 ， 并 不 会 损失 这 一 
组 磁盘 所 提供 的 整体 性 能 ， 每 个 LUN 获 得 的 性 能 之 和 接近 于 

RAID 组 整体 性 能 。 但 是 多 LUN 相 对 于 单 LUN 来 讲 ， 每 个 LUN 
所 获得 的 性 能 是 下 降 了 ， 但 是 整体 来 讲 却 没有 浪费 。 





对 于 分 布 式 RAID 模 式 的 LUN 排 列 以 及 类 文件 系统 模式 的 LUN 排 列 
方式 ， 其 本 质 与 上 面 所 述 的 两 种 方式 类 似 ， 只 不 过 是 上 述 两 种 方式 的 一 
种 结合 后 的 产物 。 所 以 这 里 就 不 再 过 多 分 析 这 两 种 模式 对 性 能 的 影响 
于 


另外 ， 不 管 何 种 方式 分 布 的 LUN， 如 果 同 一 个 主机 上 有 多 个 程序 同 
时 访问 这 个 LUN， 并 且 如 果 每 个 程序 各 目 访 问 LUN 的 不 同 区 域 ， 那 么 这 
些 程序 就 会 瓜分 这 个 LUN 所 拥有 的 性 能 容量 。 比 如 ， 有 两 个 程序 ， 一 个 


在 对 茶 个 LUN 做 连续 IO， 而 力 外 一 个 则 对 同一 个 LUN 做 随机 IO， 那 么 
连续 IO 所 获得 的 性 能 将 会 被 严重 拉 低 。 只 要 引入 了 人 磁盘 寻 道 的 任何 操作 
都 会 将 连续 IO 性 能 严重 拉 低 ， 甚 至 拉 低 到 与 随机 IO 一 个 等 级 上 。 


症状 样 例 :， 某 视频 监控 系统 ， 用 户 200 路 摄像 头 数据 同时 以 1Mby/s 
的 速度 通过 于 兆 网 写 入 视频 主机 ， 主 机 和 存储 设备 通过 IP-SAN (和 干 
兆 ) 连接 ， 存 储 的 卷 是 3 个 14 块 1TB 的 SATA 盘 组 成 的 RAID 5 组 ， 共 42 
块 盘 ，3 个 RAID ”5 组 ， 然 后 3 组 卷 直接 组 合成 一 个 大 磁盘 再 分 配给 主 
机 。 这 时 候 直接 在 主机 上 打开 视频 文件 的 速度 很 慢 ， 慢 的 时 候 需 要 10 
多 秒 甚至 无 法 响应 。 








症状 分 析 : 把 所 有 盘 组 成 一 个 大 盘 ， 所 有 文件 都 分 布 在 所 有 磁盘 

上 ， 那 么 小 范围 顺序 IO 就 会 变 为 整体 性 随机 IO， 人 性 能 显然 是 无 法 保证 
的 。200 路 至 少 对 应 200 个 文件 ， 同 时 对 200 个 文件 进行 IO， 整 体 来 讲 就 
是 一 种 随机 IO， 本 身 速度 就 是 很 慢 的 。 再 加 上 随后 的 读 入 文件 进行 播放 
的 操作 ， 读 十 写 十 随机 ， 这 就 更 加 重 了 磁盘 的 负担 。 解 决 办 法 是 将 文件 
分 开 存放 ， 最 好 是 每 个 文件 只 占用 一 个 物理 盘 ， 然 而 这 样 做 需要 修改 应 
用 程序 ， 临 时 的 做 法 只 能 是 增加 存储 端的 条 带 深度 ， 增 加 到 最 大 ， 即 便 
这 样 做 也 不 能 从 根本 上 解决 问题 。 








药方 :放松 筋骨 ， 按 需 平 衡 负 载 。 根 据 具 体 需 求 ， 确 定 使 用 何 种 
LUN 分 布 方式 。 比 如 ， 如 果 不 计 成 本 ， 则 完全 可 以 为 每 个 LUN 单 独创 建 
一 个 有 足够 性 能 容量 的 RAID 组 ， 并 且 主 机 端 程序 所 操作 的 文件 也 尽量 
放 到 不 同 的 LUN 中 ， 做 到 从 上 到 下 都 是 独 享 一 组 底层 磁盘 的 性 能 容量 ， 
这 样 做 是 最 好 不 过 的 ， 也 是 最 完美 的 。 但 是 实际 中 不 可 能 不 考虑 成 本 ， 
所 以 每 个 RAID 组 上 一 般 都 会 有 多 个 LUN 存 在 ， 那 么 此 时 就 需要 进一步 
规划 : 是 采用 纵向 分 布 ， 还 是 横向 分 布 ， 或 者 还 是 自 定义 比例 的 纵横 结 
合 的 分 布 。 可 惜 的 是 ， 正 如 本 章 前 文 所 述 ， 目 前 市 场 上 的 产品 能 否 做 到 








让 用 户 来 选择 如 何 分 布 LUN 的 产品 几乎 没有 ， 大 多 数 产 品 都 使 用 横 问 
LUN 分 布 方式 ， 所 以 用 户 只 能 在 这 种 分 布 方式 上 来 做 文章 了 。 


而 如 上 文 所 述 ， 横 向 分 布 的 LUN 在 面 对 多 LUN 并 发 的 连续 IO 方面 可 
谓 是 出 尽 洋 相 ， 人 性 能 差 得 一 塌 灶 涂 。 但 是 总 归还 是 有 一 些 死 马 当 做 活 轧 
医 的 缓解 的 办 法 。 解 决 的 办 法 : 将 RAID 组 的 Stripe Depth， 也 就 是 
Segment， 调 整 到 所 允许 的 最 大 值 。 这 样 做 就 会 加 大 每 个 Segment 所 包含 
的 连续 地 址 范围 ， 使 得 单 块 磁盘 包含 更 长 的 连续 地 址 段 ， 所 以 ， 每 个 IO 
所 占用 的 磁盘 数量 也 将 会 随 之 减少 。 




















不 过 通常 情况 下 ， 由 于 大 多 数 产 品 可 供 配置 的 最 大 Stripe 有 限 ， 假 
设 为 256KB， 如 图 19-97 所 示 。 如 果 是 8 块 数据 盘 ， 那 么 Stripe Depth 就 相 
应 为 32KB， 如 果 每 个 IO 平均 为 32KB 大 小 ， 那 么 这 个 IO 就 只 占用 这 块 磁 
盘 。 但 是 如 果 主 机 端 使 用 异步 并 发 1JO 调 用 方式 ， 那 么 单位 时 间 会 有 多 个 
IO 同时 被 这 组 磁盘 执行 。 假 如 8 个 32KB 的 连续 地 址 IO 同时 执行 ， 那 么 正 
好 就 占用 了 8 块 磁盘 ， 另 一 个 LUN 在 这 个 过 程 中 只 能 等 待 接 下 来 的 磁盘 
寻 道 至 自己 的 区 域 从 而 为 自己 执行 IO 操作 。 








如 果 将 Stripe Depth 进一步 加 大 ， 比 如 256KB， 也 就 是 说 Stripe 宽 度 
为 2048KB， 如 图 19-98 所 示 。 如 果 此 时 IO 还 是 并 发 8 个 32KB， 那 么 这 8 个 
IO 其 实 都 落 入 同一 个 Segment， 只 需要 底层 针对 对 应 的 物理 磁盘 的 一 次 
IO 即 可 读 出 或 者 写 入 这 8x32KB 的 数据 ， 而 其 他 7 块 磁盘 都 是 空 亲 的。 如 
果 还 有 额外 7 个 LUN， 那 么 如 果 碰 巧 的 话 ， 每 个 LUN 均 可 以 同时 被 执行 8 
个 32KB 的 IO， 每 个 LUN 都 会 得 到 不 错 的 性 能 。 如 果 将 Stripe Depth 继 续 
增 大 ， 那 么 到 了 最 后 其 实 就 相当 于 纵向 分 布 的 LUN 了 ， 整 个 LUN 都 分 布 
在 一 块 人 硬盘 上 【硬盘 足够 大 ) ， 到 了 这 时 候 ， 每 个 LUN 之 间 就 是 真 的 井 
水 不 犯 河水 了 ， 但 同时 每 个 LUN 的 性 能 容量 最 大 值 也 就 等 于 单 块 磁盘 的 
性 能 容量 了 。 其 实 ， 增 加 Stripe ”Depth 的 做 法 正 是 从 RAID 3 RAID 


4-RAID 5 的 进化 路 线 中 关键 的 一 步 ，Stripe Depth 越 大 ， 并 发 几率 也 就 
越 高 ， 对 于 LUN 分 布 来 讲 ， 也 一 样 是 这 个 思想 。 


图 19-97 Stripe Depth= Segment=32KB 图 19-98 Stripe Depth= Segment 二 256KB 


当然 了 ， 以 上 的 解决 方法 只 能 是 乱 放 枪 碰 运气 ， 要 从 根本 解决 ， 还 
需要 目前 的 存储 产品 设计 上 更 加 入 性 化 ， 提 供 更 多 可 设置 的 LUN 分 布 方 
式 了 。 当 然 ， 最 终 的 治本 的 方法 ， 还 是 要 淘汰 机 械 人 硬盘 ， 使 用 无 机 械 寻 
道 的 存储 介质 。 





到 此 ，6 个 典型 症状 已 经 介绍 完毕 了 。 实 际 中 所 过 到 的 情况 很 有 可 
能 是 以 上 几 个 症状 并 存 ， 或 者 由 一 个 症状 引发 了 男 一 种 症状 的 连锁 反 
应 ， 使 得 问题 的 解决 更 加 复杂 化 ， 但 是 只 要 掌握 了 每 种 症状 的 治疗 方 
法 ， 再 加 上 仔细 的 判断 和 分 析 ， 相 信息 会 药 到 病 除 。 











19.3.4 面向 SSD 的 IO 处 理 过 程 优化 


SSD 使 用 的 NAND Flash 是 个 特殊 的 介质 ， 本 书 前 面 章节 也 充分 描述 
过 。SSD 所 表现 出 来 的 性 能 确实 强劲 ， 那 么 当 SSD 被 用 在 外 置 磁盘 阵列 
中 ， 与 机 械 硬 盘 混用 时 ， 而 且 多 块 SSD 再 次 被 组 成 RAID 组 时 ， 这 样 性 
能 又 会 得 到 加 成 。 有 没有 一 些 针 对 SSD 的 优化 措施 呢 ? 有 不 少 ， 有 些 恐 
怕 我 们 之 前 压根 没 想 到 过 有 什么 相关 性 的 东西 ， 可 能 都 与 5SD 有 关 。 





a 元 数据 结构 优化 : 由 于 无 须 考 虑 IO 的 重 排 等 动作 ， 针 对 SSD 
RAID 组 的 内 存 中 元 数据 结构 可 以 大 大 简化 ， 提 高 执行 效率 。 

a WB 可 以 改 WT 了 : 由 于 SSD 响 应 时 间 很 快 ， 所 以 没有 必要 先 缓存 
在 珍贵 的 RAM 中 ， 然 后 再 刷 盘 了 ， 直 接 透 写 到 SSD 中 即 可 ， 让 更 
多 的 RAM 空 间 用 于 缓存 机 械 硬盘 的 脏 数 据 。SSD 盘 片 自身 有 大 容 








量 的 RAM 用 来 绥 存 脏 数 据 ， 上 自身 可 以 对 数据 进行 合并 操作 ， 并 
且 使 用 超级 电容 来 防止 掉 电 ， 上 所 以 可 以 放心 的 WIT 到 SSD。SSD 
对 进入 的 写 IO 属 于 WB 模式 ， 因 此 先 WB 到 阵列 全 局 RAM 还 是 直 
接 WB 到 SSD 中 的 RAM， 效 果 相差 不 大 ， 所 以 直接 WB 对 于 阵 
列 控制 器 来 讲 是 WT 到 SSD〉 到 SSD 中 即 可 。 

不 用 双 控 镜像 了 : 由 于 针对 SSD RAID 组 对 于 阵列 来 讲 是 WT 操 
作 ， 所 以 阵列 的 双 控 制 器 之 间 不 需要 对 WT 的 数据 进行 缓存 镜像 
操作 ， 节 约 了 镜像 通道 带宽 ， 更 重要 的 是 降低 了 写 IO 延 迟 。 
Queue 可 以 加 大 了 : 见 上 文 。 

阵列 控制 器 需要 文 持 Trim 了 : 由 于 SSD 机 制 决定 ， 最 好 能 对 SSD 
做 Trim 操 作 以 提高 性 能 。 但 是 SSD 插 到 阵列 中 之 后 ， 不 直接 面 对 
主机 操作 系统 了 ， 它 们 之 间 相 隔 了 一 层 阵 列 控制 器 ， 所 以 此 时 如 
果 依 然 要 支持 Trim， 那 么 就 需要 直接 面向 主机 操作 系统 的 阵列 控 
制 器 支持 Trim， 阵 列 控制 器 将 Trim 指 令 再 次 根据 SSD RAID 组 的 
地 址 映射 信息 转换 为 针对 每 个 SSD 的 翻译 映射 之 后 的 Trim 指 令 然 
后 下 发 到 每 个 SSD 中 ， 一 个 主机 Trim 指 令 会 被 转换 为 多 个 Trim 指 


令 。 














19.4 ”小结 : 再 论 机 嚣 志 界 与 人 类 世界 


各 位 ， 请 醒 来 ， 我 们 现在 义 回 到 人 类 世界 了。 我 们 所 看 到 的 这 些 机 
器 ， 只 不 过 就 是 一 全 人 台 黑 洪 漆 的 落 在 那儿 ， 不 会 动 不 会 说 话 。 但 是 刚才 
的 那 场 机 器 世界 的 游历 ， 我 们 发 现 机 器 世界 是 如 此 美妙 ， 每 一 步 都 精确 
无 比 ， 每 一 步 痢 井井有条 ， 抑 径 神 工 般 地 运行 看 。 


第 20 草 “” 腾 云 弛 筋 一 一 大 话 云 存 储 

A 

mIAAS、PAAS、SAAS 

集群 与 虚拟 化 

四 云 计算 、 云 存储 、 云 服务 

计算 、 传 输 、 存 储 

ERP、ITIL、Could， 这 是 21 世 纪 伊 始 从 西方 发 达 国 家 兴起 的 次 时 代 
IT 新 概念 。 如 今 ，ERP 并 未 获得 广泛 的 推广 和 应 用 ，ITIL 仍 是 空中 楼 
阁 ，Cloud 又 出 来 了 。 实 话 实说 ， 没 有 经 济 腾飞 催生 大 批 信 息 


一 定 程度 的 企业 ， 没 有 迫切 的 需求 ， 没 有 达到 一 定 的 积累 和 高 度 ， 
特别 高 层 的 IT 管理 运营 方法 论 是 很 难 获得 推行 的 。 











而 Cloud 这 两 年 刚刚 兴起 并 又 从 国外 炒 到 了 国内 ， 弄 的 古 马 烟 冶 
气 ， 众 说 纷 弓 ， 你 说 你 的 ， 我 说 我 的 ， 各 地 争 相 搞 云 。 搞 起 来 之 后 却 好 
像 鲜 有 人 买账 。 搞 云 是 要 来 满足 用 户 需求 的 ， 而 不 是 为 了 摘 而 去 摘 ， 后 
者 背后 有 一 定 的 个展 因 系 推动 。 




















然而 ，Cloud 与 ERP 和 ITIL 还 是 有 一 些 区 别 的 。 云 是 直接 为 僵 利 而 催 
生 的 ， 相 对 于 前 两 者 来 讲 还 是 显得 比较 实在 。 前 两 者 属于 一 种 管理 者 角 
色 ， 务 虚 ; 而 云 属 于 一 种 执行 者 角色 ， 务 实 。 虚 的 东西 落地 非常 难 ， 而 
实 的 东西 很 容易 落地 ， 这 也 是 云 为 何 快速 兴起 的 原因 。 有 人 头疼 了 ， 说 











我 怎么 每 次 听 到 人 讲 云 ， 就 发 现 很 虚 约 呢 ? 那 是 因为 给 你 讲 云 的 那 人 目 
己 也 虚 ， 是 带 有 一 定 目的 来 忽悠 的 ， 而 不 是 来 给 你 传道 授 业 的 。 本 章 ， 
笔者 将 会 站 在 中 立 角 度 为 大 家 通俗 演绎 a 到底 云 是 什么 。 











20.1 太 始 之 初 一 “ 云 ” 的 由 来 


目前 ， 云 计算 、 云 存储 、 云 备份 等 云 技术 可 谓 是 铺 天 善 地 地 黎 来 。 
这 其 中 不 乏 有 一 些 浑 水 摸 鱼 者 ， 其 本 身 并 不 具备 多 少 云 性 质 ， 却 也 在 打 
着 云 的 旗号 想 在 市 场 炒作 中 分 一 杯 闭 。 目 前 市 场 对 一 蒜 产 品 是 人 否 为 云 产 
品 并 没有 一 个 明显 的 界定 ， 因 为 云 这 个 东西 本 号 的 定义 就 没有 一 个 标 
准 ， 各 种 机 构 纷 弓 其 议 ， 莫 衷 一 是 。 好 在 SNIA a 
在 不 久 前 发 布 了 CDMI (Cloud Data Management Interface， 云 数据 管 
接口 ) 标准 用 来 规范 在 云 系 统 中 实现 数据 传输 、 ee 
范 ， 这 个 标准 只 是 针对 一 个 云 系统 中 的 数据 存储 和 管理 部 分 而 制定 的 接 
口 标准 。 对 于 云 系统 中 的 其 他 部 分 ， 比 如 用 户 接 口 、 硬 件 管理 接口 等 ， 
目前 并 没有 一 个 标准 来 遵循 。 























正 因 如 此 ， 判 断 一 个 产品 是 否 为 云 产品 ， 也 没有 什么 标准 可 循 。 


说 道 “ 云 ”这 个 词 ， 其 由 来 显得 有 些 不 可 思议 。 我 们 都 知道 微软 
Office 软 件 中 的 PowerPoint， 其 中 有 一 个 图 形 ， 如 图 20-1 所 示 。 我 们 在 制 
作 PPT 的 时 候 ， 经 常会 用 到 这 个 云 状 的 图 形 来 指 代 一 堆 网 络 设 备 、 存 储 
设备 或 者 服务 器 设备 。 











图 20-1 云 一 词 的 由 来 








然而 ， 在 国内 好 像 人 们 都 习惯 把 这 一 堆 设 备 称 之 为 “网 络 设备 
群 "” “服务器 群 *>， 也 就 是 用 “和 群 * 这 个 字 ， 起 因 是 因为 国外 在 指 代 这 推 
设备 的 时 候 ， 一 般 都 是 用 “Cluster “这 个 词 。 而 Cluster 中 文 一 般 被 翻译 
为 “ 秘 ” 或 者 “集群 "， 所 以 “ 群 * 就 这 么 出 现 了 。 某 一 天 ， 也 是 国外 某 人 在 
讲授 某 PPT 的 时 候 ， 顺 口 说 了 一 句 比 如 “The servers in the 








cloud”， “Cloud” 一 词 就 这 样 诞 生 了 。 至 于 到 底 是 谁 第 一 次 说 出 这 个 概念 
的 ， 之 后 通过 什么 途径 流行 开 的 ， 又 是 谁 率 先 用 云 来 指 代 大 规模 IT 基础 
架构 的 ， 疝 无 从 考证 。 


云 诞 生 并 且 被 公之于众 之 后 ， 人 们 对 云 基本 上 产生 了 4 种 理解 : 云 
即 设备 、 云 即 集群 、 云 即 IT 系统 、 云 即 服务 。 


20.1.1 ”观点 1: 云 即 设备 


这 种 观点 也 是 最 原始 的 观点 ， 它 仅仅 指 代 某 一 堆 设 备 ， 也 就 是 PPT 
中 的 云 状 图 形 所 宫 括 的 那些 设备 。 此 时 ， 云 不 具有 任何 意义 ， 仅 仅 是 一 
个 指 代词 ， 为 了 表达 方便 而 已 。 这 种 对 云 的 认 知 目前 依然 存在 ， 一 些 对 
云 不 太 了 解 的 人 ， 往 往 一 开始 都 是 这 样 认为 云 的。 然而， 你 不 能 就 说 这 
种 认 知 是 错误 的 。 这 个 认 知 只 是 云 发 展 的 一 个 阶段 ， 也 确实 是 云 的 组 成 
部 分 ， 因 为 没有 设备 文 撑 ， 哪 来 的 云 呢 ? 任何 概念 都 要 有 实 实在 在 的 文 


撑 。 





20.1.2 ”观点 2: 云 即 集群 


在 第 一 个 观点 ， 也 惑 是 “ 云 即 设备 ”的 基础 上 ， 人 们 的 认 知 开始 逐渐 
发 展 ， 如 采 云 仅仅 是 一 扒 设 备 的 话 ， 那 么 这 堆 设备 也 只 是 一 堆 设 备 而 
己 ， 那 么 云 这 个 概念 也 就 束 此 图 了 了 ， 没 有 什么 及 展 了 。 然 而 事物 总 十 
要 不 断 问 前 发 展 ， 给 自己 开拓 新 道路 。 一 堆 设 备 肯 定 不 是 这 个 事物 发 展 
的 尽头 ， 如 果 再 同 前 进一步 会 变 为 什么 呢 ? 





当然 是 集群 了 ， 这 束 像 多 个 人 组 成 社会 一 样 ， 一 堆 人 放 在 一 起 便 会 
目 行 发展 成 社会 ， 一 扒 设 备 放 在 一 起 ， 其 高 级 形态 就 是 一 个 集群 。 设 备 
之 间 是 有 机 联系 起 来 的 ， 共 同 协作 的 。 那 么 云 在 这 个 认 知 和 发 展 阶段 ， 





就 表现 为 一 个 集群 ， 不 管 是 计算 集群 还 是 存储 集群 。 
20.1.3 ”观点 3: 云 即 IT 系统 


然而 ， 一 个 集群 能 做 什么 呢 ? 集群 只 是 一 个 有 机 结合 可 以 写作 的 设 
备 集合 ， 那 么 如 果 云 只 表示 到 这 一 层 的 话 ， 显 然 也 是 没有 任何 生命 力 
的 。 云 要 发 展 ， 台 必须 再 往 上 走 。 集 群 之 上 是 什么 呢 ? 赋予 一 堆 便 件 灵 
魂 的 ， 是 软件 。 软 件 和 硬件 组 合 起 来 才 是 一 个 完整 的 有 机 系统 ， 也 就 是 
云 即 全 系统 ， 比 如 茶 企 业 的 开 系 统 ， 就 是 一 朱云 ; 茶 运 营 商 的 代 系 统 ， 
也 是 一 条 云 。 对 云 的 认 知 发 展 到 这 一 层 ， 就 快要 露出 本 来 面目 了 。 











20.1.4 观点 4: 云 即 服务 


那么 ， 云 即 IT 系统 这 个 观点 还 能 继续 再 发 展 么 ? 还 可 以 的 。 问 一 
问 ，IT 系 统 是 用 来 做 什么 的 呢 ? 


答 1: “运行 程序 用 的 。” 
答 2: “ 文 撑 和 服务 于 企业 生产 的 。” 


答 3: “用 来 鼻 利 的 。” 








这 三 种 答案 ， 一 个 比 一 个 高 级 。 第 一 个 答案 显然 太 过 技术 化 ， 没 有 
实际 直接 意义 ; 第 二 个 则 很 徘 谱 ， 企业 运 营 过 程 中 需要 借助 开 系 统 来 做 
文 撑 和 服务 ;第 三 个 则 更 加 激进 了 ， 直 接 使 用 IT 系统 来 便利 ， 蜡 指 这 家 
企业 靠 的 就 是 出 售 或 者 出 租 其 IT 系统 。 














我 们 着 重 来 看 第 三 个 回答 。 如 果 想 直接 拿 某 个 IT 系统 来 僵 利 ， 换 了 
你 ， 你 会 怎么 来 备 利 ， 采 取 什么 样 的 熏 利 模式 呢 ? 





答 1; “直接 卖 掉 ， 拿 钱 ， 多 省 事 ! ” 





答 2: “我 搞 出 租 ， 把 整个 系统 租 给 别人 用 ， 我 收 租 ! ” 


答 3: “我 开发 个 网 络 游戏 ， 然 后 用 这 个 IT 系统 来 运营 这 个 游戏 ， 谁 
想 玩 的 就 交 钱 ! ” 


虽 们 来 分 析 一 下 这 三 种 备 利 方式 ， 第 一 种 最 直截了当 ， 备 利 最 快 ， 
直接 卖 掉 数 钱 去 了 ， 但 是 他 再 也 无 法 用 这 个 IT 系统 赚钱 了 ; 第 二 种 则 稍 
微 联 明 点 ， 虽 然 僵 利 慢 ， 但 是 资源 还 是 掌握 在 他 手 里 ， 第 三 种 则 非常 精 
明 ， 但 是 需要 前 期 很 大 的 投入 来 开 友 游戏 ， 然 而 一 旦 成 功 运营 ， 所 获得 
的 收益 将 是 巨大 的 。 








比较 一 下 这 三 种 方式 ， 第 一 种 受众 面 将 会 很 小 ， 因 为 需要 购买 一 整 
个 IT 系统 的 人 几乎 很 少 有 ;， 第 二 种 受众 面 稍 大 一 些 ， 因 为 需要 租用 服务 
名 租用 存储 空间 的 人 还 是 比较 多 的 ， 但 是 也 非常 有 限 ; 第 三 种 呢 ， 受 众 
面 则 非 第 之 大 ， 几 乎 所 有 人 都 是 潜在 的 受众 ， 因 为 所 有 人 都 会 对 游戏 娱 
乐 有 基本 需求 。 受 众 面 直接 影响 到 利润 。 








题 外 话 : “笔者 个 人 极度 讨厌 网 游 ， 尤 其 是 最 近 充 斥 互联 网 的 
黄色 网 游 ， 属 于 一 种 精神 毒品 ， 本 人 坚决 抵制 网 游 。 有 空 学 学 
谷歌 地 球 、 百 度 地 图 ， 搞 点 真正 能 产生 社会 价值 的 业务 ， 而 不 
要 像 国内 茶 运 营 商 一 样 搞 些 虚拟 垃圾 来 俘虏 一 大 批 人 ， 当 费 
电 ， 浪 费 劳 动力 ， 全 民 玩 虚拟 网 游 ， 这 样 下 去 很 危险 。 





话说 回来 ， 这 第 三 种 鳃 利 方式 ， 就 属于 一 种 用 服务 来 赚钱 的 模式 ， 
提供 游戏 服务 。 还 有 众多 服务 表现 形式 ， 比 如 邮箱 、 网 页 、 博 客 、 首 
乐 、 影 视 等 。 这 些 都 是 大 众 最 基本 的 需求 ， 所 以 僵 利 面 很 大 。 在 一 套 IT 
系统 之 上 可 以 同时 提供 多 种 服务 ， 那 么 可 以 最 终 认为 ， 能 够 提供 茶 种 形 





式 IT 服 务 的 一 整套 IT 系统 ， 这 就 是 云 。 





从 这 个 角度 上 来 讲 ， 所 有 的 互联 网 运营 商 ， 比 如 各 大 网 站 ， 全 部 都 
古 云 运营 两 ， 它 们 后 台 的 开 系 统 从 建立 之 初 就 已 经 有 了 云 化 的 性 质 了 ， 
但 是 离 真正 的 云 还 稍 有 差别 。 








20.1.5 云 目前 最 主流 的 定义 


可 以 从 上 文中 体会 到 ， 设 备 组 成 集群 ， 集 群 组 成 IT 系统 ，IT 系 统 用 
来 服务 。 这 一 串 的 理解 恰恰 就 是 对 IT 系统 运营 的 理解 。 那 么 是 否 可 以 将 
这 四 个 理解 组 合 起 来 ， 形 成 一 个 最 终 的 观点 ? 云 是 一 个 可 运营 的 IT 系 
统 。 但 是 ， 这 个 定义 少 了 东 些 关键 的 东西 ， 就 是 资源 迅速 灵活 地 部 普 和 
回收 。 也 惑 是 说 ， 云 当前 的 主流 定义 是 : 一 个 可 运营 的 、 迅 速 灵活 部 署 
和 回收 资源 的 乔 能 IT 系统 。 云 为 何 会 有 这 个 关键 点 ? 下 一 节 中 会 给 出 答 


案 : 





笔者 对 目前 业界 普遍 被 承认 的 云 性 质 做 了 总 结 。 云 应 当 具 有 如 下 性 
质 : 云 必须 体现 为 一 种 服务 交易 而 不 是 实物 交易 ;， 云 所 供 商 拥有 一 定 规 
模 的 硬件 基础 “比如 足够 的 网 络 以 及 服务 器 和 存储 设备 ) ; 云 提 供 商 对 
客户 提供 一 种 资源 的 租用 服务 而 不 是 资源 本 映 的 易 主 买卖 。 





几 是 具备 以 上 三 个 特性 的 系统 ， 都 可 以 称 其 为 云 系统 ， 或 者 云 服 
务 。 比 如 一 些 域名 公司 出 租 的 网 页 空间 ， 其 包含 了 如 下 服务 : 服务 器 硬 
盘 上 的 空间 租用 、Web 服 务 程 序 运行 资 源 租 用 、 网 络 市 宽 流量 租用 、 域 
名 维护 服务 。 这 些 服务 到 期 将 自动 回收 ， 比 如 网 页 空间 到 期 不 续费 ， 那 
么 服务 器 有 权 将 其 网 站 内 容 删除 ， 所 以 这 不 是 一 个 易 主 买 志 ， 所 有 的 资 
源 都 归 供 应 商 所 有 ， 你 得 到 的 只 是 服务 而 已 。 








对 于 “域名 供应 商 也 是 云 提供 商 ” 这 个 说 法 ， 可 能 有 些 人 并 不 同意 ， 


因为 他 们 认为 只 有 一 些 高 端的 、 让 人 望尘莫及 的 大 型 的 运营 商 ， 比 如 

Amazon、Google 等 所 提供 的 服务 才 是 云 服务 。 他 们 还 认为 只 有 底层 使 
用 了 硬件 集群 和 虚拟 化 技术 的 系统 ， 才 具备 最 基本 的 云 资 格 ， 这 些 观点 
都 是 比较 狭隘 的 。 


20.2 ”混沌 初 开 一 一 是 谁 众生 了 云 


20.2.1 一 切 儿 以 需求 为 导向 








任何 事物 的 出 现 、 发 展 状态 、 桶 落 ， 都 有 其 底层 因素 。 云 这 个 词 从 
PPT 中 被 衍生 出 来 ， 如 果 没 有 肥沃 的 土壤 ， 那 么 它 充 其 量 也 只 能 乖乖 地 
被 用 来 指 代 “ 一 堆 设 备 " 了 ， 或 许 根本 不 会 为 人 所 知 。 这 些 肥 诡 的 土壤 ， 
就 是 日 益 壮 大 的 用 户 需 求 。“ 互 联网 时 代 的 用 户 需 求 " 如 果 把 这 个 当做 
一 个 课题 来 讲 的 话 ， 那 真 的 是 永远 也 讲 不 完 ， 太 多 了 ! 互联 网 以 及 接 入 
终端 (PC、 手 机 等 ) 的 广泛 普及 ， 使 得 大 众 的 交流 渠道 产生 质 的 改 
变 ， 以 前 通过 书信 或 者 电话 才能 传达 的 信息 ， 现 在 可 以 通过 互联 网 用 各 
种 形式 来 实现 了 ， 比 如 传统 的 语 首 、 图 像 视频 、 论 坛 、E-mail、 博 客 
等 ， 之 前 大 众 之 间 的 大 量 交流 需求 被 一 下 子 爆 发 了 出 来 。 











这 种 需求 的 爆发 ， 其 直接 效应 束 古 信息 爆炸 ，IT 系 统 的 底层 文 撑 设 
施 快 速 被 了 饱和。 就 像 一 个 被 大 量 人 口 所 充斥 的 城市 一 样 ， 其 交通 系统 
(网 络 ) 、 教 育 医 疗 等 公共 服务 机 构 〈 各 种 应 用 服务 器 ) 、 基 本 的 饮食 
供应 《电力 供应 ) 以 及 住房 〈 存 储 系统 ) 等 就 会 被 大 量 饱和 ， 导 致 拥堵 
不 堪 ， 效 率 低下 。 





面 对 互联 网 时 代 的 需求 爆炸 ， 传 统 的 开 系 统 已 经 显得 无 法 满足 了 。 
为 何 呢 ? 看 看 传统 全 系统 是 怎么 运作 的 。 比 如 ， 系 运营 商 市 场 部 门 分 析 
出 未 来 一 年 内 网 页 游戏 业务 将 会 有 20% 的 增长 ， 而 目前 支撑 网 页 游戏 的 
IT 子 系统 的 利用 率 已 经 接近 100%， 需 要 对 现 有 的 系统 进行 扩容 ,包括 
增加 Web Server 匠 后 的 数量 、 增 加 数据 库 服务 器 市 点 的 数量 以 及 扩大 存 
储 系统 的 容量 。 系 统 扩 容 就 需要 采购 新 设备 ， 需 要 齐 循 一 系列 流程 ， 耗 
费 的 周期 很 长 ， 甚 至 已 经 可 能 慢 于 业务 的 变化 周期 。 也 就 是 说 可 能 一 个 


























业务 当 你 忙活 着 部 著 的 这 段 周期 内 ， 市 场 需 求 可 能 慢 慢 消失 了 ， 部 闭 业 
务 的 速度 慢 于 市 场 需求 变化 的 速度 。 此 外 ， 技 术 层面 还 存在 停机 的 风 


险 。 











而 这 个 运营 商 的 力 外 一 项 业务 一 一 在 线 视 频 聊天 室 ， 由 于 经 营 惨 
淡 ， 文 撑 这 项 业务 的 IT 子 系统 利用 率 不 足 60%， 有 40% 的 余 量 没有 被 充 
分 利用 。 如 果 能 够 将 这 40%% 的 余 量 用 于 文 撑 网 页 游戏 业务 的 扩充 需求 ， 
那么 就 是 最 好 不 过 的 了 。 但 是 这 样 做 在 技术 层面 风险 很 大 ， 如 果 将 两 套 
业务 系统 部 署 在 同一 个 操作 系统 中 ， 会 大 大 增加 两 种 业务 的 粘 合 度 ， 不 
利于 后 期 的 运 维 管理 ， 另 外 ， 将 同一 个 业务 分 布 在 两 个 资源 扳 品 上 ， 更 
加 不 利于 维护 。 最 后 ， 由 于 整个 数据 中 心 的 服务 需 与 存储 设备 楷 多 ， 各 
种 协议 、 各 种 不 同 广 商 的 设备 混 存 ， 巢 构 复 杂 ， 这 种 情况 下 ， 单 靠 手动 
来 部 闭 、 管 理 和 回收 各 种 资源 已 经 变 得 非常 有 挑 世 性 了 ， 一 是 效率 低 还 
容易 出 错 ， 二 是 速度 慢 到 可 能 影响 业务 上 线 ， 尤 其 是 在 一 个 承载 多 项 业 
务 的 数据 中 心中 ， 各 种 业务 对 底层 的 要 求 都 不 同 。 











以 上 这 个 场景 可 以 总 结 为 以 下 3 个 问题 : 

a 业务 部 车 周期 太 长 ; 

a 资源 不 能 充分 回收 利用 ， 资 源 孤岛 林立 ; 
a 手动 部 署 已 经 无 法 满足 要 求 。 





这 3 个 问题 已 经 成 为 所有 互联 网 运营 商 的 痛 点 。 如 何 解 决 ? 请 继续 
阅读 下 面 的 章节 。 


20.2.2” 云 对 外 表现 为 一 种 商业 模式 





笔者 恰恰 不 这 么 认为 ， 或 者 说 ， 上 面 这 些 观点 只 属于 狭义 范围 内 的 
对 云 的 定义 。 而 广义 范围 内 的 云 ， 其 实 并 不 局 限于 硬件 或 者 软件 的 技术 


或 者 染 构 ， 最 初 的 、 广 义 上 的 云 ， 其 实 是 一 种 商业 模式 ， 而 当 商 业 模 式 
与 具体 的 计算 机 技术 相 结 合 之 后 ， 便 产生 了 云 这 个 代名词 。 所 以 说 ， 云 
既是 一 种 商业 模式 的 指 代 ， 叉 是 一 种 计算 机 技术 的 大 集合 。 


正 因为 云 本 质 上 起 源 于 一 种 商业 模式 而 不 是 技术 模式 ， 那 么 云 当然 
也 就 没有 一 个 外 在 的 像 技 术 一 样 严 格 的 标准 了 。 为 何 这 么 说 呢 ?” 举 个 例 
子 ， 有 10 个 人 ， 每 人 都 想 开 一 家 和 餐馆， 那么 其 结果 一 定 是 这 10 个 人 开 的 
和 餐馆， 每 个 都 是 不 同 的 。 首 先 束 是 店面 布局 不 同 ， 其 次 是 价格 不 同 ， 再 
次 是 管理 方式 和 管理 所 用 的 工具 不 同 ， 最 后 束 是 末 大 种 类 和 口味 也 不 
同 。 那 么 我 们 回 到 计算 机 领域 ， 比 如 还 是 这 10 个 人 ， 每 人 都 有 10 台 服务 
需 ， 现 在 想 让 这 10 个 人 用 这 10 合 服务 器 来 获取 最 高 的 利润 ， 其 结果 肯定 
也 是 不 同 的 。 比 如 有 人 选择 直接 卖 反 它们 ， 易 主 交易 ， 有 人 则 想到 了 忆 
外 的 方法 ， 比 如 有 人 做 起 了 网 站 空间 出 租 业 务 ， 还 附带 一 系列 的 诸如 域 
名 、 网 盘 等 其 他 业务 ;也 有 人 在 其 上 开发 了 一 个 软件 平台 ， 做 起 了 文档 
阅读 服务 ， 还 有 人 则 利用 这 些 服务 器 开办 了 计算 业务 。 选 择 出 租 空 间 
的 ， 就 可 以 叫 它 云 存 储 ; 而 选择 出 租 计 算 资 源 的 ， 就 可 以 叫 它 云 计算 
了 。 
































云 昌 然 没 有 一 个 外 在 标准 ， 但 是 基于 同一 种 商业 模式 所 诞生 的 不 同 
产品 ， 它 们 显然 是 有 共性 的 ， 比 如 都 拥有 目 己 的 硬件 基础 架构 ， 包 括 网 
络 、 服 务 器 、 存 储 设 备 和 软件 平台 ;都 提供 特定 的 用 户 接 口 ， 比 如 通过 
网 页 方式 来 享受 服务 ， 或 者 通过 客户 端 程序 连接 到 云 供应 丙 处 来 获取 资 
源 等 。 











这 种 共性 不 代表 标准 ， 也 无 法 被 标准 化 。 目 百 到 今 从 来 没有 人 或 者 
机 构 对 其 他 人 的 商业 模式 来 制定 标准 ， 就 像 并 没有 人 规定 ， 所 有 的 餐馆 
必须 是 两 层 楼 ， 必 须 以 某 茶 规格 来 装修 一 样 。 对 于 装修 简陋 的 餐馆 ， 生 
依然 还 是 一 家 餐馆 ， 你 不 能 因为 它 简陋 就 认为 它 不 是 餐馆 了 。 正 如 有 些 


域名 商 只 用 一 合 服务 需 就 承载 了 多 个 网 站 一 样 ， 虽 然 只 有 一 合 服务 器 ， 
但 是 它 的 商业 模式 已 经 是 云 模式 了 。 





云 商 业 模 式 中 又 可 以 细 分 为 多 种 具体 的 商业 模式 ， 比 如 IAAS、 
PAAS 或 SAAS 等 。 这 束 好 比 有 些 和 餐馆 只 卖 炒 亲 ， 而 有 些 只 卖 面条 一 样 。 
关于 这 三 个 服务 模式 ， 下 文 会 有 介绍 。 


20.3 ” 洛 地 生根 一 以 需求 为 导 辐 的 系统 架构 变化 
20.3.1 云 对 内 表现 为 一 种 技术 架构 








正如 20.2.1 节 中 的 那个 场景 ， 传 统 IT 系统 的 技术 架构 已 经 对 商业 需 
求 产生 了 制约 效应 。 而 解雇 那 两 个 痛 点 的 技术 手段 ， 自 然而 然 的 非 虚拟 
化 英 属 。 服 务 器 虚拟 化 ， 即 虚拟 机 系统 ， 充 分 地 利用 了 资源 ， 辅 以 诸如 
VMware 虚 拟 机 系统 中 的 VMotion、DRS (Distributed Resource 
Scheduler) 等 技术 ， 极 大 地 增加 了 部 署 灵 活性 和 资源 均衡 性 。 如 果 那 个 
运营 商 已 经 部 署 了 虚拟 机 系统 ， 那 么 之 前 那个 痛 点 束 自 然 解决 了 ， 上 有 旧业 
务 的 余 量 将 会 被 自动 回收 (对 物理 服务 器 的 资源 消耗 降低 ) ， 新 业务 所 
需 的 应 用 主机 可 以 直接 以 虚拟 机 的 方式 被 部 署 在 物理 机 上 ， 可 以 与 旧业 
务 使 用 同一 台 物 理 机 ， 但 是 操作 系统 却 是 各 用 各 的 ， 避 人 免 了 烙 合 影响 。 
另外 ， 部 署 虚 拟 机 比 部 署 物理 机 所 耗费 的 时 间 大 大 减少 ， 极 大 地 提升 了 
针对 新 业务 的 啊 应 速度 。 最 后 ， 使 用 一 种 资源 自动 化 分 配 与 回收 平台 来 
解决 自动 化 部 署 的 问题 。 这 样 ， 那 3 个 痛 点 就 这 样 被 轻松 地 解决 了 。 








传统 的 数据 中 心 “ 太 硬 *"， 需 要 在 其 上 增加 一 个 弹性 层 ， 让 其 “ 变 
软 ”， 成 为 软 数据 中 心 或 者 称 其 弹性 数据 中 心 。 而 实现 弹性 软化 的 一 个 
方法 就 是 使 用 虚拟 化 技术 ， 包 括 计 算 资 源 和 存储 资源 的 虚拟 化 。 


大 家 知道 ， 吾 代 的 马车 ， 近 代 的 汽车 ， 都 是 使 用 实心 轮子 ， 这 样 是 
无 法 跑 快 和 跑 稳 的 。 后 来 人 们 发 明了 充气 轮胎 ， 最 终 使 得 现代 的 汽车 可 
以 高 速 行 驶 ， 并 且 保 证 平稳 。 对 于 一 个 数据 中 心 也 是 一 样 的 ， 早 期 ， 没 
有 任何 虚拟 化 措施 ， 买 了 多 少 台 服务 器 ， 就 是 多 少 台 ， 不 能 变 多 也 不 能 
变 少 ， 当 然 ， 除 非 你 关 掉 几 台 ; 同样 ， 你 买 了 多 少 存储 器 有 了 多 少 空 
间 ， 这 些 空间 不 会 变 多 也 不 会 变 少 。 屠 时候， 人 们 根本 想象 不 到 ， 如 今 





可 以 利用 虚拟 机 技术 将 一 台 服 务 器 虚拟 化 为 几 十 台 虚 拟 机 ， 也 不 会 想到 
Thin Provision 以 及 Deduplication 技 术 可 以 让 存储 空间 像 变 魔术 一 样 从 小 
变 大 或 者 从 大 变 小 ， 正 如 古代 人 的 飞天 梦想 如 今 早已 实现 一 样 。 如 果 说 
便 数 据 中 心 是 早期 的 实心 轮胎 的 话 ， 那 么 软 数据 中 心 就 是 充气 轮胎 了 。 
如 图 20-2 所 示 ， 在 传统 的 数据 中 心 硬 核心 之 外 ， 被 包 于 了 一 层 软 外 过 

层 ， 增 加 了 弹性 ， 这 层 软 外 党 可 看 作 是 虚拟 机 管理 系统 、 分 布 式 文件 系 
统 、 集 群 /Scale-Out 架 构 的 NAS/SAN， 以 及 Thin、Dedup 等 将 硬 计算 与 存 
储 资源 进行 虚拟 化 和 灵活 化 处 理 的 层次 ， 这 一 层 形成 之 后 ， 整 个 数据 中 
心 束 变 为 了 软 数 据 中 心 了 。 再 向 上 走 一 步 ， 如 果 还 能 做 到 部 团 回 收 上 自动 
化 、 可 度量 化 、 服 务 化 、 可 运营 的 数据 中 心 ， 那 么 这 也 就 是 个 云 数 据 中 
vi 

















图 20-2 给 数据 中 心 增加 弹性 























再 比如 之 前 用 服务 器 办 计算 业务 的 那个 例子 ， 他 只 有 10 台 服务 右 ， 
如 琳 来 找 他 买 计算 服 务 的 人 越 来 越 多 ， 己 经 超过 10 个 客户 了 ， 那 么 第 11 
个 客户 束 只 能 等 待 么 ? 不 能 等 ， 人 否则 他 会 找 其 他 供应 商 的 。 那 怎么 办 ? 
他 目 然而 然 地 想到 了 虚拟 化 技术 。 他 在 这 10 人 台 服 务 顺 上 部 普 了 虚拟 机 平 
台 ， 每 台 物 理 机 器 可 以 虚拟 出 多 台 虚 拟 机 器 ， 这 样 他 就 可 以 接 更 多 的 订 
单 了 。 再 之 后 ， 他 发 现 每 次 客户 都 是 通过 FTP 方 式 来 上 传 需要 计算 的 数 
据 ， 而 每 次 他 收 到 之 后 都 要 手动 转换 格式 然后 载 入 计算 ， 为 了 解决 这 个 
问题 ， 他 开发 了 一 种 目 动 转换 格式 的 程序 ， 而 且 还 做 了 一 个 网 页 接口 ， 
客户 每 次 只 要 通过 网 页 方式 上 传 ， 并 选择 对 应 的 参数 ， 那 么 服务 器 会 目 
动 把 这 些 数据 转换 成 对 应 的 格式 ， 目 动 计算 ， 并 且 最 后 将 计算 的 结果 上 自 
动 通 知客 尸 ， 大 大 市 省 了 人 力 成 本 ， 人 所 要 做 的 工作 只 是 管理 和 收费 即 
可 。 再 后 来 ， 连 收费 系统 都 变 成 了 目 动 的 ， 利 用 网 络 文 付 平 合 实现 了 自 
动 文 付 ， 其 服务 器 的 规模 也 日 蔓 增 大 ， 最 后 发 展 成 为 一 个 底层 为 大 规模 





























集群 的 、 中 层 通过 虚拟 化 技术 抽象 虚拟 化 的 、 表 层 全 目 动 业务 处 理 的 大 
型 云 计算 系统 。 


对 于 云 存储 ， 也 是 一 样 的 道理 。 从 最 简单 的 存储 空间 租用 ， 到 最 后 
变 成 底层 大 容量 的 存储 设备 集群 、 中 层 加 入 存储 虚拟 化 层 以 及 各 种 数据 
管理 功能 层 〈Thin、 分 级 、 快 照 、 容 灾 等 ) 、 表 层 实现 全 目 动 业 务 处 理 
的 云 系 统 。 


综 上 所 述 ， 虚 拟 化 和 集群 化 是 云 系 统 中 两 个 重要 的 角色 。 男 外 ， 云 
系统 中 还 需要 男 外 一 个 重要 的 角色 ， 也 就 是 一 个 负责 资源 自动 部 署 、 调 
度 、 分 配 和 回收 的 管理 者 角色 ， 它 表现 为 一 套 软 件 模 块 ， 这 个 模块 对 内 
与 整个 云 中 的 各 个 资源 部 分 通信 以 达到 对 资源 的 管理 ， 对 外 则 负责 啊 应 
业务 部 署 的 需求 ， 将 这 些 需 求 转化 为 对 内 的 资源 调度 分 配 和 管理 。 这 个 
模块 综合 来 讲 ， 束 是 “自动 化 ”。 


合适 的 技术 架构 来 承载 互联 网 时 代 的 商业 需求 ， 云 对 内 表现 为 一 
种 技术 架构 。 集 群 化 、 虚 拟 化 、 自 动 化 是 作为 一 个 云 来 讲 所 必需 的 特 
性 ， 然 而 ， 有 了 这 些 还 不 够 。 一 个 云 想 要 达到 可 运营 的 状态 ， 还 必须 做 
到 可 度量 化 ， 任 何 用 户 使 用 了 何 种 资源 ， 为 期 多 长 时 间 ， 耗 费 多 少 成 
本 ， 毛 利率 几何 ， 报 价 几何 ， 这 些 都 要 经 过 精确 的 上 度量、 定价 过 程 。 





20.3.2” 云 到 底 是 模式 还 是 技术 


云 到 撒 表 示 一 种 商业 模式 ， 还 是 表示 为 一 种 技术 架构 呢 ? 可 以 说 这 
古 个 鸡 生 和 集 和 梨 生 鸡 的 问题 。 前 者 是 和 完 有 了 云 的 思想 ， 然 后 才 在 对 应 的 
技术 架构 上 来 实现 了 这 种 思想 ， 而 后 者 则 是 先 有 了 大 量 的 物质 基础 ， 有 
了 对 应 的 技术 架构 ， 比 如 虚拟 化 和 集群 架构 ， 然 后 自然 想到 了 如 何 利用 
这 些 物 质 基础 来 获取 最 大 利润 ， 于 是 便 催生 了 云 这 种 商业 模式 。 我 们 已 























经 很 难 退 溯 云 的 发 展 史 了 ， 所 以 到 的 是 谁 催生 了 谁 ， 可 能 永远 也 说 不 
清 ， 道 不 明了 。 但 是 有 一 点 是 肯定 的 ， 两 者 结合 之 后 ， 一 定 是 相互 俊 
生 ， 相 辅 相 成 ， 一 直到 今天 被 炒 的 如 此 火热 的 程度 。 


























图 20-3 ”数据 的 存储 、 管 理 与 运营 











大 家 看 一 下 图 20-3。 最 早期 的 时 候 ， 存 储 系统 只 注重 数据 存储 ， 只 
给 你 提供 一 块 空 间 ， 数 据 怎么 管 ， 怎 么 用 ， 底 层 存储 不 关心 。 后 来 随 着 
人 们 需求 的 增长 ， 这 种 心态 已 经 完全 落伍 了 。 存 储 系统 开始 注重 数据 管 
理 ， 针 对 各 种 需求 开发 了 各 种 数据 管理 功能 ， 比 如 数据 保险 ， 也 就 是 快 
照 或 者 CDP， 重 删 以 及 Thin， 数 据 容 灾 、 克 隆 、 迁 移 等 。 再 后 来 ， 存 储 
系统 除了 关心 怎么 存 、 怎 么 管 ， 还 开始 关心 怎么 用 的 问题 了 ， 也 就 牵扯 
到 数据 运营 了 。 存 储 系统 管 得 越 来 越 多 ， 越 来 越 上 层 了 ， 越 往 上 走 ， 就 
己 经 不 是 存储 系统 这 个 子 系统 所 能 掌控 的 了 ， 此 时 需要 贴近 用 户 的 应 
用 ， 会 注重 业务 展现 ， 针 对 传统 存储 厂商 来 讲 是 个 很 大 的 挑战 。 由 于 互 
联网 日 益 莲 勃 发 展 ， 越 来 越 多 拥有 IT 资源 的 机 构 都 想 通 过 互联 网 来 进行 
运营 ， 包 括 ISV、NSP、 传 统 电信 运营 商 ， 这 就 注定 了 云 的 发 展 。 











有 人 认为 云 的 本 质 是 虚拟 化 技术 或 者 集群 技术 ， 这 一 点 也 比较 偏 
颅 。 应 当 说 云 的 本 质 是 一 种 由 虚拟 化 和 集群 技术 支撑 的 以 服务 为 模式 的 
可 运营 的 开 系 统 ， 也 惑 是 商业 模式 与 搁 术 架构 共同 组 成 了 云 系 统 。 云 只 
是 利用 了 很 多 技术 来 实现 商业 模式 和 目的 而 已 。 云 包含 的 技术 不 仅仅 是 
虚拟 化 和 集群 技术 ， 还 有 其 他 各 种 技术 ， 比 如 并 行 计算 技术 等 。 可 以 说 
只 要 存在 的 技术 ， 都 可 以 融入 到 云 中 ， 但 是 虚拟 化 和 集群 技术 是 大 规模 
云 所 必需 的 。 











云 束 是 一 个 可 以 提供 录 种 模式 服务 的 、 可 以 根据 业务 迅速 啊 应 并 且 
目 动 地 、 迅 速 而 灵活 地 部 署 和 回收 资源 的 智能 I 开 系 统 。 人 至 于 到 后 要 多 么 





智能 才 算 是 云 ， 没 有 一 个 固定 标准 。 可 以 这 么 说 ， 传 统 的 数据 中 心 如 果 
叫 它 云 1.0。 那 么 目前 兴建 的 这 些 融 入 了 新 技术 的 可 灵活 部 署 的 数据 中 
心 可 以 叫做 云 2.0。 


如 图 20-4 所 示 为 从 用 户 需求 到 最 终 业 务 展现 的 流程 示意 图 。 这 张 图 
概括 了 之 前 章节 所 表达 的 所 有 观点 。 





图 20-4 ”基于 需求 的 云 进 程 








20.3.3 ”公有 云 和 私有 云 





此 时 我 们 已 经 有 了 一 个 云 数 据 中 心 了 ， 那 么 这 个 数据 中 心 是 打算 只 
对 企业 内 部 开放 服务 ， 还 是 对 互联 网 之 外 的 任何 人 开放 服务 呢 ? 有 时 候 
某 个 企业 的 私有 数据 中 心 想 转变 为 云 模 式 ， 只 对 企业 内 部 提供 云 服务 ， 
比如 存储 空间 申请 、 呆 面 备份 和 恢复 ， 以 及 企业 内 部 应 用 系统 的 快速 部 
普 等 ， 那 么 这 个 云 就 属于 私有 云 的 范畴 。 而 如 果 某 个 数据 中 心 如 果 想 要 
对 外 和 营业， 通过 互联 网 提供 各 种 云 服务 ， 那 么 这 个 云 就 属于 公有 云 的 范 
畴 了 。 其 实 叫做 公用 云 和 私 用 云 更 准确 ， 用 户 并 非 拥 有 这 个 云 而 只 是 在 
使 用 这 个 云 。 公 有 云 数 据 中 心 一 般 痢 属于 运营 商 ， 运 营 商 更 懂得 运营 之 
道 。 











1. 私有 云 让 企业 IT 部 门 的 角色 彻底 转变 


对 于 一 个 企业 来 讲 ， 其 IT 部 门 的 角色 往往 是 比较 篮 众 的 ， 甚 至 对 于 
一 个 搞 IT 的 公司 也 是 这 样 。 企 业 的 IT 部 门 在 传统 观念 下 被 定义 为 一 个 底 
层 文 撑 部 门 ， 但 却 基 本 上 没有 目 己 的 话语 权 ， 话 语 权 被 掌握 在 业务 部 门 
手中 。 比 如 东 制 造 企 业 需 要 上 一 个 新 产品 生产 线 ， 这 个 项 目 对 IT 部 门 的 
要 求 则 是 提供 足够 性 能 的 服务 器 、 存 储 等 以 用 来 承载 新 业务 系统 。IT 部 





门 在 接 到 这 个 任务 之 后 ， 束 必须 进行 调研 之 后 发 起 招标 玉 购 等 流程 。 我 
们 看 看 这 个 过 程 中 存在 的 一 些 特征 和 问题 。 








首先 ，IT 部 门 在 整个 过 程 中 始终 处 于 业务 部 门 的 这 引 之 下 ， 一 切 围 
绕 业务 需求 来 开展 ， 所 有 的 采购 、 经 费 申 请 等 必须 以 业务 需求 为 前 提 ， 
业务 没有 需求 就 基本 上 申请 不 到 大 批 经 费 和 资源 。 





其 次 ， 传 统 的 IT 架构 中 ， 不 同 的 业务 一 般 不 会 运行 在 同一 台 物 理 服 
务 句 中 ， 这 就 导致 每 上 一 个 业务 ， 基 本 上 就 要 采购 一 批 新 设备 。 而 如 宁 
之 前 某 个 业务 下 线 了 ， 或 者 企业 根据 市 场 状 况 决 定 将 茶 业 务 缩 量 生产 候 
旗 奶 勤 ， 那 么 此 时 全 系统 中 用 来 支撑 这 些 业 务 的 设备 负载 兢 会 随 之 降 
低 ， 释 放 了 资源 ， 但 是 这 些 被 释放 的 资源 却 得 不 到 利用 。 














基于 上 面 两 个 因素 ，IT 部 门 有 潜在 的 意愿 来 将 自己 的 角色 进行 彻底 
转变 ， 之 前 被 业务 部 门 这 着 走 ， 现 在 它 想 提高 自己 的 地 位 ， 不 说 跑 到 业 
务 前 面 去 ， 也 要 与 业务 部 门 处 于 平等 地 位 。 怎 么 实现 这 种 角色 转变 呢 ? 





“服务 ”这 两 个 字 恰 好 满足 了 这 种 转变 的 需求 。 比 如 ，IT 部 门 采 取 了 
一 系列 措施 将 自己 彻底 打造 为 一 个 以 服务 为 导 同 的 部 门 ， 这 些 措 施 包 
括 : 建立 规范 的 资源 申请 流程 ， 不 管 是 从 日 常 桌面 维护 还 是 新 业务 上 线 
方面 ， 建 立 电子 工 单 审 批 系统 ， 任 何人 想 要 获得 任何 IT 服务 都 必须 填写 
工 单 ， 审 批 之 后 IT 部 门 输出 对 应 的 服务 ， 另 外 还 建立 了 一 套 可 度量 的 资 
源 使 用 记录 统计 系统 ， 比 如 可 以 统计 某 其 他 部 门 在 某 段 时 间 内 使 用 了 多 
少 IT 资源 ， 这 些 资源 等 价 于 多 少 成 本 。 





这 套 东 西 被 推行 之 后 ，IT 部 门 这 个 独立 服务 角色 就 定型 了 。 既 然 是 
服务 ， 那 么 其 残 有 了 一 定 的 话语 权 ， 并 不 是 “用 户 ”( 企 业 其 他 业务 部 
门 )》 说 什么 开 部 门 就 要 干什么 的 。 这 样 也 就 在 向 企业 申请 各 种 资源 方面 








有 了 更 大 的 弹性 和 主动 权 。 这 样 ， 业 务 部 门 在 向 IT 部 门 申请 IT 资源 的 时 
候 就 是 以 一 种 协商 态度 而 不 是 强势 的 牵制 态度 了 。 另 外 ， 由 于 资源 的 使 
用 变 得 可 上 度量 ，IT 部 门 就 会 随时 掌握 整个 企业 对 IT 部 门 资源 的 使 用 程 
度 ， 并 做 出 合理 的 预测 ， 在 申请 后 续 经 费 等 资源 时 变 得 更 有 说 服 性 。 





好 ， 既 然 开 部 门 已 经 成 为 一 个 独立 的 可 服务 型 的 部 门 了 ， 那 么 下 一 
步 就 势必 要 考虑 到 它 自 身 运 营 的 成 本 问题 。 最 大 的 成 本 来 自 于 哪里 呢 ? 





当然 是 设备 购置 成 本 。 上 文中 所 述 的 那个 资源 得 不 到 充分 利用 的 场 
景 ， 已 经 成 为 最 令 I 开 部 门 头 疼 的 问题 ， 人 迫切 需要 技术 手段 来 解决 ， 而 解 
决 这 个 问题 的 最 佳 技术 就 是 虚拟 机 技术 ， 这 也 是 为 何 目前 越 来 越 多 的 企 
业 打 算 部 署 虚拟 化 IT 环境 与 虚拟 蝎 面 环境 的 原因 之 一 。 另 外 ，IT 数 据 中 
心 还 有 更 多 一 系列 的 其 他 问题 ， 比 如 扩容 费用 高 晶 、 扩 容 维护 停机 、 迁 
移 困 难 等 ， 而 这 些 都 有 对 应 的 技术 手段 解决 ， 比 如 使 用 Scale-Out 集 群 与 
虚拟 化 技术 等 。 总 之 ， 集 群 和 虚拟 化 (包括 虚拟 存储 与 虚拟 计算 ) 这 两 
大 技术 手段 可 以 为 数据 中 心 解决 很 多 环 手 的 问题 。 引 入 虚拟 化 与 集群 之 
后 ，IT 数 据 中 心 将 变 得 更 加 有 弹性 ， 比 如 原本 规划 的 时 候 ， 考 虑 一 台 物 
理 设备 可 以 承载 100 台 虚拟 机 ， 那 么 承载 105 台 是 否 可 以 ? 某 些 场景 下 可 
能 也 没有 问题 。 这 样 ，IT 部 门 在 申请 建设 资金 时 也 就 更 加 有 弹性 了 。 














是 什么 可 以 让 IT 部 门 地 位 提升 ? 它 想 提 升 就 提升 了 么 ? 没有 这 样 的 
事情 。 本 质 是 因为 现代 企业 越 来 越 依靠 IT， 任 何事 情 都 离 不 开 IT 部 门 ， 
所 以 它 的 地 位 目 然 束 会 升 高 ， 到 了 一 定 的 程度 ， 加 上 一 些 促 友 因素 比如 
虚拟 化 、 集 群 技术 的 支撑 ， 那 么 开 部 门 角色 转型 也 就 顺理成章 了 。 





2. 共有 云 受制 于 互联 网 网 络 带宽 发 展 有 党 限 


想 让 某 个 云 数 据 中 心 提供 服务 ， 就 要 满足 一 个 基本 条 件 ， 即 网 络 带 


宽 要 人 够 。 网 络 市 宽 直 接 限制 了 一 个 数据 中 心 能 够 提供 的 服务 的 种 类 和 级 
别 。 如 果 一 个 云 数 据 中 心 是 面 癌 企业 内 部 提供 服务 的 ， 即 私有 云 ， 那 么 
就 不 必 担 忧 网 络 带 宽 的 问题 ， 因 为 企业 内 部 的 网 络 带 宽 是 非常 充足 的 ， 
其 可 以 支撑 任何 种 类 和 层面 (IaaSs、PaaS、SaaS) 的 服务 ， 比 如 IaaS， 
比如 用 户 可 以 直接 申请 一 块 存储 空间 而 使 用 对 应 的 协议 《比如 iSCSI、 
NFS、CIFS 等 ) 进行 挂 载 使 用 ， 速 度 也 不 慢 ， 再 比如 用 户 可 以 申请 一 台 
虚拟 机 ， 通 过 远程 蜗 面 来 登录 使 用 ， 可 以 上 传 各 种 应 用 程序 并 安装 运 
行 。 








而 对 于 共有 云 ， 问 题 就 玉 了 。 如 今 互 联网 接 入 带宽 偏 低 ， 除 了 像 日 
韩 等 国之 外 ， 其 他 国家 宽带 接 入 速率 远 未 达到 可 以 承载 JaaS 服 务 的 可 容 
忍 程度 。 大 量 的 用 户 还 是 通过 1Mb/s 或 者 2Mb/s 的 宽带 来 接 入 。 这 种 只 有 
100KB/s 或 者 200KB/s 否 吐 量 的 接 入 速度 ， 你 让 用 户 购 买 什么 服务 呢 ? 给 
他 个 iSCSI 协议 访问 的 存储 空间 是 不 现实 的 。 充 其 量 提供 一 些 诸如 网 盘 
之 类 的 上 传 下 载 服 务 ， 网 页 服务 就 不 用 说 了 ，1Mb/s 基 本 上 已 经 够 用 。 
视频 服务 呢 ? 标清 码 率 的 视频 2Mb/s 速 率 揭 强 可 以 承载 。 总 之 ， 和 常用 的 
SaaS 服 务 〈 网 页 、 聊 天 、 视 频 、 网 盘 、 在 线 游戏 、 基 于 Web 的 信息 管理 
系统 等 ) 基本 上 可 以 承载 于 低速 网 络 上 。 大 部 分 PaaS 服 务 也 可 以 通过 互 
联网 来 提供 ， 比 如 微软 的 Azure 等 。 而 IaaS 就 有 些 困 难 了 ， 比 如 你 购买 
了 一 台 虚 拟 机 的 使 用 权 ， 运 营 商 给 了 你 一 个 虚拟 加 面 连接 地 址 ， 此 时 
1Mb/s 速 率 基 本 上 很 勉强 ， 如 果 你 要 想 在 其 上 安装 一 些 应 用 程序 的 话 ， 
那 基本 上 很 慢 ， 因 为 你 得 先 把 安装 包 上 传 上 去 。 所 以 有 些 IaaS 提 供 商 一 
般 都 会 预先 装 好 必要 的 软件 比如 数据 库 、 中 间 件 等 ， 打 包 在 虚拟 机 磁盘 
映像 中 ， 根 据 用 户 的 选择 将 对 应 的 映像 制作 成 虚拟 机 。 男 外 ，SaaS 有 着 
更 广泛 的 用 户 基 和 群 和 更 长 的 历史 ， 而 PaaS 与 IaaS 是 伴随 着 云 的 兴起 而 逐 
渐 被 引出 的 概念 ，SaaS 会 借助 云 的 兴起 而 获得 持续 发 展 ，PaaS 和 IaaS 则 
会 随 着 云 而 加 速 故 展 。 














综 上 所 述 ， 云 目前 最 能 够 被 广泛 推进 的 地 方 束 是 新 建 的 数据 中 心 ， 
几乎 所 有 新 建 的 数据 中 心 都 会 被 网 云 方面 引导 和 建设 ， 不 管 是 企业 数据 
中 心 还 是 运营 商 数据 中 心 。 企 业 兴 建 私 有 云 数据 中 心 ， 而 运营 商 则 兴建 
混合 云 数据 中 心 ， 也 就 是 同时 对 内 和 对 外 服务 的 云 数 据 中 心 。 


20.4 拨 云 见 日 一 一 云 系统 架构 及 其 组 成 部 分 


如 图 20-5 所 示 为 一 个 云 数据 中 心 系统 中 的 关键 层次 。 经 过 前 文 的 描 
述 ， 大 家 此 时 应 该 对 云 的 由 来 、 发 展 和 表现 形式 ， 云 能 干什么 ， 有 什么 
特点 ， 由 什么 技术 堆 全 而 成 等 方面 有 了 一 个 框架 式 的 了 解 了 。 这 一 市 带 
领 大 家 再 深入 一 层 ， 从 概念 深 挖 到 具体 的 架构 层 。 





图 20-5 ” 云 基础 架构 层次 





20.4.1 物理 支撑 层 


云 是 一 种 方法 ， 但 是 它 也 必须 承载 于 物质 之 上 。 对 于 一 个 云 数据 中 
心 来 讲 ， 供 电 、 散 热 、 安 防 和 维护 等 都 是 必 不 可 少 的 ， 这 些 元 素 构成 了 
云 的 最 底层 ， 也 就 是 物理 文 撑 层 。 


20.4.2 ”基础 开架 构 层 


数据 中 心 一 定 要 有 支撑 其 运营 的 IT 系统 设备 ， 包 括 基本 的 网 络 、 服 
务 器 和 存储 系统 ， 还 需要 一 个 网 络 /设备 管理 系统 。 然 而 ， 这 些 服务 器 
与 存储 设备 并 不 是 一 个 个 的 孤岛 。 上 文中 说 过 ， 人 集群、 虚拟 化 、 自 动 
化 ， 是 一 个 大 规模 的 纯正 的 云 所 应 当 具 有 的 技术 特征 。 





云 压 层 的 集群 架构 可 以 有 两 种 实现 方式 ; 第 一 种 途径 是 利用 现 有 的 
网 格 ， 网 格 撤 术 是 把 现 有 的 、 零 散 的 、 非 专用 的 所 有 资源 整合 起 来 ， 在 
其 上 加 入 虚拟 化 层 ， 形 成 一 个 计算 和 存储 的 分 布 式 集群 ， 在 这 个 集群 之 
上 再 来 实现 云 服务 层 ， 第 二 种 途径 是 专门 的 集中 式 并 行 集群 数据 中 心 ， 
加 上 虚拟 层 ， 然 后 再 加 上 云 服务 层 。 但 是 一 般 新 兴建 的 数据 中 心 都 是 采 
用 后 者 ， 也 就 是 直接 使 用 专用 的 集群 系统 来 充当 基础 IT 架构 层 。 





说 明 : ”利用 大 规模 网 格 来 实现 云 计算 的 例子 也 是 有 的 ， 最 为 
成 功 的 一 个 莫 过 于 SETI@Home 和 寻找 外 星人 项 目 ， 利 用 Internet 
上 的 计算 机 为 其 计算 。 这 个 程序 作为 一 个 屏幕 保护 程序 存在 ， 
每 当 屏 保 激活 时 ， 程 序 便 连 接 服务 器 端 来 获取 一 段 需要 计算 的 
数据 ， 然 后 开始 计算 ， 并 且 将 结果 存储 在 本 地 。 每 次 屏保 被 激 
活 ， 程 序 便 开 始 计算 ， 直 到 算出 结果 为 止 ， 将 结果 传输 到 服务 
器 端 然后 再 次 下 载 需 要 计算 的 数据 来 计算 。 这 样 ， 整 个 互联 网 
中 的 电脑 束 组 成 了 一 个 超大 规模 的 网 格 集群 。 而 这 个 场景 确实 
非常 真实 和 准确 地 反映 了 “ 云 计 算 ” 这 三 个 字 。 

这 似乎 又 矛盾 起 来 了 ， 网 格 计算 是 一 种 分 布 式 计算 ， 而 云 又 应 
当 是 一 个 集中 式 计 算 提 供 者 ， 仔 细 想 来 其 实 不 矛盾 ， 这 就 是 一 
种 虚拟 化 的 表现 ， 即 先 用 网 格 计算 整合 所 有 计算 资源 ， 然 后 再 
用 虚拟 化 的 方式 将 这 些 资源 出 售 或 者 出 租 。 




















20.4.3 ”基础 架构 /集群 管理 层 








有 了 集群 还 不 够 ， 还 必须 在 这 个 集群 之 上 和 宪 盖 一 层 或 者 几 层 虚拟 化 
层 来 增加 整个 系统 的 弹性 ， 将 所 有 资源 虚拟 化 为 资源 池 。 对 于 计算 资 
源 ， 也 就 是 集群 中 的 服务 器 节点 ， 通 过 使 用 VMware、Citrix 等 虚拟 机 平 
台 可 以 完成 这 个 工作 。 而 对 于 存储 节点 呢 ? 也 需要 有 这 么 一 种 虚拟 化 平 
台 ， 而 目前 来 看 ， 能 够 满足 这 种 需求 的 存储 空间 虚拟 化 平台 ， 只 有 分 布 
式 文件 系统 或 者 分 布 式 卷 管理 系统 才能 满足 。 











另外 ， 网 络 、 服 务 需 以 及 存储 集群 基础 架构 需要 一 个 管理 模块 ， 负 
责 整个 集群 的 监控 、 硬 件 资产 管理 、 硬 件 故 障 更 换 管 理 等 。 





20.4.4 资源 部 署 层 


有 了 基本 的 网 络 、 服 务 器 和 存储 集群 ， 还 是 远 远 不 够 的 ， 需 要 一 个 
用 来 管理 和 驱动 这 个 集群 的 角色 。 上 文中 说 过 ， 集 群 硬件 之 上 是 虚拟 化 
的 弹性 包 训 层 ， 比 如 VMware 的 Vsphere4 〈 计 算 资 源 包 庄 ) 以 及 分 布 式 / 
集群 文件 系统 或 者 分 布 式 / 集 群 卷 管 理 系 统 〈 存 储 资 源 包 襄 ) 。 利 用 
Vsphere 所 提供 的 VMotion 与 DRS (Distributed Resource Scheduler) ， 可 
以 将 虚拟 机 在 集群 节点 中 灵活 移动 ， 而 且 可 以 做 到 资源 动态 分 配 与 回 
收 。 然 而 ， 一 个 云 数 据 中 心中 并 不 一 定 只 有 一 种 虚拟 层 ， 可 以 有 多 种 不 
同 种 类 的 虚拟 层 ， 这 样 ， 就 需要 一 个 独立 的 虚拟 机 与 虚拟 存储 资源 调度 
分 配 软件 模块 ， 它 通过 调用 这 些 虚 拟 化 模块 所 提供 的 接口 来 完成 整体 的 
资源 调度 与 分 配 回收 。 


20.4.5 中间 件 层 








当 有 了 物理 环境 、IT 基 础 架构 、 基 础 架构 监控 管理 、 资 源 分 配 部 署 
回收 层 之 后 ， 一 个 充实 的 基 座 就 有 了 。 在 这 个 基 座 之 上 ， 就 可 以 完成 各 
种 业务 的 部 署 了 。 应 用 层 与 资源 层 之 间 可 能 需要 一 个 中 间 层 来 适 配 。 这 
个 层次 不 仅 位 于 应 用 引擎 和 资源 部 署 引擎 之 间 ， 云 以 构 中 所 有 层次 之 间 
可 能 都 需要 各 种 适 配 。 

















20.4.6 ”应 用 引擎 层 


应 用 引擎 层 则 是 产生 各 种 业务 应 用 的 温床 了 ， 这 一 层 提供 一 个 运用 
的 业务 开发 平台 ， 或 者 将 其 他 平台 所 开发 的 应 用 适 配 进来 ， 然 后 统一 友 
布 。 











20.4.7 ”业务 展现 与 运营 层 


现在 万 事 俱 备 ， 只 欠 东 风 了 。 数 据 中 心 的 硬件 、 软 件 、 架 构 都 已 经 


被 打造 为 集群 化 、 虚 拟 化 和 目 动 化 的 形态 ， 各 种 业务 也 可 以 随时 部 普 和 
撤销 ， 确 层 资源 得 到 最 大 化 的 利用 ， 降 本 增 效 。 那 么 还 穴 缺 什么 呢 ? 刚 
才 所 列 出 的 这 些 ， 都 只 是 对 你 目 己 有 意义 的 事情 ， 是 为 了 让 你 目 己 更 好 
地 去 适应 这 个 市 场 ， 适 应 不 断 膨胀 的 用 户 需 求 。 那 么 这 些 东 西 对 用 户 来 
讲 ， 没 有 任何 意义 。 用 户 不 关心 确 层 用 不 用 集群 或 者 虚拟 化 ， 更 不 关心 
底层 是 人 工 部 区 还 是 自动 部 团 和 管理 。 用 户 只 关心 他 能 得 到 最 快 的 服务 
与 啊 应 ， 更 关心 提供 服务 的 方式 、 界 面 、 操 作 便 捷 性 、 展 现 的 如 何 、 收 
费 是 否 合理 等 。 对 于 一 个 云 来 讲 ， 业 务 展现 于 运营 层 是 最 终 关 系 到 这 个 
云 仍 利 模式 及 利润 的 关键 。 


























云 服务 是 让 数据 中 心 实 现 鳃 利 的 男 外 一 种 商业 模式 ， 说 日 了 ， 就 是 
卖 数据 中 心 ， 把 数据 中 心 的 所 有 资源 整合 起 来 ， 虚 拟 化 ， 然 后 再 分 配 ， 
再 以 租用 和 服务 的 方式 出 租 。 大 规模 的 云 之 内 必须 要 有 虚拟 化 层 ， 一 十 
用 来 榨 干 物理 设备 的 资产， 二 是 用 来 整合 成 大 的 资源 地， 如果 没 有 虚拟 
化 ， 则 将 无 法 管理 一 个 个 的 孤 咏 ， 资 源 分 配 的 灵活 性 达 不 到 要 求 。 


我 们 可 以 把 云 分 为 云 存储 、 云 主机 、 云 计算 这 三 大 块 服务 。IaaS 属 
于 云 存储 或 者 云 主机 范畴 ，PaaS 和 SaaS 则 属于 云 计 算 范 畴 。 


笔者 总 结 了 一 个 云 服务 架构 简 图 ， 如 图 20-6 所 示 。 


图 20-6 IaaSs、PaaS 和 SaaS 





出 租 数据 中 心 可 以 在 下 面 的 几 个 层次 上 进行 。 


1. 基础 设施 即 服务 〈IaaS ) 


卖 存 储 空间 ， 卖 虚拟 机 ， 卖 计算 服务 。 所 谓 Infrastructure As A 
Service， 或 称 人 硬件 即 服 务 (Hardware as a Service，HAAS) ， 其 中 的 I 就 


代表 了 云 系 统 中 的 硬件 设施 ， 诸 如 服务 器 、 网 络 、 存 储 系统 等 。 如 上 图 
所 示 ， 云 提供 商 的 存储 集群 和 计算 集群 ， 旨 可 以 出 租 。 可 以 只 卖 存 储 ， 
也 可 以 只 卖 计 算 ， 或 者 买 计算 的 赠 一 定 容 量 的 存储 空间 ， 当 然 笔者 在 此 
只 是 开放 地 设想 而 已 。IaaS 并 不 算是 云 计算 的 一 种 ， 因 为 IaaS 并 不 直接 
负责 用 户 的 计算 ， 而 只 是 提供 硬件 平台 ， 具 体 计算 的 细节 由 用 户 自行 部 





1) 如 何 卖 存 储 空间 





可 以 有 多 种 方式 ， 如 卖 裸 空间 、 卖 文件 存储 空间 等 。 裸 空间 就 是 说 
最 终 用 户 的 操作 系统 看 到 的 是 一 块 硬盘 ， 所 用 到 的 协议 当然 首选 iSCSI 
方式 ， 以 便于 路 越 耻 网 络 ， 即 用 户 终端 通过 iSCSI Initiator 连 接 云 提供 商 
处 的 iSCSI Target 从 而 获得 一 个 或 者 几 个 LUN。 文 件 存储 空间 方式 又 包 
含 两 种 方式 :; 一 个 是 基于 传统 NAS 协 议 的 访问 方式 ， 另 一 种 是 基于 
HTTP 协 议 或 者 服务 商 专 用 的 其 他 协议 访问 方式 。 基 于 NAS 协 议 的 存储 
空间 需要 使 用 NFS 或 者 CIFS 协 议 来 挂 载 服务 商 处 的 Volume， 基 于 HITTP 
方式 访问 则 是 更 高 一 层 的 实现 方式 ， 比 如 网 络 硬盘 等 大 部 分 都 是 用 
HTTP 方 式 。 基 于 裸 磁 盘 和 NAS 协 议 的 Volume 来 存储 数据 ， 在 操作 系统 
层面 具有 一 定 的 通用 性 ， 可 以 实现 各 种 应 用 程序 透明 访问 分 配给 它 的 空 
间 。 而 基于 HTTP 协议 的 访问 方式 ， 不 具 通 用 性 ， 只 在 定制 的 情况 下 才 
使 用 。 














对 于 云 中 的 存储 系统 ， 诸 如 Thin Provision、 Deduplication、 
Dynamic Tiering 等 特性 应 该 说 是 必须 的 。 云 的 一 个 作用 就 是 高 效 和 成 本 
降低 ，Thin 与 Dedup 这 两 种 数据 缩减 技术 可 以 降低 不 必要 的 存储 空间 白 
用 ; 而 动态 分 级 则 可 以 进一步 节省 存储 成 本 。 








2) 如 何 买 服务 器 /虚拟 机 





这 里 说 到 的 依然 是 IaaSs， 即 卖 的 是 基础 设施 而 不 是 更 高 层级 别 的 服 
务 。 服 务 器 资源 该 如 何 出 租 呢 ? 总 不 可 能 卖 给 用 户 一 整 台 物 理 服务 器 
吧 ， 那 样 就 没有 任何 意义 了 ， 用 户 很 大 可 能 根本 用 不 到 这 人 台 物 理 服务 器 
所 能 提供 的 最 大 资源 。 





然而 ， 更 不 可 能 把 一 台 服 务 嚣 分割 成 几 半 来 出 租 ， 除 非 有 一 种 虚拟 
化 的 方式 ， 将 物理 服务 器 虚拟 成 多 台 虚 拟 服 务 嚣 。 的 确 是 这 样 的 ， 这 正 
是 云 服务 中 的 服务 器 资源 的 虚拟 和 出 租 方式 。 提 供 了 商 通 过 某 种 虚拟 化 解 
决 方案 比如 Vmware、Citrix Xen 等 。 比 如 用 户 需 要 1 台 运 行 Linux 系 统 的 
DB2 数 据 库 服务 器 ，1 台 运行 Windows 2003 系 统 的 Exchange 服 务 器 ，2 台 
运行 Windows 2003 系 统 的 Web 服 务 右 ， 每 台 服 务 器 需要 3 个 网 络 接口 ， 
则 提供 商 通 过 某 种 图 形 界面 生成 这 个 配置 ， 然 后 发 送 到 云 服 务 管理 端 ， 
云 自 动 在 现 有 的 虚拟 机 平台 上 按照 配置 要 求 创建 好 对 应 的 4 全 虚拟 机 。 
至 于 这 些 虚拟 机 最 后 是 不 是 落 在 同一 台 物 理 机 器 上 ， 需 要 根据 更 多 的 因 
素来 决定 了 ， 况 且 虚 拟 机 可 以 动态 地 在 物理 机 器 之 则 迁移 ， 资 源 也 可 以 
按 需 分 配 ， 这 些 在 技术 上 都 可 以 实现 。 生 成 的 虚拟 机 ， 可 以 给 用 户 提 供 
一 种 方式 ， 比 如 Telnet、SSH 或 者 远程 桌面 等 管理 方式 像 在 本 地 管理 一 
样 来 管理 用 户 从 云 提 供 商 处 购 得 的 虚拟 机 ， 在 其 上 安装 用 户 自 己 需要 的 
操作 系统 和 软件 等 。 而 服务 器 的 硬件 维护 、 供 电 、 网 络 等 则 可 以 全 部 交 
由 云 提 供 商 解决 。 











虚拟 机 平台 需要 考虑 的 几 个 功能 ， 一 是 动态 迁移 ， 即 虚拟 机 可 以 不 
影响 应 用 系统 而 在 物理 机 器 之 间 迁 移 ， 二 是 强劲 的 资源 动态 分 配 调度 ， 
三 是 管理 方便 。 


Amazon 在 Iaa$ 方 面 提供 了 两 个 产品 :弹性 计算 云 (Elastic Compute 
Cloud，EC2) 和 简单 存储 服务 (Simple Storage Service，S3) ， 分 别 对 
应 了 主机 计算 集群 和 存储 集群 。 除 了 Amazon， 提 供 IAAS 服 务 的 还 有 


3tera、GoGrid、Rackspace Mosso 和 Joyent 等 。 
2. 平台 即 服 务 (PaaS) 


卖 中 间 件 服务 ， 卖 软件 平台 服务 ， 卖 开发 定制 服务 。 相 对 于 IaaS， 
PaaS 则 屏蔽 掉 而 且 不 出 租 Infrastructure， 转 而 出 租 更 高 一 层 的 软件 平 
台 ， 在 这 个 平台 上 ， 用 户 可 以 制作 并 测试 符合 自己 要 求 的 网 络 应 用 程 
序 。 在 对 应 广 商 提供 的 Paas 平 台 上 开发 的 应 用 程序 一 般 只 能 在 这 个 广 商 
的 云 基础 架构 中 运行 ， 也 就 是 说 ，PaaSs 是 一 个 孕育 各 种 应 用 程序 的 平 
人 台 ， 但 是 这 些 应 用 程序 又 只 能 在 当初 孕育 它 的 平台 上 运行 。PaaS 属 于 一 
种 云 计算 服务 ， 因 为 这 个 平台 是 一 种 运行 于 硬件 集群 上 的 软件 ， 用 户 租 
用 了 这 个 平台 其 实 就 等 于 租用 了 计算 业务 。 目 前 几 个 比较 知名 的 PaaSs 平 


人 台 有 Windows Azure、Force.com、Google AppEngine、Zoho 和 Facebook 
等 
i 








3. 软件 即 服 务 〈SaaS ) 


卖 内 容 ， 卖 结果 。SaaS 是 云 服 务 中 的 最 外 层 业 务 。 云 提供 了 商 直接 问 
用 户 出 售 业 务 级 别 的 内 容 ， 而 与 业务 相关 的 数据 计算 ， 都 在 云 内 部 完 
成 。SaaS 是 目前 互联 网 上 非常 普 衣 的 一 种 服务 ， 比 如 我 们 最 常用 的 Web 
网 页 服务 、QQ 等 及 时 聊天 服务 ， 都 属于 SaaS 的 范畴 。 目 前 比较 知名 的 
大 型 的 企业 级 SaaS 提 供 商 有 Epicor、 NetSuITe、Salesforce.com 和 Zoho 的 


客户 关系 管理 (CRM) ，SAP Business ByDesign 和 Workday 的 ERP 套 件 
A 
人 





至 此 ， 我 们 就 清晰 地 看 到 了 一 个 数据 中 心 是 如 何 被 分 层 出 租 的 。 值 
得 说 明 的 是 ，PaaSs 提 供 商 可 以 租用 IaaSs， 而 SaaS 提 供 商 也 可 以 租用 IaaSs 
和 PaaS， 从 而 实现 不 同 层次 的 逻辑 分 割 和 耦合 。 





20.5 ”真相 大 白 一 一 实例 说 云 


在 我 们 冲 出 这 团 云 之 前 ， 笔 者 想 用 两 个 具体 的 实例 来 辐 大 家 展示 一 
个 县 体 的 IaaS 提 供 商 到 底 是 如 何 回 用 户 提 供 IaaS 服 务 的 。 读 者 在 看 完 下 
面 的 一 些 具 体 细 市 之 后 ， 会 彻 后 理解 云 服务 的 本 质 。 





20.5.1 3Tera Applogic 


3tera 公 司 通过 两 种 方式 来 提供 云 服务 : 一 是 直接 提供 公共 云 IaaS 服 
务 ; 第 二 种 是 将 云 平台 软件 授权 给 第 三 方 ， 第 三 方 在 自己 的 
Infrastructure 上 部 普 云 服务 平台 。 日 本 老牌 的 电信 运营 商 KDDI， 就 将 其 
部 分 业务 迁移 到 了 3Tera 的 Applogic 云 中 运行 。KDDI 并 非 租用 3Tera 的 公 
共 云 ， 而 是 直接 购买 了 3Tera 提 供 的 Applogic 云 虚拟 化 层 ， 将 其 部 署 在 自 
己 的 硬件 mfrastructure 上 ， 形 成 了 目 己 的 云 系统 对 内 或 者 对 外 提供 IaaS 
服务 ， 同 时 ， 在 IaaS 之 上 再 使 用 自己 的 PaaS 和 SaaSs 平 台 层 为 其 用 户 提供 
PaaS 和 SaaS 云 服务 。 





3Tera 的 IaaS 平 台 名 为 “Applogic”。Applogic 是 一 个 可 以 实现 IaaS 功 
能 的 软件 虚拟 化 平台 ， 或 者 按照 官方 的 说 法 ， 是 一 个 网 格 操作 系统 。 虽 
们 拒绝 一 上 来 就 忽 修一 些 摸 不 着 边 的 东西 (往往 就 是 因为 这 样 才 让 人 尝 
的 ) ， 还 是 先 来 看 一 下 它 的 底层 架构 ， 然 后 再 说 明 这 种 架构 可 以 带 来 什 
么 样 的 变革 。 先 来 看 一 张 图 ， 如 图 20-7 所 示 。 这 张 图 就 是 整个 Applogic 
系统 的 总 体 架 构图 ， 共 分 4 个 大 层次 。 











图 20-7 ”Applogic 架 构 简 图 


1. 第 一 层 : 硬件 层 


本 层 包括 主机 服务 器 、 存 储 系 统 (SAN 和 DAS 均 可 ) 、 网 络 设施 。 
值得 一 提 的 是 ，Applogic 并 不 要 求 底 层 存 储 系统 必须 是 基于 SAN 架 构 ， 
其 可 以 用 本 地 IDE 或 者 SATA 人 硬盘 来 作为 存储 空间 。 寿 干 主机 服务 器 通 
过 王 兆 以 太 网 连接 起 来 ， 形 成 一 个 集群 ， 或 者 叫 它 网 格 也 可 以 。 我 们 就 
是 要 在 这 些 有 限 并 且 分 配 很 不 灵活 的 资源 池 之 上 ， 实 现 一 种 管理 方便 、 
使 用 方便 、 资 源 分 配 灵 活 的 虚拟 化 层 。 











2. 第 二 层 : 分 布 式 核心 虚拟 化 层 (Applogic OS) 
本 层 由 3 个 子 层 组 成 ， 分 别 是 DVM、GVS 和 LCM 层 。 


a 对 计算 资源 的 虚拟 : Distributed Virtual Machine 
Manager (DVM) 子 层 


本 层 的 核心 是 虚拟 机 技术 ， 即 在 物理 主机 上 通过 Hypervisor 引 擎 来 
虚拟 化 成 多 个 虚拟 的 主机 。 大 家 都 知道 Ymware 的 ESX server 就 是 这 些 技 
术 。 只 不 过 Applogic 使 用 的 是 Xen 的 虚拟 机 平台 。 


sm 对 于 存储 资源 的 虚拟 : Global Volume Store (GVS) 子 层 


Applogic 使 用 的 是 自 研 的 分 布 式 文件 系统 ， 在 这 个 文件 系统 之 上 虚 
拟 出 Volume，Volume 可 以 是 Mirror、Clone、Snapshot 等 。 每 个 Volume 
都 在 多 个 物理 主机 上 有 镜像 以 解决 HA 问题 ， 并 可 以 提升 读 性 能 。 这 些 
Volume 对 于 最 终 的 虚拟 机 来 说 就 是 裸 磁盘 。 在 这 个 虚拟 层 之 上 ， 每 个 
节点 将 自己 的 本 地 存储 空间 贡献 出 来 ， 所 有 节点 的 存储 空间 被 整合 起 来 
并 虚拟 化 ， 再 分 配 。 








a 对 网 络 资源 的 虚拟 : Logical Connection Manager (LCM) 子 层 


对 此 没什么 可 多 说 的 ， 就 是 将 物理 网 络 搞 成 虚拟 网 络 ， 虚 拟 机 都 有 
的 技术 。 


GVS、DVM 和 LCM 这 三 个 子 层 共同 组 成 了 整个 系统 的 第 二 层 ， 即 
Distributed Kernel。 


3. 第 三 层 : 一 次 性 基础 设施 虚拟 层 


这 一 层 可 能 表述 和 理解 起 来 有 些 困难 。 何 谓 一 次 性 基础 设施 ?难道 
基础 设施 用 完了 就 丢弃 ? 这 遇 不 是 浪费 么 ?是 的 ， 就 是 因为 所 有 资源 都 
是 虚拟 的 ， 所 以 才 可 以 浪费 。Applogic 的 所 谓 一 次 性 基础 设施 ， 其 实 是 
说 虚拟 机 资源 和 网 络 资源 可 以 按 和 需求 创建 ， 每 个 应 用 程序 都 可 以 为 其 分 
配 一 个 独立 的 基础 设施 平台 ， 包 括 Firewall/Gateway (基于 Iptable) 、 负 
载 均衡 器 、Web 服 务 器 、 应 用 服务 器 、 数 据 库 服务 器 、 日 志 收 集 服务 
器 、NAS 存 储 器 等 ， 而 每 个 角色 都 是 一 个 虚拟 机 。 


这 些 虚 拟 的 基础 设施 组 合 起 来 成 为 某 个 应 用 程序 的 容器 ， 当 彻底 删 
除 一 个 应 用 程序 的 时 候 ， 容 器 也 随 之 被 删除 ， 这 就 是 所 谓 “ 一 次 性 基础 
设施 ”的 意义 所 在 。 这 些 角 色 被 这 一 层 虚 拟 成 一 个 个 的 对 象 ， 在 图 形 界 
面 中 使 用 女 标 拖 忠 就 可 以 创建 ， 同 时 用 户 还 可 以 指定 这 台 虚 拟 机 的 In 和 
Out 网 络 接口 和 个 数 ， 比 如 ， 一 台 负 载 均衡 器 ， 束 需 要 人 至少 一 个 In 接 口 
和 香干 个 Out 接口 。 同 时 还 需要 指定 Volume 的 容量 和 数量 ， 以 及 CPU、 
内 存 等 资源 的 上 下 限 。 被 装配 好 的 基础 设施 可 以 被 复制 、 粘 贴 、 导 出 和 
导入 等 。 





如 图 20-8 所 示 ， 用 户 创建 了 一 台 Web 服 务 器 、 一 台 MySQL 服 务 器 和 
台 NAS 存 储 器 。Web 服 务 器 的 前 端 in 接 口 提供 用 户 访 问 ， 后 端的 db 接 
口 用 来 连接 数据 库 服 务 器 ，fs 接 口 通过 NFS 协 议 访 问 一 台 名 为 content 的 


NAS 存 储 器 ，log 接 口 使 用 CIFS 协 议 访问 一 台 NAS 存 储 器 用 来 存 取 日 
志 。 用 户 将 会 在 这 个 硬件 平台 上 运行 某 种 应 用 程序 。 








图 20-8 ”创建 Web、NAS 和 DB 服务 器 


图 20-9 所 示 则 是 一 个 入 方向 的 Gateway， 一 台 负 载 均 衡器 后 挂 4 台 
Web 服 务 器 ， 最 后 共享 一 全 数据库 服务 怖 的 基础 设施 架构 。 











图 20-9 Gateway 创建 


4. 第 四 层 : 网 格 控制 层 和 应 用 程序 管理 层 








这 是 整个 Applogic 体 系 的 最 后 一 层 ， 也 是 最 后 的 展示 层 ， 所 有 的 抵 
层 馆 辑 无 非 都 是 为 了 实现 这 最 终 的 展示 层 ， 也 是 Applogic 应 用 程序 运行 
平台 交付 方式 的 最 终 体 现 。 








Applogic 以 Application 为 单位 向 用 户 交 付 ， 在 一 个 网 格 《〈 也 可 以 说 
成 是 集群 ， 包 括 主机 和 存储 以 及 网 络 ) 上 运行 多 个 用 户 的 多 个 应 用 程 
序 ， 比 如 ，Exchange、CRM 等 ， 每 个 应 用 程序 会 被 分 配 一 个 一 次 性 基础 
设施 ， 每 个 一 次 性 基础 设施 又 包括 了 多 个 角色 ， 比 如 Gateway/Firewall、 
负载 均衡 器 、Web 和 数据 库 服 务 器 、NAS 存 储 器 等 ， 每 个 角色 就 是 一 个 
虚拟 机 。 每 个 Application 创 建 好 之 后 ， 就 是 一 个 Package， 可 以 独立 操 
作 ， 与 底层 硬件 无 天 ， 用 户 可 以 将 它 融 走 ， 在 另外 一 个 Applogic 网 格 内 
导入 ， 便 立即 可 用 。 


5. 配置 实例 


图 20-10 所 示 为 整个 网 格 系统 的 Dashboard 监 控 界 面 。 





图 20-10 “Dashboard 控 制 台 


图 20-11 所 示 为 网 格 中 所 有 已 创建 的 Application 的 列表 。 








图 20-11 已 经 创建 的 Application 列 表 


下 面 我 们 通过 创建 一 个 带 有 Gateway 防 火 墙 、 一 个 负载 均衡 器 、 两 
台 Web 服 务 器 、 一 台数 据 库 服务 器 的 简单 的 Infrastructure 来 体验 一 下 
Applogic 最 终 交 付 给 用 户 的 接口 。 


(1) 先 从 左边 的 Gateway 类 别 中 拖 上 忠 一 个 简单 的 入 方 回 的 
Gateway/Firewall。 然 后 在 其 上 右 击 ， 从 弹出 的 快捷 沫 单 中 选择 Property 
Value 命令 ， 如 图 20-12 所 示 。 在 出 现 的 窗口 中 可 以 定义 这 从 Gateway 的 
一 些 属性 ， 如 图 20-13 所 示 。 











图 20-12 ”创建 Gateway 图 20-13 ”设置 这 台 Gateway 的 属性 


(2) 加 入 一 个 8 Out 口 的 负载 均衡 器 。 然 后 右 击 并 选择 Resources 命 
令 来 配置 这 台 均 衡器 所 使 用 的 资源 ， 如 图 20-14 所 示 。 可 以 配置 CPU、 
内 存 、 网 络 带宽 这 三 种 资源 ， 其 接口 是 由 Ctrix Xen 提 供 的 ， 这 个 界面 只 
是 调用 这 些 接口 来 控制 Citrix 部 署 虚 拟 机 ， 如 图 20-15 所 示 。 





图 20-14 ”添加 负载 均衡 设备 图 20-15” 设 定 虚拟 机 参数 


(3) 拖 入 两 台 Web 服 务 器 ， 并 在 这 个 Application 的 主 界面 中 单 击 
Manage Volume 命令 来 创建 这 个 Application 所 需要 的 存储 空间 。 此 时 界 
面 会 调用 底层 的 集群 卷 管 理 层 来 执行 部 晋 任 务 ， 如 网 20-16 所 示 。 





图 20-16 ” 设 定 存 储 空 间 


如 图 20-17 所 示 ， 这 个 列表 列 出 了 分 配给 当前 Application 的 所 有 
Volume， 整 个 网 格 中 的 Volume 都 是 按照 Application 相 互 隔离 的 ， 不 同 的 
Application 只 能 看 到 自己 的 Volume。 


图 20-17 ”当前 的 所 有 可 用 Volume 











单 击 Add 按 钮 添加 一 块 存储 空间 。 名 称 、 大 小 、 文 件 系统 格式 ， 如 
图 20-18 所 示 。 





图 20-18 ”添加 新 存储 空间 


(4) 将 Volume 分 配给 需要 使 用 存储 空间 的 服务 器 ， 比 如 Web 服 务 
器 ， 在 Web 服 务 器 图 标 上 右 击 并 选择 User Volume 命令 ， 如 图 20-19 所 
示 。 





图 20-19 分配 这 个 新 空间 


里 面 默认 有 一 项 content 卷 ， 我 们 将 上 文 定义 好 的 code 卷 映射 给 这 全 
Web 服 务 器 的 content 卷 ， 如 图 20-20 所 示 。 





图 20-20 ”分 配 新 空间 (1) 


(5) 拖 入 一 个 数据 库 服 务 器 ， 将 上 文 定义 的 data 卷 映射 给 它 的 data 
卷 ， 如 图 20-21 所 示 。 


图 20-21 ”分配 新 空间 (2) 





建 好 之 后 的 最 终 拓 扑 如 图 20-22 所 示 。 





图 20-22 ”创建 和 部 署 好 之 后 的 拓扑 示意 


防火 墙 、 负 载 均 衡器 和 Web Server 以 及 数据 库 服务 器 之 间 互 连 时 使 
用 的 人 P 是 用 户 不 用 关心 的 ， 系 统 会 自动 分 配 ， 一 切 力求 简化 、 快 捷 。 唯 
一 需要 配置 的 是 整体 Application 的 IP 地 址 等 信息 。 


可 以 针对 每 台 服 务 喜 进 行 各 种 属性 的 配置 ， 如 图 20-23 一 图 20-25 所 


钞 。 


























图 20-23 ”配置 虚拟 机 上 业务 层 的 各 种 属性 图 20-24 配置 虚拟 机 上 业务 层 的 各 种 属性 
(1) (2) 






































图 20-25 ”配置 虚拟 机 上 业务 层 的 各 种 属性 (3) 








我 们 还 可 以 登录 到 这 人 台 服 务 器 上， 如 图 20-26 一 图 20-28 所 示 。 
图 20-26 ”登录 到 对 应 的 虚拟 机 上 执行 任务 (1) 


图 20-27 登录 到 对 应 的 虚拟 机 上 执行 任务 (2) 




















图 20-28 ”登录 到 对 应 的 虚拟 机 上 执行 任务 (3) 


此 外 ， 还 可 以 监控 服务 器 的 各 种 状态 信息 ， 如 图 20-29 所 示 。 





图 20-29 ”对 整个 系统 进行 性 能 监控 














(6) 最 后 一 步 就 是 登录 到 相应 的 服务 器 ， 安 装 相 应 的 软件 ， 局 动 
应 用 软件 。 


Applogic 珊 来 的 革命 在 于 它 把 复杂 的 底层 硬件 变 得 非常 简单 ， 通 过 
拖 电 对 象 的 方式 来 装配 自己 的 mmfrastructure， 并 最 终 以 一 个 适合 于 某 种 
Application 运 行 的 整体 服务 器 十 存储 十 网 络 环境 来 交付 给 用 户 ， 佐 以 欣 
层 丰 富 的 附加 功能 比如 Snapshot、Migrate 等 ， 为 用 户 提 供 了 一 个 专业 而 





且 方 便 的 程序 运行 硬件 平台 ， 让 用 户 彻 底 脱离 了 苗 海 。 
20.5.2 IBM Blue Could 


IBM 的 Blue Cloud， 是 IBM 推 出 的 云 解决 方案 。 其 基本 上 是 由 一 堆 
软 硬 件 有 机 堆 登 起 来 的 。 硬 件 当然 包括 IBM 上 自己 的 X 系 列 PC 服 务 器 ， 以 
及 刀片 服务 器 ， 更 少不了 P 系 列 小 型 机 ， 大 型 机 吏 算 了 吧 ， 已 经 是 被 时 
代 所 淘汰 的 东西 了 。 软 件 则 必然 包括 VMware Vsphere 以 及 Citrix Xen 虚 
拟 机 平台 了 。 有 了 这 两 个 还 不 行 ， 必 须 还 有 一 套用 于 资源 自动 调度 分 配 
管理 监控 的 平台 ， 这 就 是 IBM RDP (Request Driven Provisioning) 、 
IBM TPM (Tivoli Provisioning Manager) 、 IBM TM (Tivoli 
Monitor) 。 有 了 这 些 还 不 行 ， 还 需要 对 应 的 中 间 件 平台 ， 比 如 
Websphere， 还 要 有 开发 部 署 平台 比如 Rational， 再 加 上 其 他 一 些 上 层 的 
软件 套件 比如 Lotus、Information Manager 等 。 总 之 IBN 借 助 这 个 篮 云 ， 
大 大 地 整合 了 它 所 有 的 软 硬 件 产品 ， 促 进 了 所 有 这 些 产品 的 销售 。 




















IBM 宣 称 蓝 云 可 以 在 5 分 钟 内 部 辕 一 台 x86 平 台 的 虚拟 机 ，P 系 列 小 
机 的 部 获 则 需要 30 分 钟 左右 。x86 当 然 是 菲 VMware 以 及 Citrix Xen 作 为 
平台 ; 而 P 系 列 上 自身 就 提供 了 人 硬件 级 别 的 虚拟 分 区 功能 ， 而 且 也 支持 分 
区 迁移 等 高 级 功能 ， 其 灵活 程度 毕竟 不 如 x86 开 放 平 台 ， 所 以 部 署 所 需 
的 时 间 也 要 远 远 长 于 前 者 。 











我 们 还 是 来 看 一 下 这 个 蓝 云 是 怎么 对 外 呈现 的 吧 。 首 先 见 图 20- 
30， 为 用 户 登 录 到 云 服 务 申请 界面 时 的 入 口 。 用 户 使 用 自己 的 账户 和 秘 
码 登录 监 云 资源 申请 界面 。 登 录 成 功 之 后 ， 便 会 出 现 如 图 20-31 所 示 的 
窗口 ， 其 中 会 显示 出 这 个 用 户 之 前 曾经 申请 过 的 所 有 资源 以 及 对 应 的 简 


要 情况 。 














图 20-30 “登录 到 云 服务 申请 界面 









































图 20-31 ”此 用 户 所 申请 的 所 有 资源 列表 











在 图 20-32 所 示 的 窗口 中 单 击 右 下 角 的 Request New Project 按 钮 来 申 
请 新 的 资源 ， 出 现 如 图 20-32 所 示 的 窗口 。 其 中 可 以 选择 用 户 要 使 用 对 
应 资源 的 期 限 ， 比 如 本 例 中 选择 了 听 SEP， 也 就 是 9 月 份 的 10011/12 这 三 
天 ， 也 就 是 要 用 三 天 的 时 间 。 




















图 20-32 ”指定 使 用 期 限 





单 击 next 按 钮 ， 出 现 如 图 20-33 所 示 的 窗口 ， 这 里 可 以 给 本 次 所 申请 
的 资源 起 一 个 名 字 以 用 来 区 分 ， 并 且 可 以 添加 描述 。 为 外 ， 窗 口上 方 可 
以 看 到 目前 云 中 现存 可 供 使 用 的 所 有 资源 (当然 ， 可 能 系统 并 没有 列 出 
所 有 资源 ， 可 能 会 根据 目前 账户 的 级 别 来 只 列 出 其 可 至 受 的 等 级 的 资 
源 ) 。 用 户 可 以 选择 对 应 的 资源 ， 比 如 X 系 列 PC 服 务 器 ， 或 者 刀片 服务 
名 ， 或 者 P 小 机 服务 器 ， 旁 边 还 列 出 了 可 用 的 内 存 与 CPU 频 紊 资源 ， 以 
及 对 应 的 存储 资源 。 选 择 对 应 的 资源 然后 单 击 Add 按 钮 ， 出 现 如 图 20-34 
所 示 的 窗口 。 








图 20-33 ”命名 和 描述 所 申请 的 资源 


图 20-34 ”添加 资源 


本 例 中 选择 了 使 用 刀 搬 服务 器 资源 。 在 这 个 窗口 中 可 以 指定 使 用 刀 
片 的 数量 ，AvailableResources 显 示 2， 这 并 不 一 定 就 代表 此 时 系统 中 只 
剩 下 两 片 刀 请 了 。 前 文 说 过 云 中 可 能 都 是 一 些 虚拟 的 资源 ， 这 里 的 2 可 
能 束 代 表 此 时 系统 只 能 再 为 你 创建 两 台 虚 拟 机 了 ， 因 为 你 的 账户 是 铜牌 
账户 。 可 能 对 于 白金 账户 的 话 ， 这 个 数字 会 更 高 。 这 里 选择 了 1， 下 面 








还 可 以 选择 在 这 台 虚 拟 机 上 你 想 让 它 安 装 部 署 什 么 操作 系统 ， 这 里 选择 
了 Linux。 是 人 否 需要 部 普 中 间 件 ?如 果 勾 选 的 话 ， 那 么 系统 会 自动 将 
WebSphere 中 间 件 部 署 到 虚拟 机 中 。 这 些 定制 化 的 选项 ， 其 后 端 必定 对 
应 这 样 一 种 情况 ， 比 如 系统 预先 将 各 种 可 组 合 的 情况 独立 生成 一 份 虚拟 
磁盘 镜像 文件 ， 比 如 装 好 WebSphere 的 Linux 系 统 ， 或 者 一 份 裸 Linux 系 
统 ， 或 者 部 车 了 WebSphere 的 AIX 系 统 镜像 。 当 用 户 选 择 了 对 应 的 组 合 
之 后 ， 系 统 后 台 就 将 这 些 文件 复制 一 份 或 者 直接 做 一 个 快照 来 供 对 应 的 
虚拟 机 运行 ， 如 图 20-35 所 示 。 








图 20-35 已 经 创建 好 的 资源 





如 图 20-36 所 示 ， 人 参数 已 经 选择 完毕 的 资源 会 被 列 在 下 方 的 窗口 
中 。 此 时 可 以 继续 添加 资源 ， 如 果 添 加 完毕 ， 则 单 击 右 下 和 角 的 next 按 
钮 ， 出 现 如 图 20-36 所 示 的 窗口 。 


图 20-36 ”系统 后 台 开 始 部 署 对 应 的 资源 





此 时 系统 后 台 就 开始 根据 用 户 指 定 的 参数 来 部 署 对 应 的 资源 了 。 比 
如 在 Creating Project 过 程 中 ， 系 统 后 台 可 能 会 在 云 管理 平台 中 创建 对 应 
的 条 目 和 记录 等， 这 一 步 是 比较 快 的 ; Reserving Infrastructure 过 程 中 ， 
系统 后 台 会 调用 对 应 的 虚拟 化 管理 平台 比如 Citrix “Xen 来 部 署 对 应 的 虚 
拟 机 ， 比 如 将 预先 定制 好 的 虚拟 磁盘 镜像 文件 复制 一 份 到 对 应 的 存储 空 
间 ， 然 后 创建 新 虚拟 机 ， 然 后 挂 起 磁盘 ， 局 动 。 整 个 过 程 完 毕 之 后 ， 单 
击 OK 按 钮 结束 整个 过 程 ， 出 现 如 图 20-37 所 示 的 窗口 。 














图 20-37 ”刚才 创建 的 新 资源 已 经 列 出 


单 击 这 个 新 创建 的 资源 进入 资源 详细 信息 页 面 ， 如 图 20-38 所 示 。 
可 以 看 到 系统 已 经 目 动 部 普 了 对 应 的 操作 系统 、 中 间 件 ， 以 及 配置 了 PP 





地 址 。 





图 20-38 ”资源 详细 信息 页 面 





用 户 此 时 就 可 以 使 用 Telnet、SSH 或 者 远程 桌面 等 来 连接 这 台 服 务 

器 从 而 执行 后 续 的 定制 化 部 署 了 ， 比 如 安装 其 他 软件 等 。 此 时 这 台 虚 拟 
机 就 完全 是 你 的 了 ， 愿 意 怎么 搞 就 怎么 搞 ， 搞 骨 演 了 也 没 问题 ， 只 需要 
让 运营 商 给 你 回 深 一 下 就 可 以 了 ， 用 什么 回 深 呢 ”当然 是 快照 技术 了 ， 

或 者 在 虚拟 机 层 实现 ， 或 者 直接 在 底层 存储 中 实现 。 当 然 ， 快 照 能 回 滚 
到 最 近 的 时 间 点 粒度 ， 也 是 一 种 服务 级 别 。 比 如 你 购买 了 高 粒度 的 快 

照 ， 那 么 你 或 许 就 可 以 回 滚 到 5 分 钟 之 前 的 状态 ， 而 你 如 果 只 购买 了 低 
级 别 的 快照 粒度 ， 那 么 你 可 能 就 只 能 回 滚 到 一 天 前 的 状态 了 。 还 有 各 种 
各 样 其 他 类 型 的 服务 级 别 ， 这 些 都 需要 用 户 在 购买 云 服务 的 时 候 与 运营 
商 签订 SLA (Service Level Agreement) ，SLA 中 会 规定 所 有 详细 的 服务 


过 
条 款 。 














其 他 运营 两 的 方案 与 3teraApplogic 以 及 IBM Blue Cloud 如 出 一 输 ， 
不 管 是 laaS、PaaS 或 者 是 SaaS， 其 不 同 的 只 是 交付 方式 的 区 别 。 读 者 可 
以 从 本 案例 中 坷 见 一 斑 。 


20.6 ”乘风破浪 一 一 办 难 还 是 非常 多 的 


云 这 个 东西 并 非 都 是 优点 。 作 为 一 个 刚刚 兴起 来 的 概念 ， 其 机 遇 与 
挑战 并 存 。 


20.6.1 云 的 优点 





1. 为 企业 解除 了 投资 浪费 的 后 顾 之 忧 





买 了 服务 器 买 存 储 ， 买 了 存储 买 交换 机 ， 买 完了 人 硬件 买 网 管 软件 、 
买 运 行 维护 服 务 ， 磨 合 期 结束 时 ， 友 现 需 要 扩容 需要 购买 新 的 硬件 ， 耗 
费 大 量 的 电能 却 不 是 每 时 每 刻 都 在 计算 、 都 在 存储 。 这 种 问题 在 迁移 到 
云 之 后 将 会 不 复 存在 ， 整 体 资 源 极 大 地 得 到 市 约 。 


2. 绿色 节能 ， 社 会 成 本 降低 








随 厦 云 服务 的 发 展 ， 网 民 只 需 一 条 高 带宽 的 网 络 连接 和 一 人 台 处 理 能 
力 很 弱 但 是 耗 电 很 低 的 瘦 终 端 机 和 显示 器 即 可 享受 各 种 信息 服务 ， 包 括 
3D 泻 染 服 务 ， 甚 至 高 性 能 显卡 也 无 须 再 购买 。 节 能 不 但 只 针对 于 使 用 
云 服务 的 用 户 ， 运 营 商 自身 通过 使 用 虚拟 化 整合 的 弹性 数据 中 心 ， 也 可 
以 实现 市 能 增 效 。 

















3. 廉价 


随 着 网 络 带宽 逐步 增加 和 云 的 发 展 ， 云 服务 将 会 变 得 越 来 越 廉 价 从 
而 走 入 千家 万 户 。 届 时 人 们 会 发 现 与 其 购买 一 人 台 高 性 能 PC 主机 和 大 容 
量 存 储 硬盘 、 高 性 能 显卡 ， 倒 不 如 购买 同样 感 观 的 云 服务 来 得 方便 和 便 


宜 。 云 服务 时 代 ， 一 切 你 本 地 所 能 享受 到 的 全 服务 ， 都 可 以 在 网 线 那 类 
得 到 满足 。 


4. 角色 转变 


云 服务 将 企业 内 部 的 开 基 础 架构 从 围绕 应 用 系统 开展 的 模式 全 面 转 
器 以 服务 为 守则 开展 的 模式 。 没 有 云 之 前 ， 企 业 的 全 基础 染 构 一 切 工作 
都 要 围绕 应 用 系统 来 开展 ， 基 础 染 构 的 配置 水 平 严格 由 应 用 系统 决定 ， 
应 用 系统 以 及 使 用 应 用 系统 的 部 门 成 为 资源 的 擎 控 者 ;而 私有 云 形成 之 
后 ， 开 基础 及 构 部 门 变 为 资源 的 掌管 者 ， 其 他 部 门 都 变 为 消费 者 ， 同 云 
来 要 服务 。 这 种 政治 角色 的 转变 ， 是 比较 微妙 的 。 





20.6.2 云 目 前 存在 的 问题 


1. 稳定 性 和 安全 性 的 问题 





换个 角度 ， 在 运 维 方面 ， 你 觉得 谁 更 专业 ? 你 还 是 云 ? 如 果 你 觉得 
你 更 专业 ， 那 是 另外 一 回 事 ， 如 采 你 觉得 云 更 专业 ， 你 认为 将 同样 故障 
率 的 Infrastructure 放 到 你 这 和 放 到 云 里 哪个 更 保险 ?数据 都 是 你 的 ， 只 
不 过 换个 人 保管 ， 既 然 你 认为 云 更 专业 ， 那 就 应 该 相信 云 。 





这 和 银行 是 一 样 的 道理 ， 你 总 是 认为 银行 有 更 保险 的 措施 来 保障 你 
的 金钱 ， 唯 一 区 别 是 钱 都 是 一 样 的 ， 而 数据 具有 唯一 性 ， 所 能 做 的 就 是 
多 几 份 见 余 。 说 到 数据 所 有 权 的 问题 ， 比 较 有 意思 的 是 ，Facebook 前 段 
时 间 修 改 了 其 服务 声明 ， 宣 称 它 拥有 数据 的 永久 的 所 有 权 ， 并 且 有 权力 
使 用 保存 或 者 发表 在 该 网 站 上 的 任何 内 容 。 笔 者 想 这 只 是 特例 ， 一 切 都 
是 可 以 谈 的 。 个 人 认为 云 系统 中 基础 设施 和 数据 本 身 的 安全 性 问题 大 可 
不 必 担 心 。 





另外 ， 共 有 云 所 面临 的 一 个 最 大 问题 束 是 如 何 彻 感 隅 绝 两 个 用 户 的 
存储 资源 ， 用 户 总 是 有 这 种 担心 ， 比 如 互 为 竞争 对 手 的 A 与 B 公 司 共 同 
选择 了 云 运营 商 C 的 服务 ，A 与 B 各 目的 数据 如 何 才能 够 确保 底层 被 完全 
隔离 ， 因 为 用 户 往往 认为 只 有 这 样 才能 够 真正 做 到 目 己 的 数据 不 被 对 手 
通过 东 些 后 门 黑客 手段 所 狠 取 。 











2. 涉 密 问 题 

另外 一 个 担心 束 是 将 数据 存储 在 不 信任 的 地 方 ， 如 何 解决 涉 密 问 
题 。 这 确实 是 一 个 原则 问题 。 这 方面 依然 是 可 以 通过 技术 层面 解决 的 ， 
比如 将 数据 源 放 到 本 地 并 在 服务 器 问 采 用 加 密 方 式 ， 用 户 控制 密 钥 等 。 


3. 平 台 迁 移 问题 








怎样 在 不 影响 已 经 运行 的 业务 的 前 提 下 将 其 迁移 到 云 平台 ， 这 也 是 
一 个 比较 头疼 的 问题 ， 需 要 提供 商 给 出 最 佳 的 解决 方案 。 


4. 骑 虎 难 下 的 问题 


一 旦 用 户 选 择 了 茶 家 云 服务 提供 商 ， 如 果 之 后 想 更 换 提 供 商 ， 则 几 
乎 是 一 件 无 法 找到 好 办 法 的 事情 ， 因 为 你 的 业务 、 数 据 部 已 经 部 署 在 这 
家 云 提 供 商 处 了 。 更 换 提供 丙 束 意味 着 将 数据 业务 进行 迁移 ， 并 且 伴随 
独 业 务 停机 。 想 要 做 到 停机 时 间 最 短 的 迁移 ， 就 需要 两 个 运营 商 之 间 形 
成 合作 关系 ， 这 不 是 一 件 容易 的 事情 。 





5. 不 兼容 问题 


不 同 云 服 务 商 的 架构 不 同 ， 所 提供 的 访问 接口 也 不 同 ， 随 着 云 的 发 


展 ， 势 必 有 云 之 间 通 信 的 要 求 ， 就 像 多 个 网 络 之 间 互 联 形成 Internet 一 
样 ， 云 也 一 样 ， 这 方面 需要 一 个 像 耻 地 址 和 TCP 一 样 的 标准 出 现 。 目 前 
Amazon 的 AWS (Amazon Web Service) 系列 接口 已 经 逐渐 在 成 为 标 
准 ， 这 些 标准 包括 : SimpleDB: simple DB 接口 (与 Hadoop 中 的 
bigtable，hypertable 之 类 比较 像 ); RDS: 亚 蕊 还 的 Relational Database 
Service 接 口 ;' SQS， 即 Simple Queue Service 服 务 (类 似 message queue 这 
种 服务 ) ; CloudWatch， 监 控 整 个 云 ; EBS， 即 Elastic Block Stor 接 口 ， 
用 来 控制 块 数据 访问 ; IAM， 即 Identity and Access Management 接 口 ， 
用 来 控制 和 认证 用 户 行为 等 。 


6. 市 宽 问 题 


网 络 带宽 始终 是 Web ”2.0 和 云 时 代 的 首要 瓶颈 ， 网 络 带宽 不 飞跃， 
服务 也 不 能 飞跃 。 


7. 运营 方式 


云 要 





想 僵 利 ， 重 点 是 运营 方式 。 用 什么 样 的 方式 来 获得 用 户 的 关 
要 不 断 努 力 做 的 一 件 事情 。 





忆 之 ， 适 用 于 企业 级 业务 的 云 ， 目 前 还 尚未 得 到 普及 ， 随 着 技术 和 
时 代 的 发 展 ， 企 业 级 云 服务 最 终 将 会 在 市 场 上 占有 一 席 之 地 。 


20.7 和 干 年 之 梦 一 一 云 今 后 的 发 展 
20.7.1 云 本 质 思 考 


存储 资源 十 计算 资源 十 软件 资源 ， 最 后 虚拟 为 芽 服务 资源 ， 也 就 是 
最 终 形 态 的 Software as a Service (SAAS) 。 抽 象 来 看 ， 这 不 就 是 一 台 虚 
拟 计 算 机 么 ? 硬盘 十 服务 器 十 操作 系统 和 应 用 软件 十 显示 器 。 其 实 目 前 
的 IT 技术 都 没 逃 出 这 个 模型 ， 都 是 这 个 模型 的 各 种 变形 体 。 


说 明 : 比如 Bowser 一 Webserver 一 Application Server 一 DB 
Server， 就 相当 于 显示 器 一 显示 卡 一 主机 一 硬盘。 再 抽象 一 

下 ， 就 是 显示 器 一 硬盘， 人们 最 终 需 要 的 是 结果 并 将 其 显示 出 
来 看 到 眼 里 听 到 耳 东 里 ， 看 完了 还 得 存 起 来 或 者 从 硬盘 上 取出 
来 。 人 们 需要 的 束 是 显示 器 和 存储 设备 ， 中 间 的 任何 过 程 ， 从 
最 终 用 户 的 角度 来 说 ， 是 根本 不 去 关心 的 。 而 云 服 务 的 出 现 ， 
恰恰 就 是 这 种 思想 的 一 个 呈现 和 回归 。 














既然 用 户 最 终 需 要 的 不 是 服务 右 也 不 是 一 堆 一 堆 的 人 硬盘 也 不 是 机 房 
也 不 是 整 天 吹 冷风 的 空调 ， 他 们 只 不 过 想 要 目 己 的 数据 被 展现 出 来 ， 看 
到 生产 的 结果 并 且 储 存 起 来 备用 ， 束 这 样 啤 。 好 吧 ， 你 不 喜欢 机 房 ， 也 
不 喜欢 看 到 一 堆 一 堆 的 机 柜 ， 你 不 愿意 看 到 你 花 很 多 钱 购买 的 服务 器 ， 
在 系统 不 繁忙 的 时 候 ，CPU 利 用 率 几 乎 等 于 0， 磁 盘 IO 利 用 率 几 乎 等 于 
0。 即 便 这 样 ， 你 由 是 无 条 地 乖乖 的 让 这 些 家 伙 持 续 耗 费 着 电 ， 磨 损 ， 
磁盘 依然 高 速 旋转 着 就 为 了 时 不 时 地 接受 那 无 关 痛 痒 的 几 次 IO 操作 ; 系 
统管 理 员 在 巡 检 完 后 ， 无 所 事 事 地 聊天 玩 游戏 而 你 却 得 按 月 文 付 工资 ， 
你 同样 也 不 愿意 再 为 了 这 些 你 认为 已 经 让 你 觉得 浪费 很 大 的 投资 而 再 次 
投资 购买 什么 网 管 软件 或 者 监控 软件 之 类 的 东西 ， 同 样 你 更 不 愿意 看 到 

















花 钱 购买 的 硬件 在 几 年 后 被 完全 淘汰 并 且 不 被 三 家 文 持 了 ;， 你 也 不 愿意 
每 月 缴纳 那 高 昂 的 电费 和 雇佣 系统 管理 员 的 开销 。 你 每 天 望 洋 兴 叹 ， 有 昨 
天 服务 器 Down 机 了， 生产 停 顿 30 分 钟 ， 损 失 10000 元 ， 今 天 硬盘 损坏 ， 
换 了 一 块 人 硬盘 花 了 2500 元 ， 谁 知道 明天 又 会 有 什么 麻烦 事 呢 ? 








你 好 ， 我 们 这 里 有 机 房 有 机 器 有 存储 有 了 网络， 有 非常 专业 的 操作 人 
员 和 维护 人 员 ， 我 们 帮 你 运行 应 用 程序 ， 我 们 帮 你 存储 ， 你 不 用 担心 硬 
件 淘 汰 的 问题 ， 淘 汰 了 算 我 们 的 。 我 们 给 你 一 个 IP 地 址 ， 你 用 浏览 占 登 
录 这 个 地 址 打开 网 页 就 能 发 送 指令 并 且 看 到 你 的 结果 了 ， 而 且 还 能 看 到 
你 的 结果 被 受 普 保存 了 ， 这 样 你 满意 否 ? 满意 的 话 ， 咀 们 谈 一 谈 你 需要 
付 多 少 钱 来 购买 我 们 这 种 服务 吧 。 你 很 痛快 地 付 了 款 ， 我 们 很 痛快 地 将 
你 眼前 的 乱 摊子 转移 到 了 我 们 这 里 ， 你 花 了 钱 ， 我 们 给 你 收拾 了 乱 捧 
子 。 从 此 你 可 以 解脱 了 ， 你 可 以 专心 去 做 更 重要 的 事情 了 ! 





这 就 是 云 的 本 质 的 一 种 ， 云 其 实 吕 是 一 种 服务 ， 云 本 号 不 是 一 个 物 
质 ， 它 不 是 你 能 摸 到 看 到 的 ， 但 是 它 要 基于 物质 才能 显现 它 的 功效 ， 你 
可 以 把 它 看 作 采 种 能 量 的 体现 ， 即 存在 于 物质 之 上 的 东西 ， 正 因为 这 
样 ， 才 让 人 有 坚 ， 不 细 细 体会 是 看 不 清 这 层 形 而 上 的 东西 的 。《 易 经 》 有 
云 :“ 形 而 上 者 谓 之 道 ， 形 而 下 者 谓 之 器。? 所 以 ， 下 器 者 ， 谓 之 服务 需 
十 存储 十 部 署 管理 软件 ， 上 道 者 ， 谓 之 “ 云 "。 所 以 ， 云 是 一 种 道 ， 是 一 
种 方式 和 方法 ， 而 并 不 是 茶 个 设备 ， 茶 个 软件 ， 当 然 云 这 种 道 要 用 软件 
来 实现 ， 而 且 是 模块 众多 的 一 套 复杂 软件 ， 同 时 要 用 便 件 来 承载 。 

















所 以 ， 云 与 速度 和 性 能 没有 直接 关系 。 束 像 前 儿 年 IPV6 刚 被 炒作 的 
时 候 ， 铺 天 盖 地 的 媒体 乱 鼓 吹 说 IPv6 时 代 下 载 一 部 高 清晰 电影 只 需要 几 
分 钟 ， 笔 者 当时 听 了 就 一 头 筋 水 ，IPv6 协 议 上 再 优化 ， 也 不 可 能 超越 其 
底层 所 承载 的 物质 的 极限 ， 即 互联 网 络 的 硬件 基础 ， 链 路 不 提速 ， 何 来 
上 层 的 提速 ? 云 也 是 一 样 ， 云 本 里 并 不 一 定 就 是 一 个 高 速 蜗 多余 性 的 东 





西 ， 而 是 说 其 底层 的 便 件 一 般 使 用 并 行 计算 集群 和 存储 集群 ， 在 这 个 基 
础 上 云 方 能 表现 出 更 大 的 效能 ， 况 且 云 也 不 是 为 了 提速 而 生 的 。 云 的 最 
重要 的 作用 其 实 是 廉价 高 效 地 利用 资源 并 且 将 硬件 拥有 成 本 和 管理 成 本 
降低 为 几乎 等 于 0， 成 本 模式 全 部 转 为 服务 费 。 当 然 ， 性 能 也 是 云 的 一 
个 重要 考虑 。 























其 实 云 早 就 存在 了 ， 在 互联 网 诞生 的 那 一 天 ， 云 束 一 直 存 在 ， 慢 慢 
发 展 直 到 近 两 年 才 被 炒作 起 来 。 云 其 实 早已 落地 生根 ， 只 不 过 现在 才 钻 
地 面 并 且 铬 人 关注 了 。 可 以 这 么 说 ， 互 联网 服务 就 是 云 服 务 ( 注 意 ， 不 
代表 云 服 务 就 一 定 是 互联 网 服务 ) ， 所 以 有 人 提出 了 EAAS,， Everything 
as a Service。IT 上 服务 即 云 ， 即 云 服 务 。 





目前 存在 一 个 误区 ， 认 为 云 必须 是 集群 ， 必 须 是 让 你 不 知道 数据 在 
哪里 ， 或 者 数据 必须 在 所 谓 “ 很 远 的 地 方 * 却 让 你 感觉 到 其 实 很 近 ， 才 算 
云 。 其 实 这 只 是 云 发 展 过 程 中 的 其 中 一 个 形态 而 已 。 一 台 Web 服 务 右 在 
互联 网 上 提供 服务 ， 你 所 知道 的 只 是 它 的 域名 和 IP 地 址 ， 你 同样 也 不 知 
道 它 是 一 台 单 一 域名 和 JP 的 单 主机 ， 还 是 用 一 个 IP 对 应 多 个 域名 的 虚拟 
主机 ， 你 更 不 知道 网 页 数据 存放 在 哪里 ， 它 可 以 存放 在 本 地 硬盘 ，SAN 
存储 设备 ， 或 者 是 通过 长 距离 网 络 从 一 个 “很 远 的 地 方 ” 取 回 数据 而 发 送 
给 你 ， 难 道 这 不 是 云 么 ? 同样 是 云 。 这 恰好 就 回归 了 云 的 本 质 ， 即 用 户 
根本 不 用 关心 服务 方 采 用 什么 方式 ， 哪 介 它 就 是 一 台 人 简单 的 服务 器 。 


而 且 上 文中 也 论述 过 ， 云 是 “上 道 者 ”， 而 集群 是 “下 器 者 ”， 下 器 者 
征 在 不 断 上 升 和 发 展 的 ， 而 上 道 者 则 是 轮回 往复 的 。 但 是 绝 不 能 说 云 与 
底层 硬件 丸 构 无 关 ， 硬 件 架构 越 庞大 性 能 越 强 ， 则 云层 也 要 跟着 适应 其 
发 展 ， 会 产生 更 多 的 具体 细节 功能 。 云 系统 硬件 正在 向 超大 规模 集群 、 
高 可 靠 性 可 用 性 、 高 动态 扩展 性 方面 发 展 ， 云 系统 的 软件 即 硬件 之 上 的 
云层 ， 正 在 问 功 能 多 样 化 、 管 理 简 便 化 、 按 需 分 配 资源 、 廉 价 方面 发 











展 。 


在 Web 1.0 时 代 ， 网 络 尚 未 广泛 普及 ， 和 带宽 极 低 ，56K Modem 上 网 
时 代 ， 使 得 服务 者 和 浏览 者 双方 都 受到 限制 ， 使 用 者 不 可 能 通过 这 么 低 
的 带宽 来 观看 在 线 视频 或 者 在 线 音 乐 ， 更 不 可 能 下 载 或 者 上 传 一 些 容量 
很 大 的 资源 。 这 直接 制约 了 服务 方 的 发 展 ， 造 成 互联 网 服务 形式 过 于 单 
一 ， 大 多 是 缺少 互动 的 简单 媒体 形式 比如 简单 的 网 页 、 静 态 的 新 闻 之 


类 。 





而 随 独 网 络 硬件 技术 和 软件 技术 的 发 展 及 人 民生 活水 平 的 提高 ， 在 
几 年 的 时 间 内 ，1Mb 甚 至 更 高 带宽 的 网 络 终端 走 入 了 干 家 万 户 ， 直 接 剖 
人 破 了 底层 限制 ， 而 且 计 费 方式 从 按时 间 收 费 转 为 包月 包 年 。 这 直接 使 得 
互联 网 成 为 一 个 随时 可 访问 的 、 永 远 在 线 的 永久 媒介 。 网 民 们 纷纷 从 传 
统 媒体 转 到 互联 网 ， 而 这 又 直接 催生 了 各 种 互联 网 服务 ， 比 如 首 视频 、 
聊天 、 博 客 、 网 络 硬盘 、P2P、 高 清 电 影 等 。 带 宽 的 增加 和 不 限时 在 
线 ， 让 网 民 们 坚 无 顾忌 地 上 传 视频 、 音 频 等 ， 恨 不 得 塞 满 服务 器 ， 一 时 
间 使 得 数据 骏 增 ， 互 联网 一 下 子 步 入 了 Web 2.0 时 代 。Web 2.0 时 代 就 是 
一 个 网 民 互动 、 数 据 骏 增 、 服 务 多 样 的 互联 网 时 代 ， 互 联网 的 作用 真正 
的 得 以 体现 。 























在 这 个 时 代 ， 越 来 越 多 的 人 选择 将 自己 的 数据 存放 在 服务 方 而 不 是 
自己 的 本 地 硬盘 ， 因 为 自己 的 硬盘 永远 不 够 用 ， 而 且 也 懒 于 备份 。 人 们 
通过 网 络 硬 盘 、 邮 箱 、 公 共 FTP、 网 盘 等 方式 将 自己 的 数据 上 传 并 且 得 
到 永久 保存 ， 更 重要 的 是 ， 在 哪里 都 可 以 访问 到 自己 的 数据 ， 只 要 有 网 
络 。 服 务 提供 者 可 以 在 此 基础 上 实现 分 级 的 服务 ， 比 如 免费 服务 和 VIP 
服务 等 多 样 化 的 服务 方式 。 这 便 是 云 的 方式 ， 云 的 思想 。 可 以 说 Web 
2.0 时 代 将 是 云 服 务 的 温床 。 最 近 又 有 人 在 炒作 Web 3.0 的 概念 ， 加 入 物 
联网 元 素来 翻 炒 ， 这 里 就 不 歼 述 了 。 














20.7.2 ”身边 的 各 种 云 服务 


网 站 、QQ、MSN、ICQ、Camfrog、 网 络 人 硬盘、 网络 音 视频 、 网 络 
账本 、 网 络 日 记 、 在 线 文 档 阅 读 、 在 线 游戏 等 ， 仔 细 想 来 ， 这 些 就 在 我 
们 身边 的 东西 ， 都 是 云 服 务 。 我 们 通过 浏览 器 来 接收 Web 网 页 和 通过 
Web 网 页 提交 自己 的 请 求 却 不 关心 服务 方 的 具体 架构 ; 我 们 通过 聊天 工 
有 具 和 其 他 人 就 像 在 同一 房间 内 一 样 通过 文字 语音 视频 聊天 而 并 不 知道 自 
己 和 其 他 人 是 否 连 接 了 同一 台 物 理 服 务 器 ; 我 们 上 传 自己 的 资料 到 网 络 
硬盘 却 不 关心 服务 方 有 没有 及 时 备份 或 者 我 的 数据 是 不 是 被 服务 方 擅自 
迁移 到 了 慢 速 的 SATA 人 硬盘 存放 ; 我 们 在 网 页 上 阅读 各 式 各 样 的 文档 却 
根本 不 用 安装 对 应 的 文档 浏览 工具 。 








还 有 ， 中 文 输入 法 的 革新 ， 输 入 法 已 经 是 与 时 俱 进 ， 充 分 利用 互联 
网 的 便捷 。 比 如 人 条 拼音 输入 法 ， 可 以 随时 更 新 专项 词 库 ， 各 行 各 业 的 不 
断 出 现 的 新 名 词 统一 由 服务 器 收集 并 且 提 供 下 发 更 新 ， 你 再 也 不 用 一 个 
字 一 个 字 地 痪 ， 而 且 其 同样 步 入 了 云 服 务 时 代 ， 每 个 用 户 可 以 将 自己 的 
词 库 信息 上 传 到 服务 器 ， 这 样 ， 不 管 你 在 哪 台 电脑 上 使 用 输入 法 ， 词 库 
言 轧 都 会 实时 同步 以 满足 你 的 输入 习惯 和 要 求 。 并 且 服 务 露 整 词 输入 
时 ， 程 序 还 会 去 服务 器 端 动态 检索 是 否 有 相同 音 的 词 航 其 他 人 输入 过 ， 
也 即 是 所 谓 “ 云 输入 法 ”。 不 过 这 个 云 却 是 非常 实用 的 ， 比 如 茶 些 同 首 
词 ， 单 靠 软件 智能 是 无 法 正确 输入 的 ， 但 是 借助 云 ， 你 可 以 看 到 其 他 人 
对 于 这 个 拼音 所 输入 的 词汇 ， 你 把 所 有 人 的 知识 拿 来 用 了 ， 这 确实 非常 
让 人 兴奋 ! 同时 你 曾经 输入 过 的 词汇 也 会 动态 地 被 发 送 到 服务 器 问 保 
存 ， 也 会 页 献 给 他 人 。 这 样 就 形成 了 一 个 “个 体 一 整体 ”的 系统 ， 个 体 的 
行为 页 献 给 整体 ， 整 体 又 反 过 来 影响 个 体 、 加 速 个 体 的 发 展 ， 个 体 整 体 
之 间 相互 促进 ， 形 成 一 个 有 机 的 智能 整体 ! 








20.7.3 ”进化 还 是 退化 





独立 计算 回归 集中 计算 ， 是 退化 还 是 进化 ? 都 不 是 ， 是 轮回 。 公 共 
的 集中 分 时 计算 早 在 40 年 前 束 出 现 了 ， 随 后 逐渐 萎缩 。 世 纪 相 交 时 刻 的 
前 后 几 年 ， 用 户 都 各 自 购买 Infrastructure 自 行 计算 和 存储 ， 但 是 为 何 进 
入 新 世纪 之 初 ， 又 逐渐 兴起 回归 到 集中 计算 时 代 呢 ? 笔者 认为 这 依然 应 
了 中 国 的 一 名 古话 :“ 分 久 必 合 ， 合 久 必 分 。? 即 万 物 缘 在 一 个 轮回 中 不 
斯 地 发 展 ， 到 一 定 程 度 就 会 改变 成 最 初 的 形态 ， 但 是 承载 它 的 物质 是 连 
续 不 断 地 积累 和 提升 的 ， 所 被 轮回 的 只 是 其 上 的 那 层 能 量 ， 谓 之 道 ! 便 
件 不 断 地 发 展 ， 其 上 的 道 却 是 不 断 轮 回 地 往 前 发 展 ， 这 种 现象 存在 于 万 
物 之 间 ， 不 能 用 什么 科学 解释 ， 只 能 说 这 是 自然 的 规律 。 











比如 存储 系统 的 演变 ， 从 独立 存储 DAS 发 展 到 网 络 集中 存储 SAN， 
你 也 可 以 称 SAN 为 一 个 云 服务 ， 很 恰当 ， 而 如 今 随 着 盘 片 密度 的 不 断 增 
高 和 SSD 固 态 蕊 片 存 储 的 发 展 ， 好 像 存储 系统 有 那么 点 回归 独立 存储 的 
趋势 。 比 如 在 1U 的 服务 器 上 插 满 12 块 2.5 英 寸 的 SAS 硬 盘 ， 其 提供 的 容 
量 和 速度 也 是 相当 可 观 的 。 





理想 : ”就 像 笔者 个 人 曾经 预测 的 一 样 ， 如 果 存 储 介质 真 的 能 
够 发 展 到 惊人 的 蜗 宅 度 和 高 速度 ， 谁 还 会 插 个 卡 再 用 线 统 连 接 
到 茶 个 很 远 的 地 方 只 为 了 存储 数据 呢 ? 更 甚 一 步 ， 集 中 存储 轮 
回 至 独立 存储 之 后 ， 什 么 时 候 可 能 再 轮回 到 集中 存储 呢 ? 无线 
时 代 。 随 着 无 线 电 技 术 的 发 展 ， 人 们 友 现 可 以 用 无 线 电 通 信和 直 
接 到 地 球 上 甚至 宇宙 中 茶 处 来 存储 数据 ， 此 时 我 还 需要 在 本 地 
使 用 大 容量 的 必 片 么 ? 至 此 我 更 加 坚信 “上 道 者 ”的 轮回 往复 。 
然而 , “下 器 者 ?是 侣 一 定 也 是 永远 前 进发 展 而 不 轮回 呢 ? 笔者 
给 不 出 答案 ， 如 果 古 玛雅 人 的 预测 是 真 的 ， 那 或 许 是 的 ， 只 不 
过 一 个 轮回 要 经 历 太 长 时 间 而 已 。 




















20.7.4 云 发 展 展望 


网 线 可 以 代步 ， 网 线 比 宇宙 飞船 速度 快 ， 网 线 上 可 以 传 来 香喷喷 的 
染 看 和 服装 ， 网 线 可 以 做 任何 事情 ， 给 我 一 根 网 线 ， 你 可 以 关 我 禁闭 ， 
如 有 果 要 加 上 一 个 期 限 的 话 ， 可 以 是 一 万 年 。 随 着 互联 网 和 电子 商务 的 发 
展 ， 越 来 越 多 的 人 成 为 宅 人 ， 他 们 的 工作 以 Homeoffice 为 主 ， 生 活 上 也 
是 足 不 出 户 。 这 些 宅 人 们 充分 享受 云 的 便利 ， 腾 云 欧 田 ， 通 过 网 络 订餐 
送水 购物 ， 活 的 怡然 自得 。 正 所 谓 : 白云 炸 上 白云 毅 ， 和 白云 裔 下 白云 
仙 ; 白云 仙人 布 网 线 ， 原 来 仙人 也 是 宅 。 








当 入 户 网 络 带 冤 达到 很 高 的 数值 之 后 ， 更 局 级 别 的 云 服务 将 彻 抵 丰 
履 PC 市 场 ， 用 户 都 转 癌 了 集中 计算 和 集中 存储 。 有 人 或 许 会 质疑 ， 就 
算是 1Gb 的 以 太 网 到 尸 ， 其 提供 的 带宽 果真 能 够 满足 将 来 的 存储 需要 
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这 一 点 我 们 可 以 做 一 个 论证 ， 现 在 你 就 可 以 试 试看 ， 从 移动 硬盘 上 
复制 一 个 文件 到 你 的 本 地 人 硬盘， 速度 有 多 少 ? 充其量 四 五 十 兆 吧 ， 这 算 
好 的 了 ，1Gb 的 理论 速率 是 100MB 每 秒 ， 除 去 各 种 开销 ， 咱 们 就 给 他 算 
30MB 每 秒 。 目 前 来 讲 ， 这 个 速率 相当 于 本 地 硬盘 的 大 部 分 操作 情况 下 
的 速度 了 ， 这 就 完全 可 以 满足 要 求 了 。 





或 许 还 有 人 质疑 ， 入 户 带 宽 达 到 1Gb 的 时 候 ， 那 时 候 的 应 用 程序 和 
对 数据 的 需求 量 一 定 是 得 寸 进 尺 ， 影 请 不 仅 是 1080P 了 ， 而 是 4080P， 家 
里 都 用 高 清 电视 墙 或 者 投影 仪 了 。 那 也 不 用 担心 ， 就 算是 4080P，1GPb 
的 带宽 也 足够 流 媒体 的 在 线 播 放 要 求 。 








我 们 要 理解 的 一 点 是 ， 云 即 是 服务 ， 我 们 通过 网 络 拿 过 来 的 是 内 容 
的 表示 ， 而 不 是 内 容 的 裸 存储 或 者 计算 。 比 如 原来 我 需要 从 网 络 上 下 载 











一 个 数据 库 程 序 安装 文件 ， 好 几 GB， 我 还 是 需要 等 上 一 段 时 间 才 能 下 
载 完 ， 还 得 安装 配置 ， 不 方便 。 





但 是 你 筷 了 一 件 事情 ， 云 服务 时 代 ， 是 不 需要 你 目 己 运行 数据 库 
的 ， 你 只 需要 从 云 里 拿 到 最 终 处 理 并 且 表 示 的 数据 即 可 。 这 些 处 理 后 的 


内 容 有 多 少 呢 ?很 少 的 网 络 流量 ， 除 非 是 高 清 视频 等 Rich Media。 或 者 
你 需要 下 载 一 个 Windows 7 的 安装 镜像 ，10GB 用 来 安装 在 你 本 地 ,， “无 
法 安装 Windows 7， 程 序 未 能 检测 到 本 地 硬盘 ”， 你 将 会 得 到 这 个 提示 ， 
你 还 是 忘 了 一 件 事情 ， 你 此 时 还 需要 操作 系统 么 ?你 在 操作 系统 中 得 到 
的 服务 ， 云 都 提供 了 。 或 者 又 有 人 质疑 , “ 谁 说 的 ? 操作 系统 能 安装 
SCSI 卡 驱动 程序 ， 云 能 安装 么 ? ”如 果真 有 人 这 么 问 ， 我 只 能 无 语 ， 除 
非 这 人 真是 一 个 患 有 “驱动 程序 安装 ”强迫 症 患者 。 或 者 还 有 人 质疑 ， 云 
能 玩 网 游 么 ?能 玩 对 硬件 要 求 非常 高 的 大 型 3D 游 戏 么 ? 当然 能 了 ， 而 
且 现在 就 已 经 实现 了 。 























说 明 : ”Cyrsis《 孤 岛 危机 》 是 我 回 往 玩 一 玩 的 一 个 画面 效果 至 
今 无 人 能 敌 的 游戏 ， 然 而 它 对 显卡 的 要 求实 在 变态 ， 至 今 尚 未 
进行 体验 。 那 么 ， 对 于 一 款 连 高 端 显 卡 都 无 能 为 力 的 游戏 ， 云 
有 何 能 耐 应 付 ? 你 筷 了 一 件 事 ， 家 用 显卡 无 能 为 力 不 代 表 专 业 
泻 染 集 群 也 无 能 为 力 。 好 莱 坞 用 专业 演 染 主机 集群 来 实现 
Crysis 的 泻 染 实在 是 小 儿科 了 ， 演 染 之 后 的 高 清 图 片 帧 通过 网 
络 传输 至 用 户 的 显示 器 ， 用 户 的 游戏 操作 数据 通过 网 络 发 送 至 
集群 游戏 泻 染 服 务 从 而 实现 互动 ， 整 体 体 验 与 在 本 机 运行 游戏 
一 样 。 有 人 甚至 用 手机 玩 Crysis， 这 不 是 做 梦 ， 已 经 真 的 实现 
了 ， 这 个 云 演 染 系统 正 处 于 测试 阶段 ， 相 信和 不 久 便 会 真正 对 外 
开放 。 














云 服 务 是 否 也 会 步 ERP 或 者 ITIL 的 后 侍 呢 ? ITIL 尚未 落地 ， 因 为 它 





根本 就 没有 落地 的 根基 。 而 云 是 个 早已 落地 的 产品 ， 目 前 正在 以 各 种 形 
式 成 长 。 要 说 云 是 革命 的 话 ， 那 这 人 句 话 要 在 互联 网 发 展 初期 束 该 说 。 





云 就 像 一 个 早已 被 播种 ， 经 历 了 几 十 年 之 后 长 大 成 人 并 且 一 下 子 出 
现在 人 们 面前 的 风华 正 忒 的 少年 ! 云 服务 相对 于 ERP 和 ITIL 来 说 有 本 质 
的 区 别 ， 虽 然 三 者 都 是 对 于 信息 化 实现 的 方式 和 方法 。 云 有 其 存在 的 根 
基 ， 因 为 其 作用 在 各 个 层次 一 基础 设施 层 IAAS， 平 台 层 PAAS， 内 容 
计算 表示 供给 屋 SAAS， 任 何人 都 有 机 会 并 且 已 经 在 享用 云 服 务 ， 凡 是 
与 互联 网 有 关系 的 人 或 企业 都 离 不 开 云 服务 了 。 








而 ERP 和 ITIL 属 于 一 种 企业 生产 和 管理 方式 和 流程 的 信息 化 过 程 ， 
需要 这 种 服务 的 企业 少 之 又 少 ， 就 算 有 了 需求 ， 实 现 起 来 更 是 难 上 加 
难 ， 其 本 质 原因 还 是 底层 物质 难以 承载 上 层 的 能 量 。 就 像 你 让 一 个 入 道 
尚 浅 的 人 去 修炼 一 种 高 深 的 秘籍 ， 那 是 基本 不 可 能 的 事情 ， 因 为 其 悟性 
和 道行 根本 就 达 不 到 那个 境界 。 然 而 ，ERP 和 ITIL 是 否 可 以 借助 云 服 务 
来 让 自己 站 住 脚 呢 ? 已 经 有 一 些 基于 云 服务 模式 的 ITIL 或 者 伪 ITIL 产 品 
出 现 。 让 我 们 静观 其 变 吧 ! 








20.7.5 ” Micro、Mini、Normal、Huge、Gird 弹 性 数据 中 心 





目前 已 经 有 厂商 开始 打包 卖 弹 性 核 了 ， 或 者 直接 出 售 或 者 出 租 软 数 
据 中 心 。 比 如 将 知 干 刀片 与 高 密度 磁盘 柜 以 及 微型 交换 机 打包 到 一 个 或 
者 儿 个 机 柜 中 ， 上 面 再 窗 盖 以 弹性 层 ， 比 如 虚拟 机 管理 系统 以 及 分 布 式 
存储 系统 ， 将 这 样 一 个 微型 的 弹性 软 核心 作为 一 个 可 提供 IaaS 服 务 的 整 
体 交 付 给 用 户 。 








或 者 再 在 这 个 软 核 之 上 禾 蓄 一 层 业 务 展 现 于 管理 层 ， 直 接 交 付 到 





SaaS 层 。 一 柜 或 者 数 柜 交 付 的 弹性 基础 设施 ， 可 以 称 之 为 Micro Cloud， 
有 些 广 商 干 脆 使 用 集装箱 当做 容器 来 盛 放 十 几 个 机 柜 ， 里 面 消防 、 监 

控 、 供 电 、 散 热 等 都 已 经 做 好 ， 这 种 集装箱 交付 方式 又 可 以 称 其 为 Mini 
Cloud。 对 于 以 集装箱 为 交付 单位 的 Mini Cloud， 当 需要 在 短 时 间 内 迅速 
部 闭 IT 资 源 ， 或 者 临时 性 的 应 付 一 下 业务 峰值 而 需要 增加 IT 资源 的 时 

候 ， 这 种 集装箱 就 可 以 派 上 有 用场。 比如 发 生 了 战争 ， 某 重要 数据 中 心 被 
摧毁 ， 那 么 便 可 以 使 用 集装箱 快速 重新 部 署 ， 再 比如 某 机 构 机 房 空间 不 
足 ， 那 么 便 可 以 临时 性 的 使 用 集装箱 来 应 付 ， 或 者 直接 将 集装箱 作为 外 
辅助 数据 中 心 。 根 据 交 付 层次 的 不 同 ， 可 以 只 交付 集装箱 十 供电 冷却 消 
防 监控 设施 十 机 柜 ， 也 可 以 将 一 定 容量 的 计算 与 存储 设备 整合 进去 ， 做 
到 这 一 层 便 算 是 IaaS 层 了 ， 之 后 还 可 以 继续 同 其 中 整合 更 上 层 的 东西 ， 

比如 PaaS、SaaS。 再 大 一 个 档次 ， 就 是 正规 的 数据 中 心 了 ， 数 百 个 机 柜 
的 容量 ， 可 以 称 之 为 Normal Cloud。 那 么 再 大 一 个 档次 呢 ? 也 就 是 多 个 
数据 中 心 之 间 的 互联 网 业务 互联 了 ， 这 样 束 形成 了 Seed Cloud， 每 个 
Normal Cloud 都 作为 Seed Cloud 的 一 枚 种 子 而 存在 。 再 之 后 呢 ? 这 些 大 
种 子 将 会 弥散 开 来 ， 种 子 的 粒度 越 来 越 小 ， 小 到 每 一 个 节点 都 可 以 作为 
一 个 种 子 ， 这 就 是 大 范围 互联 网 网 格 时 代 了 ， 也 束 是 云 2.0 时 代 ， 此 时 

可 以 称 其 为 mnfinite Cloud。 整 个 发 展 过程 和 形态 如 图 20-39 所 示 。 














图 20-39 云 发 展 的 5 个 阶段 
20.7.6 ”弹性 层 的 出 现 将 会 让 数据 中 心 拥 有 两 套 性 能 指标 


弹性 数据 中 心 将 会 有 两 个 主要 指标 : 硬 核 的 计算 和 存储 能 力 、 软 核 
的 计算 与 存储 能 力 。 比 如 一 台 8 刀 片 十 庶 入 式 交 换 机 十 高 密度 磁盘 柜 的 
机 箱 ， 其 能 提供 的 原生 固有 操作 系统 承载 数量 为 8， 计 算 能 力 为 若干 
Flops 或 者 若干 TPC-C 指 标 ， 原 生存 储 容量 为 100TB; 但 是 增加 了 弹性 层 











之 后 ， 其 可 扩展 的 0S 数 量变 为 8xn， 等 效 计算 能 力 被 灵活 扩张 ， 对 于 存 
储 ， 内 置 的 Thin 与 Dedup 引 擎 可 以 增加 存储 的 弹性 ， 分 布 式 的 文件 系统 
或 者 卷 管理 系统 可 以 增加 存储 系统 灵活 性 。 这 样 ， 这 个 弹性 核 可 以 在 计 
算 与 存储 方面 具有 两 个 指标 : 原生 计算 与 存储 资源 指标 和 弹性 扩张 之 后 
的 计算 与 存储 资源 指标 。 比 如 原生 存储 容量 为 50TB， 弹 性 存储 容量 关 

100TB 甚 至 500TB， 视 Thin 与 Dedup 的 效能 而 定 。 


20.8 尘埃 沙 定 一 一 云 所 体现 出 来 的 哲学 思想 
20.8.1 轮回 往复 一 一 云 的 哲学 形态 


说 明 : 不 知道 大 家 和 是否 玩 过 游戏 《质量 效应 2》， 或 者 看 过 
《黑客 帝国 》 三 部 曲 。 前 者 是 游戏 ， 后 者 是 电影 ， 两 者 都 是 科 
约 题 材 。 但 是 二 者 却 都 体现 出 了 一 种 轮回 效应 。 前 者 的 最 终 
Boss 是 由 人 体 和 其 他 无 机 物 共 同 组 成 的 一 个 人 形 的 庞然大物 ; 
在 后 者 的 结局 中 ， 成 千 上 万 的 机 需 也 在 空中 形成 了 一 个 人 形 。 
虽然 这 种 情景 只 是 人 的 想象 ， 但 是 绝 不 是 空 六 来 风 ， 它 体现 了 
一 种 哲学 ， 一 种 轮回 嵌 套 的 哲学 。 再 比如 科 约 电影 《 黑 衣 人 
2》 的 结尾 ， 把 宇宙 描绘 成 一 个 怪 组 手中 的 玩具 ， 其 实 宇 宙 是 
男 外 一 个 世界 中 的 玩具 球 。 还 有 ， 所 请 ;:“ 一 沙 一 世界 ， 一 花 
一 天 和 莹 。” 这 些 其 实 本 质 上 都 体现 了 这 种 轮回 往复 的 世界 观 。 


云 也 是 这 种 世界 观 的 体现 。 表 面 上 看 好 像 云 是 一 个 独立 的 个 体 ， 其 
实 它 内 部 是 由 无 穷 的 二 级 个 体 在 起 作用 ， 二 级 个 体 又 可 以 再 继续 往 下 
分 ; 同样 ， 向上， 云 可 以 合并 ， 多 个 云 可 以 共同 组 成 一 个 更 大 的 云 ， 轮 
回 往复 。 


云 除 了 体现 形态 上 的 轮回 之 外 ， 还 体现 了 个 体 之 间 的 关系 ， 大 量 个 
体 的 动作 目 然而 然 地 形成 了 整体 的 动作 ， 而 这 个 整体 却 又 反 过 来 体现 了 
大 多 数 个 体 的 共同 意愿 和 思想 以 及 物质 形态 。 比 如 麦田 怪圈 、 高 楼 大 
厦 、 蜂 蛛 做 网 、 天 空 云 梯 、 鱼 群 、 蚁 群 等 。 我 们 可 以 在 空中 用 一 只 巨大 
的 手 来 画 出 麦田 怪圈 ， 或 者 用 橡 皮 泥 来 担 出 一 堆 高 楼 大 厦 模型 ， 但 是 我 
们 却 无 法 想象 通过 个 体 之 间 的 协作 和 大 量 个 体 的 劳作 ， 渺 小 的 个 体 也 能 
够 建造 出 规则 的 巨大 的 建筑 ， 并 且 还 可 以 通过 外 形 形 态 来 传达 各 大 多 数 





个 体 的 共同 思想 。 


最 后 ， 人 群 可 以 体现 人 的 意识 的 组 合 ; 计算 机 群 也 一 样 可 以 体现 机 
器 的 意愿 。 目 前 来 讲 ， 机 器 体现 的 其 实 都 是 人 的 意愿 ， 但 是 不 排除 机 器 
自身 进化 之 后 可 以 产生 自己 的 意愿 。 物 质 群 和 意识 群 ， 一 个 在 下 ， 为 阴 
为 器 ; 一 个 在 上 ， 为 阳 为 气 。 这 两 者 螺旋 上 升 地 发 展 。 











云 是 一 种 技术 思想 上 的 轮回 表现 ， 也 就 是 从 独立 计算 转变 为 集中 计 
算 的 过 程 ， 仿 佛 又 回 到 了 上 世纪 的 大 型 计算 机 时 代 。 但 是 ， 虽 然 思想 轮 
回 穿越 了 了 ， 承 载 这 种 思想 的 物质 可 没有 轮回 ， 物 质 总 是 不 断 前 进 的 ， 不 
会 回头 ， 除 非 世 界 末日 到 来 。 


同时 ， 云 系统 本 身 也 是 由 阴 和 阳 组 成 的 。 阳 表现 为 云 系统 中 的 商业 
运营 模式 以 及 所 有 的 软件 ， 阴 则 表现 为 承载 这 些 思 想 以 及 运行 软件 所 需 
的 人 硬件 物质 基础 架构 ， 即 服务 器 、 和 存储 和 网 络 等 设备 。 阳 又 是 一 种 形 而 
上 的 东西 ， 而 阴 则 是 形 而 下 ， 形 而 上 者 为 道 / 气 ， 形 而 下 者 为 峰 。 整 个 
系统 是 一 个 阴阳 和 合 相 衡 的 生态 系统 。 











20.8.2 ”智慧 之 云 一 一 云 的 最 终 境界 


云 也 可 以 理解 为 智 臣 的 结晶 ， 一 个 超级 乔 芒 实体 ， 就 像 《 黑 客 季 
国 》 中 的 Matrix 角 色 一 样 。 由 大 量 个 体 组 成 的 智慧 体 ， 个 体 只 是 按照 给 
目 己 的 那 一 小 部 分 规则 在 运行 ， 而 整体 则 显示 为 具有 个 体 属性 的 ， 但 又 
有 升华 的 超级 智 总 。 





最 后 ， 人 的 意识 组 合成 了 社会 ， 计 算 机 的 意识 也 
会 ， 云 的 进化 ， 最 后 就 会 成 为 一 个 计算 机 社会 。 这 便 
上 映 了 全 体 个 体 的 镶 惹 结晶 ， 并 且 不 断 地 进化 。 


组 
人 


20.8.3 ” 云 在 哲学 上 所 具有 的 性 质 





(1) 大 规模 的 云 由 大 量 个 体 组 成 ， 个 体 的 具体 属性 可 能 不 同 ， 但 
是 其 本 质 部 相同 。 


(2) 任何 个 体 进入 云 中 将 被 冲淡 ， 将 被 吸入 成 为 云 的 一 部 分 。 


VW 


(3) 个 体 连续 地 工作 才 形 成 了 整个 云 的 动作 。 


YL 


(4) 个 体 的 损耗 、 损 毁 、 代 谢 交 答对 整个 云 影 响 不 大 。 


(5) 云 有 它 的 寿命 ， 虽然 可 以 通过 代谢 来 不 断 更 换 衰 老 的 个 体 ， 
但 是 最 终 会 像 生命 体 一 样 完全 消亡 。 


(6) 大 云 可 以 捕获 、 否 并 和 消化 其 他 小 云 。 
(7) 云 有 智能 ， 云 会 进化 。 
(8) 云 和 云 之 间 将 会 形成 生态 关系 ， 形 成 云 社会 。 


(9) 社会 即 云 ， 全 人 类 即 云 ， 太 阳 系 即 云 ， 银 河 系 即 云 ， 宇 宙 即 
云 。 宇 宙 也 是 个 体 ， 多 个 宇宙 再 组 成 云 ， 轮 回 往 复 ， 无 穷 无 尽 。 














20.8.4” 云 基础 架构 的 艺术 与 哲学 意境 


另外 ， 我 发 挥 了 一 下 想象 力 ， 将 云 想象 成 为 一 部 精密 机 械 ， 并 画 了 
一 张 图 ， 如 图 20-40 所 示 。 和 硕 望 通过 这 张 图 能 够 让 大 家 更 加 深刻 的 认识 
云 这 个 东西 。 这 张 图 片 其 实 是 可 以 运动 的 ， 大 家 可 以 联系 我 以 获得 这 张 
图 片 的 动态 版 。 这 张 图 是 对 一 片 小 云 种 子 的 一 个 总 结 。 最 中 心 的 物质 本 
源 ， 也 就 是 硬 核心 。 在 这 层 便 核心 之 外 ， 包 囊 一 层 弹 性 存储 层 ， 包 括 可 


灵活 扩展 的 集群 SAN、 集 群 NAS 或 者 集群 /分 布 式 文件 系统 等 ， 以 及 
Thin、Dedup 等 增加 数据 弹性 的 技术 ， 还 有 增加 管理 灵活 性 的 虚拟 化 技 
术 。 之 外 再 履 兰 以 弹性 计算 层 ， 最 后 履 关 以 资源 管理 层 ， 最 外 面 则 是 运 
营 层 ， 包 括 业 务 展现 子 层 与 运营 管理 子 层 。 至 此 这 片 云 就 彻底 运转 起 来 
于 


























图 20-40 “小 云 的 5 层 结构 





大 家 再 仔细 分 析 一 下 这 张 图 ， 会 发 现 其 中 包含 有 无 穷 奥 妙 。 你 先 想 
象 它 是 一 台电 动机 ， 其 中 每 个 圈 都 可 以 旋转 ， 谁 来 给 它 提供 能 量 呢 ? 当 
然 ， 云 数据 中 心 必 须 有 足够 的 电力 ， 电 动机 要 旋转 ， 需 要 有 电 刷 给 其 供 
电 。 大 家 可 以 看 看 业务 展现 层 与 运营 管理 层 ， 这 两 个 模块 是 不 是 很 像 两 
把 电 刷 ， 将 用 户 需 求 这 种 动力 不 断 地 提供 给 中 心 部 件 ， 从 而 让 这 台电 动 
机 持久 地 转动 。 如 果 没 有 了 用 户 需 求 ， 或 者 你 已 经 想 不 出 足够 新 闲 的 业 
务 展 现 方 式 ， 那 么 束 算 有 电 ， 这 个 数据 中 心 也 无 法 再 运营 下 去 了 。 














a 计算 存储 硬 核 层 : 处 于 这 人 台 精 密 机 械 的 最 核心 层次 的 ， 就 是 硬 核 
了 ， 也 是 运转 最 快 而 且 最 人 硬 最 实 的 一 个 角色 。 在 数据 中 心中 表现 
为 大 量 的 服务 器 和 存储 设备 ， 这 个 核心 是 云 数据 中 心 的 物质 本 
源 ， 也 是 密度 最 高 的 实体 。 硬 核 相 当 于 云 中 的 种 子 。 

a 存储 弹性 软化 层 : 这 一 层 紧密 地 包 囊 在 物质 实体 之 外 ， 通 过 分 布 
式 、 集 群 、 虚 拟 化 、Thin、Dedup、Snapshot、Clone 等 技术 ， 将 
原本 高 密度 的 硬 实 体 充 分 软化 ， 为 上 面 的 层次 提供 一 个 弹性 软化 
的 基 座 。 

a 计算 弹性 软化 层 : 在 弹性 软化 的 存储 基 座 之 上 ， 计 算 资 源 也 通过 
各 种 主机 虚拟 化 技术 手段 被 充分 地 软化 。 

a 资源 管理 调度 层 : 物质 硬 核 十 富有 弹性 的 软化 计算 与 存储 资源 
层 ， 共 同 构成 了 一 个 系统 内 的 阴 与 阳 相 合 的 资源 核心 。 资 源 管理 











与 调度 层 起 到 一 个 适 配 内 外 层次 的 作用 ， 外 层 阳 气 的 生发 需要 底 
层 物质 源 果 的 积聚 、 分 配 和 运 化 ， 如 何 将 这 个 系统 内 的 资源 进行 
民 好 的 调动 与 配合 ， 便 是 这 一 层 的 任务 。 这 一 层 中 存在 诸多 角 

色 ， 比 如 资源 监控 、 资 源 分 配 与 调度 、 并 行 计算 分 配 与 调度 等 。 
业务 展现 运营 层 : 这 一 层 则 是 阳 气 外 发 外 散 与 运 化 升华 的 至 极 之 
层次 ， 也 是 整个 云 数 据 中 心 的 精神 本 源 。 中 心 的 硬 核 为 太阴 ， 这 
一 层 则 为 太阳 ， 为 最 终 将 辐射 展现 出 去 的 一 层 ， 也 是 外 界 直 接 可 
见 的 一 层 。 表 里 相合 ， 一 为 实 一 为 虚 ， 一 为 阴 一 为 阳 ， 一 为 物质 
一 为 精神 。 








整个 云 数 据 中 心 便 是 一 个 阴阳 表 里 虚 实 相 合 的 一 个 有 机 体 。 这 也 正 
像 一 个 星云 ， 不 断 孕育 出 [微软 用 户 1] 星 体 ， 对 应 着 云 基 础 架构 之 上 不 断 
孕育 着 各 种 应 用 业务 服务 。 生 物体 、 社 人 会、 企业、 人 公司、 宇宙， 其 实 都 
是 这 样 演化 的 ， 那 么 可 以 这 么 说 ， 系 统 即 云 ， 云 即 系统 ， 云 是 大 统一 的 
系统 模型 。 








另外 ， 大 家 可 以 继续 领情 一 下 ， 这 片 小 云 种 子 ， 是 否 束 是 一 台 计 算 
机 呢 ? 便 核心 束 相 当 于 人 硬件 ， 看 得 见 措 得 着 ， 外 层 的 弹性 存储 层 ， 相 当 
于 计算 机 的 存储 系统 ， 任 何 计算 机 启动 时 首先 都 要 去 从 存储 系统 里 读 入 
代码 执行 ， 再 外 层 束 是 操作 系统 内 核 屋 ， 基 于 存储 层 的 支撑 ， 内 核 得 以 
局 动 ; 再 往外 就 是 操作 系统 管理 界面 层 卫 ， 利 用 界面 来 管理 和 分 配 各 种 
计算 机 资源 ， 其 中 并 行 计算 调度 模块 也 相当 于 操作 系统 中 的 线程 调度 器 
等 角色 ; 最 外 面 一 层 ， 也 就 相当 于 计算 机 的 应 用 程序 层 了， 各 式 各 样 的 
应 用 程序 ， 对 应 着 云 中 各 式 各 样 的 业务 展现 。 各 种 应 用 (业务 展现 ) 可 
以 在 一 台 计 算 机 上 【〔 云 中 )〉 迅速 的 安装 番 载 “部署 ) 。 那 么 ,“ 云 即 计 
算 机 ”， 这 人 句 话 ， 不 记得 之 前 哪 位 提 到 过 ， 至 此 我 也 彻底 理解 了 。 云 为 
何 就 是 计算 机 ? 云 由 大 量 计 算 机 组 成 ， 而 其 堆 县 之 后 的 样子 和 架构 ， 仍 


























然 还 是 一 台 计 算 机 。 计 算 机 各 处 总 是 体现 独 轮 回 的 形态 。 为 何 呢 ? 因为 
它 骨 子 里 就 是 由 计算 机 组 成 的 ， 它 永远 造 不 出 异形 ， 只 会 造 出 它 目 己 ， 
除非 它 有 上 自己 的 强烈 同 往 ， 和 希望 目 身 问 菜 个 录 形 发 展 。 这 种 行为 ， 骨 子 

里 已 经 根植 到 了 基因 当中 ， 这 种 上 下 联系 看 上 去 非常 微妙 。 





对 FE” Ks 
(1) 计算 机 加 电 ， 硬 件 启 动 - 云 数据 中 心 便 件 核心 层 局 动 。 


(2) 从 磁盘 读 取 代码 以 便 有 局 动 O0S -~ 云 中 的 数据 承载 层 。 各 种 分 布 
式 FS 分 布 式 DB，key-value DB 等 。 


(3) OS 启动 云 中 的 虚拟 计算 层 ， 生 成 大 量 VM。 


(4) 启动 到 用 户 界面 ~ 云 中 的 管理 层 ， 比 如 微软 System ”Center， 
Novell Cloud Manager， 思 科 UCS 的 Unified Manager 等 。 


(5) 内 核 的 线程 调度 器 » 云 中 的 并 行 计算 调度 层 ， 比 如 Mapreduce 
以 及 其 衍生 物 。 


(6) OS 提 供 的 开发 API，VC，Java 云 中 的 PaaS 开 发 平台 。 


(7) 各 种 运行 在 OS 上 的 应 用 程序 ~ SaaS 展 现 层 ， 各 种 云 业 务 。 





又 比如 各 种 分 布 式 文件 系统 ， 其 本 质 是 什么 呢 ? 其 实 还 是 本 地 文件 
系统 思想 的 外 散 。 本 地 文件 系统 通过 一 个 跟 入 口 ， 然 后 一 级 指针 、 二 级 
指针 、 三 级 指针 ， 一 直到 最 后 一 层 0 级 块 用 来 存放 最 终 的 文件 数据 。 而 
分 布 式 文件 系统 ， 大 家 思考 一 下 ， 对 称 式 分 布 式 文件 系统 ， 其 各 级 元 数 
据 其 实 也 都 是 分 部 到 所 有 节点 当中 的 ， 比 如 一 级 指针 用 1 个 节点 承担 ， 
二 级 指针 用 2 个 市 点 承担 ，3 级 指针 用 3 个 节点 承担 ， 这 样 可 以 将 文件 系 











统 分 布 到 非常 大 的 范围 。 或 者 干脆 把 所 有 指针 元 数据 放 到 一 个 节点 中 ， 
那么 这 个 市 点 也 就 是 MDS， 这 样 束 属 于 非 对 称 式 集群 文件 系统 了 。 但 是 
人 不定 怎么 弄 ， 其 本 质 其 实 就 是 本 地 文件 系统 的 思想 。 











至 此 , “轮回 ?的 道理 在 计算 机 世界 已 经 充分 展现 了 出 来 。 





20.8.5” 纵 观 存 储 友 展 时 代 一 一 云 及 展 预 测 


如 图 20-41 所 示 为 存储 系统 的 发 展 时 代 。 这 张 图 所 要 表达 的 两 个 最 
重要 的 地 方 ， 一 个 是 所 谓 “ 小 云 时 代 ” 与 “大 云 时 代 ”， 男 一 个 则 
是 “分 ”与 “ 合 ” 的 轮回 变化 。 











图 20-41 存储 系统 架构 变迁 发 展 





早期 的 下 连 存储 ， 每 个 计算 节点 都 有 各 自 的 存储 系统 ， 计 算 市 反之 
间 的 存储 系统 没有 共享 ， 属 于 分 ; 今天 的 网 络 存储 时 代 ， 所 有 计算 节点 
可 以 共享 访问 同一 个 存储 系统 ， 属 于 合 。 当 前 ， 由 于 单 台 网 络 存储 系统 
性 能 受 限 ， 集 群 存储 系 统 的 地 位 开始 上 升 ， 利 用 大 量 分 开 的 存储 习 反 来 
获得 更 高 的 性 能 扩展 性 ， 以 满足 数据 爆炸 时 代 的 需求 ， 这 又 属于 分 ; 而 
在 将 来 ， 将 是 一 个 业务 爆炸 的 时 代 ， 各 种 各 样 的 互联 网 服务 层出不穷， 
如 何 快速 满足 业务 部 车 需求 ? 传统 数据 中 心 ， 部 著 一 台新 服务 右 和 业 
务 ， 需 要 至 少 一 天 的 时 间 ， 比 如 上 架 、 安 装 OS、 安 六 文 撑 系 统 、 安 六 
应 用 系统 、 测 试 ， 而 如 果 加 上 前 期 采购 等 流程 ， 则 需要 更 长 时 间 。 而 云 
的 出 现 ， 利 用 弹性 核心 ， 将 抵 层 大 量 分 开 的 计算 或 者 存储 证 点 屏 瑞 ， 抽 
象 为 各 种 代 服 务 ， 使 得 部 署 一 个 新 应 用 可 能 只 需要 几 个 小 时 的 时 间 就 可 
以 了 ， 云 整合 了 所 有 IT 资源 ， 这 又 属 于 合 。 而 在 遥远 的 未 来 ， 随 着 技术 
革命 的 到 来 ， 计 算 与 存储 将 会 及 生 质 的 变化 ， 单 个 节点 的 计算 与 存储 能 
力 发 生 音 命 ， 夯 外 ， 互 联网 带宽 的 革命 ， 也 会 促使 大 范围 的 网 格 节点 互 

















联 ， 共 同 组 成 一 个 整体 ， 而 不 是 同 茶 个 固定 的 云 中 获得 资源 ， 这 又 属于 


hg 


小 云 也 就 是 不 远 的 将 来 会 大 行 其 道 的 、 由 小 规模 的 硬 核 作为 种 子 所 
生成 的 云 [微软 用 户 2]。 而 大 云 则 是 借助 高 速 互联 网 而 组 成 的 大 范围 的 网 
格 型 的 硬 核心 ， 大 家 共同 参与 组 成 云 。 此 时 ， 任 何 节点 可 以 申请 加 入 这 
个 云 而 成 为 云 中 的 一 粒 种 子 ， 不 断 贡 献 着 资源 而 同时 也 吸收 着 资源 。 其 
实 P2P 就 相当 于 一 个 大 网 格 云 ， 只 不 过 网 格 云 时 代 P2P 的 不 仅 是 电影 ， 
而 是 一 切 开 资源 了 ， 比 如 存储 和 计算 。 假 如 你 有 一 个 视频 需要 演 染 ， 但 
是 你 的 机 器 目 映 的 显卡 太 差 ， 那 么 你 可 以 直接 利用 P2P 泻 染 平 台 服 务 将 
你 的 任务 提交 ， 其 后 人 台 就 会 将 这 个 任务 分 解 到 所 有 拥有 高 泻 染 能 力 的 节 
点 中 去 并 行 计 算 ， 然 后 结果 汇总 到 你 这 里 ， 这 个 速度 将 会 是 相当 快 的 。 

















在 网 格 云 时 代 ， 此 时 整个 系统 又 属于 分 了 。 在 这 个 大 云 时 代 ， 互 联 
网 上 的 所 有 节点 都 会 有 高 接 入 带宽 ， 比 如 万 兆 以 太 网 到 户 ， 再 加 上 
IPv6， 使 得 每 个 人 都 变 成 了 互联 网 运营 商 ， 那 么 之 前 被 大 集中 到 运营 再 
以 及 各 个 数据 中 心中 的 资源 ， 在 这 个 时 代 将 会 重新 流入 到 互联 网 所 有 市 
点 中 。 之 前 被 大 集中 在 运营 丙 数 据 中 心 的 数据 业务 ， 此 时 会 被 大 范围 分 
散 到 互联 网 的 各 个 节点 中 去 ， 此 时 的 形态 又 属于 分 了。 如 果 说 集群 存储 
时 代 对 应 看 数据 爆炸 ， 那 么 小 云 时 代 便 对 应 了 业务 爆炸 ， 数 据 与 业务 共 
同 在 儿 个 点 上 爆炸 之 后 ， 必 将 经 过 弥散 的 时 代 ， 这 个 时 代 也 就 是 大 网 格 
云 时 代 。 在 这 个 时 代 ， 整 个 互联 网 内 的 资源 被 虚拟 地 整合 起 来 ， 人 们 可 
以 利用 P2P 技 术 运 行 超大 程序 ， 演 染 图 片 以 及 海量 存储 等 其 他 各 种 服 
务 。 那 时 候 的 运营 商 ， 有 一 种 很 重要 的 角色 ， 这 个 角色 就 相当 于 分 布 式 
文件 系统 中 的 MDS， 它 会 给 整个 互联 网 提供 一 个 用 于 P2P 共 享 的 分 布 式 
平台 ， 保 存 所 有 互联 网 元 数据 。 比 如 大 分 布 式 文件 系统 、 大 并 行 计 算 调 
度 系统 ， 都 会 有 运营 商 来 掌握 和 部 普 ， 将 整个 互联 网 范围 内 的 资源 整合 

















了 起 来 ， 数 据 和 资源 弥散 在 整个 互联 网 范围 。 


另外 ， 小 云 上 自身 也 相当 于 大 云 中 的 一 粒 种 子 ， 目 前 各 地 都 在 兴建 小 
规模 云 数据 中 心 ， 这 些 建 好 的 数据 中 心 ， 将 来 会 成 为 种 子 ， 然 后 各 目 联 
合 起 来 形成 大 范围 云 。 我 们 姑且 称 小 云 时 代为 云 1.0 时 代 ， 或 者 也 可 以 
叫 它 种 云 时 代 。 而 大 云 时 代为 云 2.0 时 代 。 云 2.0 时 代 的 时 候 ， 之 前 云 1.0 
时 代 的 种 子 便 完 成 了 它 的 使 合 ， 成 功 地 发 车 开花 并 结果 。 


那么 在 大 云 时 代 之 后 ， 按 照 之 前 一 路 分 分 合 合 的 变化 规律 ， 势 必 义 
会 变 为 合 的 形态 。 这 里 先 这 样 推出 ， 然 后 再 找 论 据 ， 它 攒 什么 要 合 呢 ? 
你 说 合 它 就 合 么 ? 显然 不 是 的 。 我 们 畅想 一 下 ， 那 时 候 计 算 与 存储 将 会 
发 生 革 命 ， 比 如 从 电路 计算 与 电路 存储 ， 转 为 量子 计算 或 者 生物 计算 与 
分 子 存储 。 大 家 知道 ， 生 物 细胞 中 的 DNA 可 以 存储 大 量 的 信息 ， 可 能 一 
个 细胞 可 以 存储 的 数据 堪 比 一 块 人 硬盘， 那么 一 片 树叶 中 将 可 以 存储 海量 
的 数据 。 那 么 谁 来 读 取 其 上 的 数据 呢 ? 当然 是 靠 核糖 体 ， 核 糖 体 融 相 当 
于 磁盘 中 的 磁头 。 细 胞 也 可 以 用 来 计算 ， 一 个 细胞 中 包含 多 种 模块 ， 每 
一 个 都 被 精确 设计 ， 来 完成 一 系列 的 生化 过 程 ， 这 个 过 程 如 果 可 以 被 翻 
译 为 其 他 逻辑 ， 那 么 束 可 以 被 用 作 高 速 计算 。 那 个 时 候 ， 将 会 出 现 利用 
章 新 技术 生产 的 计算 机 ， 整 个 时 代 叉 会 回 到 最 原始 的 形态 ， 也 残 是 大 量 
终端 通过 网 络 连接 到 中 心计 算 机 来 获取 资源 。 

















纵 观 云 发 展 史 ， 我 们 再 往 高 层 思考 。 一 开始 ，PC 在 LAN 内 访问 服 
务 器 ， 这 种 状态 可 以 映射 到 现在 的 Micro ”Cloud; 后 来 ，IT 组 织 越 来 越 
大 ， 数 据 中 心 出 现 ， 组 织 内 的 PC 可 以 路 越 多 个 LAN 被 路 由 到 数据 中 心 
LAN 内 访问 所 有 资源 ， 此 时 可 以 映射 为 Mini 或 者 Normal ”Cloud; 后 来 
Internet 发 展 ， 使 得 多 个 Internet 上 的 服务 器 可 以 相互 通信 相互 要 资源 ， 
PC 可 以 连接 到 Internet 访 问 其 他 LAN 内 的 服务 器 ， 这 种 状态 可 以 映射 到 
大 范围 的 Seed ”Cloud; 那么 再 后 来 ，Internet 上 的 资源 被 一 定 程度 地 弥 


散 ， 当 然 数 据 中 心 等 云 种 子 依 然 存 在 ， 只 不 过 资源 被 极 大 地 弥散 到 了 所 
有 节点 之 上 ， 此 时 便 映 射 到 了 Infinite Cloud， 也 就 是 大 范围 Gird 了 。 


请 看 一 下 图 20-42 所 示 的 IT 系统 基础 架构 一 开始 都 是 孤 马 ， 烟 称 。 

后 来 存储 开始 被 集中 起 来 。 再 后 来 ， 存 储 的 上 层 ， 也 就 是 计算 层 ， 也 被 
集中 整合 起 来 。 再 后 来 ， 统 一 了 开发 平台 ， 其 上 和 孕育 出 各 种 应 用 。 这 也 
古 当 前 的 新 型 IT 基 础 染 构 的 形态 ， 也 就 是 人 们 常 说 的 “ 云 ” 基 础 架构 。 存 
储 从 主机 脱离 出 来 成 为 SAAN， 那 么 整个 代 系 统 基础 架构 的 共享 ， 就 成 为 
了 Cloud。 可 以 看 到 一 层 层 的 网 上 侵蚀 ， 但 是 APP 一 层 上 自身 能 被 融合 起 
来 么 ? 八 介 不 能 了 ， 每 个 业务 都 要 对 应 一 个 APP。 那 么 这 个 系统 正在 干 
什么 呢 ? 它 下 一 步 将 会 是 什么 形态 呢 ? 








图 20-42” 工 基 础 架构 演进 示意 图 











IT 系统 最 终 是 不 是 要 长 成 这 个 样子 〈 见 图 20-43) 全 部 融合 。 一 个 
操作 系统 实例 可 以 管理 所 有 服务 器 、 存 储 、 网 络 资源 ， 也 即 所 谓 “数据 
中 心 操作 系统 ?或 者 “分 布 式 操作 系统 ”。 这 个 
DOS (Datacenter/Distributed OS， 不 仅 赛 了 一 下 ， 确 实 是 个 轮回 ， 到 了 
DOS 时 代 了 ) 可 以 有 两 种 模式 ， 就 像 分 布 式 文件 系统 一 样 ， 一 种 模式 是 
把 多 个 文件 系统 实例 用 目录 的 方式 虚拟 ， 而 另 一 种 模式 是 直接 在 底层 虚 
拟 。 











图 20-43 ”分 布 式 统一 操作 系统 


那么 DOS 也 可 以 有 这 两 种 类 似 的 方式 ， 要 么 束 用 一 种 简单 松 耦 合 的 
管理 角色 ， 比 如 微软 的 System ”Center、Novell 的 Cloud ”Manager 等 ; 要 
么 ， 也 就 是 要 引出 的 男 一 种 彻底 底层 融合 方式 ， 一 个 操作 系统 实例 ， 融 
速 网 络 的 出 现 ， 将 总 线 延 伸 到 计算 机 外 部 请 翻 回 阅读 本 书 第 2 章 ， 外 


部 网 络 就 是 计算 机 总 线 的 延伸 )》 ， 将 内 存 的 RDMA， 这 些 都 变 得 可 能 ， 
此 时 多 个 物理 上 分 离 的 节点 可 以 直接 进行 总 线 级 的 通信 和 内 存 直 接 寻 
址 ， 那 么 一 个 分 布 式 操作 系统 也 就 可 以 在 此 基础 上 诞生 了 。 








这 个 操作 系统 将 会 把 整个 数据 中 心中 的 所 有 元 素 统一 管理 起 来 ， 包 
括 底层 的 供电 、 消 防 、 ”监控 等 ， 及 上 层 的 存储 、 计 算 、 网 络 资源 管理 
和 调度 ， 以 及 各 模块 间 的 消息 转发 中 间 件 平台 ， 旋 至 最 上 层 的 应 用 业务 
展现 开发 平 侣 。 所 有 这 些 元 素 将 被 一 种 像 微软 Windows 操 作 系 统一 样 的 
统一 平台 来 操作 与 管理 。 这 又 是 一 个 大 轮回 了 。 同 时 ， 存 储 早 就 准备 好 
这 一 天 的 革命 了 ， 各 种 分 布 式 虚拟 化 存储 已 经 成 熟 。 此 时 ， 整 个 系统 确 
实 从 骨子里 表现 为 一 台大 计算 机 了 。 这 个 DOS 会 将 任务 拆 分 为 颗粒 分 配 
到 撒 层 所 有 计算 节点 中 去 ， 这 也 正如 传统 0S 将 每 个 线程 分 配 到 CPU 的 
每 个 核心 中 去 执行 一 样 。 











这 种 操作 系统 如 果真 的 出 现 ， 其 早期 必然 不 能 够 满足 高 实时 性 计算 
的 需求 ， 只 能 作为 一 个 庞然大物 级 别 的 系统 来 处 理 一 些 非 高 实时 性 但 是 
却 拥有 极 高 的 总 吞吐 量 的 系统 ， 对 于 高 实时 性 需求 依然 需要 独立 的 系 
统 。 其 实 这 种 演进 就 相当 于 目前 的 传统 操作 系统 与 舱 入 式 高 效 实时 的 精 
简 操 作 系 统 的 区 别 了 ， 谁 也 离 不 了 谁 ， 总 要 有 一 种 通 吃 一 切 的 庞大 系 
统 ， 比 如 Windows、Linux 等 ， 也 必然 要 有 一 些 尖兵 操作 系统 比如 
VxWorks 等 。 随 着 规模 的 庞大 ， 整 体 颗 粒度 必然 变 大 ， 微 观 运 动 必 然 相 
对 变 慢 ， 但 是 总 吞吐 量 数量 级 也 必然 升 高 ， 这 就 像 一 个 细胞 的 运动 与 地 
球 自 转 的 比较 一 样 。 














那么 ， 这 个 系统 究竟 是 否 会 参 着 这 个 方 癌 演进 呢 ? 让 我 们 拭 目 以 








20.9 ”结束 语 


当 云 的 底层 架构 从 数据 中 心 集中 的 Infrastructure 变 为 全 Intemet 上 的 
节点 之 后 ， 也 就 是 网 格 云 计 算 ， 这 种 庞大 的 网 格 在 节点 间 相 互 交 流 后 便 
会 逐渐 进化 ， 或 者 不 由 自主 地 表现 出 一 种 全 体 无 意识 性 的 结果 ， 这 种 结 
果 往 往 是 惊人 的 ， 就 像 蚁 群 一 样 ， 会 创造 出 惊人 的 结果 。 再 比如 ， 眼 前 
的 例子 ， 人肉 搜索 。 





现在 提出 云 是 否 会 太 超 前 ?我 们 知道 ， 客 户 端 并 行 访问 数据 的 概念 
早 在 1994 年 就 被 Gibson 提 出 了 ， 当 时 被 设计 为 一 种 对 象 存储 系统 。 这 么 
优越 的 设计 为 何 最 近 才 被 纳入 业界 标准 呢 ? 各 个 分 布 式 文件 系统 厂商 相 
继 推 出 配套 的 并 行 访问 客户 端 。 究 其 原因 还 是 因为 硬件 、 网 络 的 发 展 。 
x86 服 务 器 硬件 已 经 相当 廉价 ，1GbE 以 太 网 环境 比比 皆 是 ，10GbE 马 上 
也 要 普及 开 来 ， 而 软件 相对 变 为 了 瓶 贷 ， 传 统 只 通过 单一 链 路 访问 目标 
的 做 法 已 经 用 不 满 网 络 带 宽 了 ， 为 此 pNFS 等 标准 被 制定 出 来 。 








我 们 再 反观 目前 的 云 ， 云 确实 是 比较 超前 的 东西 ， 但 是 看 看 现在 的 
互联 网 带宽 ， 不 用 说 1GbE，10MbE 都 还 没有 普及 。 在 这 种 低 带 宽 的 网 
络 环 境 下 ， 互 联网 用 户 暂 时 只 能 享受 到 一 些 不 需要 高 带宽 的 服务 ， 比 如 
在 线 文档 阅读 等 ， 而 这 些 服务 将 其 归 类 到 互联 网 服务 比较 贴切 ， 尚 未 达 
到 云 服 务 的 层次 。 而 当 互 联网 市 宽 音 命 之 后 ， 云 此 时 才 会 被 大 规模 释放 
出 来 ， 用 户 用 一 个 瘦 终 端 即 可 享受 到 任何 I 服务 ， 连 操作 系统 都 不 需要 
安装 。 








是 计算 、 传 输 还 是 存储 。 没 有 业务 驱动 ， 计 算 、 传 输 与 存储 便 没 有 了 任 
何 意 义 。 业 务 又 是 人 类 需求 的 体现 。 





想象 一 张 图 ， 在 世界 地 理 版 图 上 ， 分 布 着 若干 个 大 云 团 ， 周 围 佐 以 
一 些 零散 的 小 云 团 ， 整 体形 成 一 个 去 网络， 形成 一 个 计算 的 脉络 。 这 是 
何等 壮观 之 景象 如 图 20-45 所 示 ) ! 不 知道 至 此 你 是 否 还 会 看 云 而 学 
呢 ? 云 计算 / 云 存储 / 云 服务 ， 是 否 真能 成 为 IT 发 展 的 天 堂 ? 让 我 们 拭 目 
以 待 ! 








图 20-44 ”业务 驱动 下 的 计算 、 传 输 与 存储 图 20-45 “世界 云 版 图 


附录 1 存储 系统 问 与 答 精华 集 钾 


本 问 与 答 精 华 集锦 全 部 收录 自作 者 几 年 来 在 各 大 存储 技术 论坛 以 及 
个 人 博客 中 针对 广大 网 友 提 出 的 问题 的 回复 内 容 。 作 者 对 这 些 内 容 做 了 
总 结 和 归纳 ， 作 成 了 问 与 答 的 形式 。 其 中 有 对 于 存储 技术 基础 问题 的 问 
答 ， 也 有 针对 本 书 内 容 的 问答 ， 还 有 对 一 些 方案 设计 等 问题 的 问答 。 作 
者 希望 读者 通过 阅读 这 些 问答 内 容 ， 能 够 解决 自己 心中 的 一 些 颖 问 ， 从 
而 对 整个 存储 系统 的 理解 更 深 一 步 。 


1 关于 “文件 ”与 “< 块 ” 


请 教 个 问题 什么 是 文件 数据 ， 什 么 是 块 数据 ? 它们 有 什么 区 


别 ? 


块 泛 指 底层 磁盘 上 的 而 区 组 合 ， 某 个 文件 可 以 对 应 一 个 或 者 多 个 这 
样 的 块 。 客 户 端 访问 存储 系统 的 接口 有 两 种 : 网 络 文件 系统 接口 和 SCSI 
或 者 ATA 接 口 。 前 者 指 的 是 CIFS 和 NFS; 后 者 可 以 是 SCSI、FCP、 
iSCSI[、ATA/DE、SATA、eSATA、1394、USB。 前 者 在 网 线 上 的 数据 
三 元 素 是 文件 名 、 起 始 偏 移 量 、 读 写字 节 数 ， 后 者 在 线 绕 上 传递 的 三 元 
素 是 起 始 局 区 号 码 、 操 作 码 ( 读 、 写 等 ) 、 要 操作 的 请 区 数量 。 


文件 系统 的 作用 惑 是 将 块 虚拟 成 文件 。 如 果 磁 盘 阵 列 中 集成 了 目 己 
的 文件 系统 ， 则 可 以 虚拟 这 些 块 ， 同 外 面 提 供 NAS 接 口 访 问 ， 此 时 盘 阵 
的 存储 空间 在 主机 端 表 现 为 一 个 挂 载 上 的 目录 《〈 不 需要 格式 化 ， 直 接 问 
其 中 读 写 文件 ， 也 残 是 NAS 访 问 方式 ) 。 如 果盘 阵 目 己 没 有 文件 系统 虚 
拟 化 功能 ， 则 只 能 依靠 客户 痢 ， 也 就 是 主机 端 上 的 文件 系统 来 管理 此 檀 
阵 同 这 个 主机 映射 的 磁盘 。 





关于 “数据 块 ? 级 和 “文件 ?级 之 间 的 差异 ， 能 不 能 给 我 讲 透彻 一 
后 ? 


你 好 ，Block 级 别 就 是 直接 通过 读 写 存 储 空间 (磁盘 ，LUN， 
Volume) 中 的 一 个 或 者 一 段 地 址 的 山区 来 存 取 数 据 ， 文 件 级 别 则 是 通 
过 读 写 茶 个 文件 中 的 一 段 数 据 。 比 如 你 是 存储 设备 ， 我 是 主机 ， 我 说 : 
请 你 将 LUN1 上 的 0 一 127 这 128 个 书 区 的 数据 给 我 ， 你 给 我 了 ， 虽 俩 之 间 
就 是 Block 级 的 访问 。 如 果 我 这 样 和 你 要 数据 : 请 你 将 X 目 录 下 的 


tellme.txt 文 件 的 前 128 字 节 传 给 我 ， 这 就 是 文件 级 别 的 访问 。 前 者 俗称 
SAN Block 访 问 ， 后 者 俗称 NAS 访 问 。 


2. 何谓 “NAS”? 





想 知 道 NAS 的 功能 具体 是 怎么 实现 的 ? 可 不 可 以 举例 下 ? 谢谢 。 





你 好 ，NAS 就 是 ， 前 
的 存储 空间 。 可 以 说 ， 只 
NAS。 


端 用 网 络 文件 系统 提供 服务 ， 后 端 用 任何 方式 
要 前 端 通过 网 络 文件 系统 服务 的 存储 设备 就 是 


3. 关于 FC Chip 带 宽 、 接 口 带 宽 、 链 路 带宽 


我 在 网 上 看 了 一 下 ， 比 较 有 名 的 是 Sansky 博 客 上 提出 的 理论 带宽 
计算 是 根据 每 控制 器 上 的 主机 FC 芯片 和 磁盘 FC 芯片 计算 ，Sansky 指 
出 以 DS4800 为 例 : DS4800 虽 然 主 机 端口 和 磁盘 端口 都 是 8 个 4Gb 接 
口 ， 但 实际 上 每 个 控制 器 内 部 只 有 两 个 4Gb 主 机 FC chip 和 两 个 4Gb 磁 
盘 FC chip， 两 个 控制 器 加 起 来 是 4 个 4Gb FC chip， 所 以 两 个 控制 器 的 
最 大 传输 速率 是 4x4Gb。 我 有 点 疑问 ， 如 果 我 们 来 看 IBM DS4700 两 蒜 
产品 的 话 ，IBM 提 供 的 带宽 大 概 是 1270MB/s 和 1550MB/s， 这 两 款 产 品 
都 是 双 控 制 嚣 产品， 每 控制 器 心 片 分 别 为 1 个 和 两 个 ， 磁 盘 心 片 均 为 1 
个 。 如 果 按 照 如 上 计算 ， 是 达 不 到 IBM 宣 称 的 技术 参数 的 。 老 冬 能 和 否 
帮忙 解答 一 下 ? 谢谢 ! 











你 好 ， 确 实 达 不 到 的 。 那 个 参数 具有 误导 性 。 确 认 一 款 产品 的 带 
宽 ， 考 虑 6 个 地 方 即 可 :前 端 接口 数 ， 前 端 芯 片 数 ， 后 端 接口 数 ， 后 端 
芯片 数 ， 前 后 端 之 间 的 总 线 带 宽 ， 内 存 带宽 。 任 何 一 个 地 方 受 限 制 ， 就 
会 达 不 到 表面 的 标 称 值 。 有 时 候 多 个 端口 是 共享 一 个 Chip (芯片 ，， 那 


多 半 束 只 能 共 译 市 完 ， 但 是 也 不 排除 有 使 用 高 端 线 速 交 换 的 已 片 ， 束 和 
交换 机 一 样 ， 虽 然 看 起 来 口 不 少 ， 可 是 背 板 带宽 小 的 话 ， 那 就 不 能 保证 
所 有 口 同 时 线 速 交换。 加 上 前 后 端 之 间 总 线 不 够 的 话 ， 那 就 也 有 瓶 祷 。 
同样 ， 如 宁 凡 存 带 锅 不 匹配 ， 也 会 有 瓶 陆 ， 因 为 磁盘 数据 都 是 先入 内 存 
再 入 前 端口 。 








你 说 的 高 端 线 速 交 换 忆 请 是 怎么 回 事 ? 是 否 就 是 说 只 要 背 板 带宽 


是 
足够 大 ， 最 终 磁 阵 的 否 吐 量 就 能 由 前 端 和 后 端 接口 的 数目 决定 ? 


所 谓 线 速 ， 就 是 指 所 有 端口 都 以 目 己 的 额定 速度 同时 交换 ， 而 所 有 
端口 都 是 连接 到 背 板 上 的 ， 其 中 需要 核心 心 片 管理 ， 而 核心 到 这 些 所 有 
端口 之 间 的 总 线 ， 就 需要 文 撑 这 么 大 市 宽 的 同时 交换 。 盘 阵 吞 吐 量 的 决 
定 因 素 ， 这 个 就 更 复杂 了 ， 与 IO、 控 制 器 、 通 路 带宽 和 效率 、 后 端 位 盘 
类 型 和 数量 均 有 关 。 如 果 不 考虑 这 么 复杂 的 话 ， 香 吐 量 可 以 近似 认为 由 
前 后 端 Chip 和 接口 数目 决定 。 











老 冬 ， 我 刚才 问 了 一 下 我 们 的 研发 人 员 ， 是 不 是 Sansky 的 说 法 有 
些 不 对 ， 和 带宽 不 能 根据 FC 心 片 计算 ? 我 们 的 研发 人 员 说 ，4G FC 心 片 
每 秒 处 理 能 力 不 止 4G， 只 要 在 总 线 带 宽 和 CPU 的 处 理 能 力 能 包含 的 范 
围 之 内 的 话 ， 就 可 以 根据 主机 接口 数 来 计算 理论 带宽 。 


不 懂 你 具体 的 意思 。4G FC 芯 片 处 理 能 力 不 止 4G， 这 个 说 法 不 太 明 
白 。FC ”Chip 上 对 于 接口 的 编码 速度 部 分 是 严格 精密 的 ， 包 括 Timer 和 
Serdes 串 化 解囊 化 器 ， 是 严格 的 4Gb， 至 于 不 止 4Gb 的 说 法 ， 我 不 清楚 ， 
可 以 让 研发 人 员 直 接 留 言 。FC ”Chip 可 以 管理 多 个 口 ， 如 果 其 所 管理 的 
多 个 口 是 共享 的 FC ”Chip 的 核心 FC 处 理 逻 辑 ， 则 不 管 多 少 口 共享 4Gb 带 
宽 ， 如 果 每 个 口 各 保持 独立 ， 即 每 个 FC 处 理 核心 处 理 速 度 可 同时 保证 
多 个 接口 同时 并 发 地 线 速 以 4Gb 速 率 独 享 带宽 运行 ， 则 这 样 的 话 ， 天 吐 




















量 与 接口 数量 可 以 成 正比 。 所 谓 的 4G FC Chip 处 理 能 力 不 止 4G 的 说 法 可 
能 从 此 而 来 。 





4. iSCSI 与 Windows 下 动态 人 磁盘 的 问题 


前 两 天 在 现场 看 到 一 奇怪 问题 ，iSCSI 存 储 直 连 Windows 2003 主 
机 ， 每 次 重启 的 时 候 磁 盘 管 理 下 存储 的 那 块 硬盘 都 变 为 脱 机 状态 ， 石 
键 重新 激活 后 就 能 用 了 ， 分 区 也 还 在 ， 发 现 是 动态 磁盘 的 简单 卷 。 网 
上 搜 了 一 下 ， 有 哥们 说 Windows 的 Initiator 不 支持 动态 人 磁盘， 给 微软 的 
工程 师 打 电话 咨询 ， 他 当时 也 不 能 确定 ， 好 在 没什么 重要 数据 ， 得 到 
客户 许可 后 将 磁盘 设置 为 基本 磁盘 后 就 正常 了 。 哪 位 大 侠 碰 到 过 这 种 
情况 吗 ， 能 不 能 给 个 解释 ? 








MS 的 iSCSI ”Initiator 用 户 手 册 中 明确 指出 了 不 支持 动态 人 磁盘， 原因 
就 是 因为 网 络 服 务 加 载 晚 于 动态 卷 服务 。iSCSI Service 加 载 太 晚 以 至 于 
动态 磁盘 管理 系统 认为 丢 盘 了 。Linux 下 的 解决 办 法 是 编辑 加 载 设 备 的 
配置 文件 表明 本 设备 属于 netdev。 不 过 MS 应 该 着 手 解 决 这 个 问题 的 。 





5.FCAL 环 路 性 能 问题 


大 多 数 人 磁盘 阵列 都 是 通过 两 个 控制 器 后 端的 端口 ， 组 成 1/2/4 条 
FC-AL 环 ， 来 连接 所 有 磁盘 。FC-AL 仲 裁 环 的 协议 规定 ， 同 一 时 刻 只 
有 两 个 设备 能 传送 数据 ， 也 就 是 说 ， 在 一 条 FC-AL 环 里 面 ， 控 制 右 的 
一 个 后 端 端口 充当 了 发 起 者 的 角色 ， 环 上 的 一 个 硬盘 充当 了 目的 地 的 
角色 ， 在 一 个 时 刻 里 ， 后 端 端口 发 出 数据 读 写 指令 ， 只 有 一 个 硬盘 能 
啊 应 这 个 指令 并 传输 数据 。 那 是 否 就 意味 着 ， 一 条 FC-AL 环 的 总 体 性 
能 ， 取 决 于 一 个 人 硬盘 的 读 写 性 能 ?1500 转 速 的 硬盘 ， 持 续 读 写 带宽 不 
到 70MB/s，IOPS 不 到 400。 那 像 IBM DS 4800、EMC CX-80 之 类 的 ， 











总 共 4 条 环 ， 后 端的 性 能 岂 不 是 只 有 280MB/s、1600 ”IOPS? 除了 以 阵 
列 里 Cache 来 提高 速度 ， 我 不 知道 有 没有 别 的 办 法 ， 或 者 ， 磁 盘 阵 列 
内 部 采用 的 不 是 工业 标准 的 FC-AL? 


这 个 问题 非常 好 ， 而 且 也 非常 经 典 。 要 解释 这 个 问题 ， 需 要 明日 三 
后 ; 


a ECAEL 的 传输 通道 的 确 同 一 时 刻 只 允许 两 点 间 独 占 通道 市 宽 来 传 
和 输 数据 。 

a 控制 器 在 有 足够 TO 请 求 的 情况 下 绝对 不 会 让 通道 闲 痢 ， 会 充分 利 
用 带宽 。 

a 倒 盘 的 外 部 传输 率 和 内 部 传输 率 。FCAL 环 路 上 存在 多 个 设备 的 
时 候 ， 由 于 控制 器 的 轮 询 策略 充分 利用 带宽 ， 整 个 系统 在 外 体现 
为 一 个 永远 都 在 读 写 数据 状态 而 不 是 寻 道 状态 的 大 虚拟 设备 〈 本 
书 有 描述 ) ,一旦 茶 个 设备 需要 寻 道 ， 那 么 就 让 其 他 设备 来 传输 
数据 来 弥补 所 浪费 的 时 隙 ， 所 以 整体 系统 可 以 发 挥 出 一 个 单一 设 
备 的 内 部 传输 率 。 


当 FCAL 环 路 上 存在 多 个 设备 的 时 候 ， 控 制 器 向 某 设 备 发 起 IO 之 

， 该 设备 需要 一 定 的 寻 道 时 间 ， 而 此 期 间 内 AL 环 处 于 被 释放 的 状 

， 此 时 控制 右 依 然 可 以 问 另 外 的 设备 发 起 ID， 也 融 关 似 于 先 把 该 做 的 
令 全 部 下 发 ， 待 东 个 设备 寻 道 完成 请 求 将 数据 返回 给 控制 器 的 时 候 ， 
往 是 多 个 设备 都 处 于 积攒 状态 ， 也 就 是 它们 都 干 完 活 了 ， 准 备 交 差 

ne 个 一 个 来 ， 大 家 都 或 着 劲 呢 。 明 日 了 这 一 点 ， 我 
们 就 往 下 看 。 
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关于 IOPS 数 值 的 矛盾 : 








IOPS 与 吞吐 量 是 一 对 矛盾 关系 。 在 关注 IOPS 的 环境 下 ，IO Size 往 
往 比 较 小 ， 因 为 只 有 较 小 的 Size 才 不 至 于 充满 带宽 达到 瓶 贷 ， 所 以 ， 要 
达到 较 高 的 IOPS，IO ”Size 需 要 比较 小 。 而 这 种 情况 下 控制 器 将 IO 请 求 
发 送 给 设备 之 后 ， 多 个 设备 处 于 积 揭 状 态 ， 它 们 会 仲裁 从 而 一 个 一 个 地 
分 别 得 到 传输 数据 的 机 会 。 由 于 IO Size 很 小 ， 所 以 每 次 传输 数据 很 快 就 
结束 ， 这 样 ， 一 个 IO 就 飞快 地 完成 了 ， 而 上 一 个 设备 的 IO 完成 之 后 ， 下 
一 个 设备 接着 也 会 很 快 完 成 ， 因 为 它 已 经 处 于 积攒 状态 ， 待 返回 的 数据 
早已 在 Cache 中 准备 发 送 。 这 样 的 话 ， 这 个 整体 系统 对 外 就 表现 为 一 个 
永远 在 完成 IO 而 不 需要 寻 道 的 虚拟 设备 。 而 如 果 AL 环 上 除了 控制 器 之 
外 只 有 一 个 设备 ， 那 么 环 路 就 必须 等 待 它 寻 道 ， 因 为 寻 道 的 时 隙 内 ， 
AL 环 上 已 经 没有 其 他 设备 可 工作 了 。 然 而 ，AL 环 的 这 种 弥补 寻 道 时 阶 
的 效果 也 不 是 设备 越 多 就 越 好 ， 不 同 的 设计 和 产品 都 有 自己 不 同 的 最 佳 
设备 数量 ， 目 前 的 经 验 值 为 64 个 ， 也 就 是 环 路 总 容量 的 一 半 ， 超 过 这 个 
值 ， 性 能 不 会 再 有 提高 ， 甚 至 有 所 下 降 。 我 们 可 以 推论 出 另外 一 个 结 
论 ， 也 就 是 ， 慢 速 设 备 ， 比 如 寻 道 时 间 长 的 设备 ， 越 是 慢 速 设 备 ， 组 成 
AL 环 路 之 后 其 带 来 的 整体 提升 越 大 ;， 越 是 快速 设备 ， 高 规格 的 设备 ， 
组 成 AL 环 路 之 后 ， 提 升 的 性 能 越 有 限 。 这 就 是 AL 环 或 者 其 他 共享 总 线 / 
环 方 式 弥 补 设备 自身 处 理 产 生 的 时 隙 的 效果 。 














关于 吞吐 量 / 融 宽 值 的 下 盾 : 


经 过 上 面 的 描述 ， 我 们 已 经 对 共 吝 总 线 / 环 传输 方式 的 砍 层 机 制 以 
及 其 效用 有 了 一 个 很 好 的 理解 了 。 在 重视 和 退 求 高 吞吐 量 ， 也 就 是 充分 
利用 带宽 的 环境 下 ，IO Size 往 往 非 常 大 ， 以 至 于 在 较 低 的 IOPS 值 下 整 已 
经 可 以 吃 满 通道 带宽 了 。 往 往 这 种 情况 下 ， 上 层 所 发 出 的 IO 都 是 连续 大 
块 的 IO， 以 至 于 AL 环 之 上 的 设备 寻 道 时 间 可 以 大 大 降低 ， 这 就 使 得 设 





备 更 快 地 处 于 积攒 态 ， 准 备 同 外 发 送 数据 。 我 们 知道 磁盘 外 部 传输 率 由 
于 磁盘 内 部 不 断 换 着 被 打 断 ， 致 使 其 数值 较 内 部 传输 率 降 低 了 大 约 20 
信 。 而 AL 环 的 效用 就 是 弥补 寻 道 所 浪费 的 时 际 ， 所 以 整体 系统 的 外 部 
否 吐 量 束 被 提升 了 上 来 ， 从 而 解决 了 这 个 矛盾 。 


6. 关于 RAID 层 面 的 IO 并 发 与 Stripe Depth 的 一 系列 问题 





看 书 产 生 的 疑问 ， 书 中 讲 IO 并 发 几率 的 时 候 说 , “对 于 RAID 0， 
在 两 块 硬盘 的 情况 下 ， 条 带 深 度 比 较 大 的 时 候 并 发 两 个 IO 的 几率 为 
12”， 我 理解 为 条 带 深度 比较 大 的 时 候 容 易 产 生 并 发 。 但 是 在 书 中 分 
析 “ 分 析 以 上 过 程 ? 这 段 里 说 “在 茶 种 特定 条 件 下 要 提升 性 能 ， 让 一 个 
IO 尺 量 扩散 到 多 块 物理 硬盘 上 ， 要 减 小 条 和布 深 谋 ”， 我 理解 为 扩散 到 
多 块 硬盘 才能 并 发 1O0， 要 减 小 条 融 深 度 。 但 是 ， 这 两 种 说 法 是 售 予 盾 
了 ? 可 能 是 新 手 ， 理 解 不 正确 。 














前 者 是 并 发 IO， 后 者 不 是 并 发 1O0， 后 者 描述 的 情况 是 大 块 连续 IO 的 
情况 下 ， 数 据 适 当 分 散 有 利于 提高 传输 速度 ， 以 便 人 饱和 链 路 带 铬 。 要 IO 
并 发 ， 还 是 要 单个 IO 速度 最 大 化 ? 目 己 决定 。 


你 指 的 大 块 连续 IO， 意 思 是 ， 数 据 是 同时 分 散在 Disk 1 、Disk2 
、Disk3 上 写 ， 还 是 先 写 Disk1， 完 了 再 写 Disk2。 那 如 果 是 同时 写 的 ， 
那么 它 和 并 发 IO 有 什么 区 别 ? 这 部 分 看 得 有 些 颖 惑 ， 希 望 指 点 。 








问 得 很 好 。IO 是 并 及 的 ， 如 果 分 散 的 话 ， 所 有 盘 同 时 读 写 ， 当 然 ， 
如 采用 FCAL， 微 观 还 是 指令 顺序 被 发 出 ， 但 是 发 出 之 后 ， 磁 盘 干 活 还 
得 需要 时 间 。 这 个 间 隐 中， 控制 占 束 可 以 轮流 发 送 指令 给 其 他 硬盘， 脑 
子 转 一 下 ， 想 想 这 个 模型 ， 转 起 来 之 后 ， 理 想 情 况 下 ， 整 个 RAID 组 就 
相当 于 一 个 磁头 永远 在 读 写 数据 而 不 被 寻 道 所 打 断 的 大 虚拟 磁盘 ， 这 个 








书 中 也 描绘 了 。 这 样 ， 外 部 传输 率 就 能 达到 一 块 磁盘 的 内 部 传输 率 了 ， 
当然 ， 理 论 理想 情况 下 。 


在 RAID 0 中 并 发 为 什么 条 市 深度 越 大 越 容 易 并 及 IO0? 并 发 IO 跟 条 
带 深 度 有 什么 关系 ? 这 点 始终 理解 有 困难 。 书 81 页 的 表 中 IO 
Size/StripeSize 这 个 表达 式 是 比值 大 小 的 意思 吗 ? 呵呵 ， 书 认真 谈 了 ， 
但 是 理解 有 点 困难 ， 我 想 把 前 面 的 章节 弄 清楚 点 再 读 后 面 的 会 比较 
好 。 硕 望 老大 以 后 多 指点 。 








这 点 怪我 ， 在 原文 段落 中 没有 提前 再 次 声明 一 个 IO 到 底 是 什么 形 
式 。 一 个 IO 的 三 大 件 : 操作 类 型 、 起 始 扇 区 地 址 、 长 度 。 其 次 ，RAID 
组 上 的 虚拟 磁盘 的 LBA 地 址 是 局 部 竖 向 〈Segment 内 ) 、 全 局 横 问 
CStripe 内 ) 排列 的 ， 单 盘 的 LBA 是 绝对 竖 向 排列 的 (当然 此 处 不 考虑 
盘 片 柱 面 等 物理 因素 ) 。 这 样 ， 条 带 深度 (Segment) 越 大 ， 就 可 以 同 
时 接受 多 个 IO， 越 小 ，IO 中 的 LBA 长 度 就 越 容易 跨 满 这 个 Stripe。 





又 来 提问 题 了 ， 呵 呵 。 书 中 83 页 提 到 RAID1 的 并 发 IO 不 支持 随机 
IO 关 于 这 人 句 话 一 一 “ 写 IO 因 为 要 同时 向 每 块 磁盘 写 入 备份 数据 ， 所 以 
不 能 并 发 IO， 也 不 能 分 块 并 行 ” 不 太 理 解 。 











呵呵 ， 每 天 来 一 问 ， 每 天 有 提高 ! 


一 句 话 : 每 个 磁盘 同一 时 刻 只 服务 于 一 个 IO，NCQ 中 的 Out of 
Order 技 术 另 当 别 论 。 这 样 你 的 问题 就 明白 了 ， 思 考 一 下 。 


有 一 些小 疑问 。 我 们 平常 在 配置 RAID 的 时 候 ，Stripping Size 是 预 
先 设置 好 的 ， 比 方 说 64KB， 人 然后 我 的 Segment ” Size 是 等 于 Stripping 
Size 除 以 它 所 组 成 的 数据 盘 ， 而 且 冬 瓜 头 也 说 到 了 Segment Size 大 小 应 
该 是 而 区 的 整数 倍 ， 那 如 果 说 我 的 数据 盘 是 7 块 ， 那 我 的 Segment Size 


应 该 上 怎么 算 啊 ? 64/7 除 不 尽 啊 ? 这 一 点 没有 看 明白 ， 老 大 能 帮 我 解释 
下 





好 问题 。 首 先 ，Stripe _ Size 是 包含 Parity 盘 在 内 的 。 关 于 除 不 尽 的 问 
题 ， 不 一 定 。 看 具体 实现 了 ， 可 能 输入 64， 则 上 自动 变 为 48 或 者 96， 都 有 
可 能 。 总 之 ， 看 具体 实现 。 这 一 点 我 已 经 同 某 国外 OEMJ 丙 的 研 友 人 
员 咨 询 过 ， 得 到 了 肯定 的 答复 。 现 在 一 些 机 器 都 只 给 出 设置 Segment 
Size 的 接口 ， 而 且 估 计 有 些 机 器 所 谓 的 Stripe Size 其 实 就 是 Segment 


Size。 





书 中 提 到 : IO Size /Stripe Size 较 大 ， 顺 序 I0， 连 续 读 ， 提 升 了 N 
X 系数 倍 。 


而 随后 又 说 : 系数 =IO Size /Stripe Size...， 大 于 等 于 1。 这 里 的 系 
数 为 什么 大 于 等 于 1? 应 该 是 小 于 等 于 1 吧 。 


这 里 大 于 1 小 于 1 都 可 以 ， 因 为 N 可 以 随机 。 


《大 话 存储 》P82， 读 ，IO Size /Stripe Size 较 小 ， 并 发 IO， 随 机 
IO， 提 升 了 (1 十 并 发 系数 ) 倍 ， 这 个 1 是 怎么 来 的 ? 





这 里 1 束 是 单位 1， 起 人 码 要 比 1 块 磁盘 高 ， 所 以 需要 1 十 系数 。 


请 问 冬瓜 头 ， 当 IO Size 小 于 条 带 深度 的 时 候 ，RAID 0 写 数据 是 不 
是 只 写 往 一 个 磁盘 ?为 什么 很 多 地 方 义 强调 条 带 化 时 写 数 据 是 同时 往 
所 有 的 磁盘 而 不 是 写 完 一 个 磁盘 的 Segment 再 继续 写 另 一 个 磁盘 的 ? 如 
果 是 这 样 的 话 即 使 IO ”Size 小 于 条 市 深度 也 应 该 是 每 个 磁盘 都 写 入 一 部 
分 数据 吧 ? 看 着 有 点 糊涂 ， 请 指教 。 











当 IO Size 小 于 Segment Size 的 时 候 ， 这 个 IO 一 定 是 只 落 在 一 个 磁盘 


上 了 。 同 时 向 多 个 磁盘 写 某 个 IO Data 的 情况 是 IO Size 大 于 Segment Size 
的 时 候 。 


那 是 不 是 可 以 这 么 理解 : 写 数据 是 以 Segment 为 单位 的 ， 比 如 有 5 
个 硬盘 做 RAID 0，Segment 大 小 为 IKB， 当 一 个 IO Size 为 2KB 时 ， 它 
只 将 数据 并 行 号 入 其 中 的 两 个 磁盘 ， 而 其 他 3 个 磁盘 对 这 个 IO 是 不 起 
作用 的 ? 如 果 是 ， 数 据 是 依据 什么 寻 址 ， 即 决定 写 入 哪 两 个 磁盘 的 ? 
另外 ， 存 不 存在 一 个 IO Size 不 是 Segment 整 数 倍 的 情况 ， 此 时 数据 是 
怎么 写 入 的 ? 还 有 ， 是 不 是 所 有 RAID 条 带 化 都 是 基于 这 个 原则 ? 请 指 
教 。 











那 是 不 是 可 以 这 么 理解 : 写 数据 是 以 Segment 为 单位 的 ， 比 如 有 5 个 
硬盘 做 RAID0，Segment 大 小 为 IKB， 当 一 个 IO ”Size 为 2KB 时 ， 它 只 将 
数据 并 行 写 入 其 中 的 两 个 磁盘 ， 而 其 他 3 个 磁盘 对 这 个 IO 是 不 起 作用 
的 ? (是 的 ) 。 如 果 是 ， 数 据 是 依据 什么 寻 址 ， 即 决定 写 入 哪 两 个 磁盘 
的 ? (数据 逻辑 地 址 和 物理 地 址 Block 的 映射 关系 是 由 控制 器 做 以 记录 
的 ， 控 制 器 会 依据 映射 表 来 做 翻译 ， 书 中 讲 了 ， 请 仔细 阅读 。) 另外 ， 
存 不 存在 一 个 IO ”Size 不 是 Segment 整 数 倍 的 情况 ， 此 时 数据 是 怎么 写 入 
的 ? (存在 ， 该 怎么 写 就 怎么 写 ，IO 最 小 单位 是 LBA 扇 区 ， 也 就 是 
512B， 一 般 情 况 下 。 近 年 来 吃喝 着 要 增 大 LBA 容 量 到 4KB， 尚未 成 型 。 
记 住 ，Segment 只 是 一 个 逻辑 概念 而 已 ， 人 磁盘 不 理解 Segment， 控 制 器 对 
磁盘 发 起 的 实际 IO 都 是 以 一 段 连续 的 LBA 为 单位 。) 还 有 ， 是 不 是 所 有 
RAID 条 带 化 都 是 基于 这 个 原则 ? (基本 原理 类 似 ， 但 是 具体 实现 看 各 
三 家 设计 sa ) 

















7. 关于 “Block” 的 意义 


再 请 教 一 个 问题 ，RAID 中 的 Data ”Block 和 我 们 平时 做 RAID 的 时 


候选 择 的 Block Size 是 否 是 指 同一 参数 ? 


平时 做 RAID 的 时 候 的 “Block Size”， 要 看 RAID 控 制 器 厂家 如 何 定义 
的 ， 不 同 厂 家 叫 法 不 同 ， 有 具体 咨询 厂家 。 








8. 用 Iometer 测 试 时 所 选择 的 参数 


我 用 Iometer 测 用 DELL/EMC CX 600 磁盘 组 建 的 RAID 5 的 
IOPS。 我 的 做 法 如 下 : 


一 /一 


我 在 Windows XP 上 运行 IOMETER， 在 Linux 上 运行 dynamo， 
Linux 与 磁盘 阵列 之 间 用 FC 连接 。 我 要 测试 最 大 IOPS， 所 以 我 照 着 指 
导 书 上 说 的 调整 成 512B; 100% 读 ，0%Random。 问 题 (1) 这 样 设 
置 对 吗 ? 磁盘 阵列 的 扇 区 大 小 应 该 也 是 512B 吧 ， 读 比 写 快 ， 顺 序 读 也 
比 随 机 要 快 ， 我 觉得 应 该 对 吧 。 (2) 我 没有 设置 QD， 所 以 我 测 最 大 
是 120000 左 右 ，EMC 官 方 说 它 的 IOPS 最 大 为 150000 左 右 ， 我 是 在 一 个 
电脑 上 运行 一 个 worker 试 过 、2 个 worker、3 个 workers。 (3) 如 果 设 
置 QD， 对 于 我 的 配置 ， 应 该 怎样 设置 ? (4) 最 后 一 个 问题 是 最 郁 问 
的 : 我 就 那 一 天 测试 出 来 是 120000 左 右 ， 隔 了 一 天 测试 ， 今 天 测试 ， 
最 高 才 只 有 50000 左 右 。 我 不 知道 为 什么 。 





120000 相 对 于 150000 来 说 ， 己 经 不 错 了 。 官 方 的 承诺 值 在 实际 测试 
或 者 使 用 的 时 候 是 达 不 到 的 ， 官 方 都 是 王 婆 卖 瓜 自 卖 自 硅 的 。 
QueueDepth 可 以 设置 大 一 些 ， 不 过 与 底层 的 一 些 因素 也 有 关系 ，FC 卡 
就 是 一 个 主要 瓶 祷 处 ， 有 的 FC 卡 写 死 了 QueueDepth， 不 管 上 面 多 大 ， 
到 了 它 这 都 得 排 着 。 多 个 worker 也 是 好 办 法 ， 增 加 并 发 度 ， 总 之 120000 
应 该 是 这 人 台 设 备 的 最 大 IOPS 了 。 关 于 你 问 的 QueueDep 了 th 怎么 设置 ， 自 
己 去 找 ， 不 同 设备 不 同 设置 法 。IO 硅 吐 量 突然 降低 ， 可 以 排除 下 列 几 个 











因素 : 测试 工具 应 用 端 设置 出 问题 ，FC 卡 驱动 或 者 Firmware 进 入 不 稳 态 
需要 Power Cycle， 配 置 变 更 ， 外 部 存储 设备 处 理 瓶 贷 ( 通 过 盘 阵 监控 工 
具 进 行 监控 ) ， 网 络 传输 上 发 生 问 题 (查看 本 地 接口 及 交换 机 状态 和 配 
置 ) 。 


9.RAID 5 在 一 块 盘 故障 之 后 如 何 继续 服务 IO 的 问题 


如 果 一 个 RAID 5 在 创建 时 没有 指定 热 备份 盘 ， 那 它 在 一 个 磁盘 失 
效 之 后 ， 能 够 继续 响应 用 户 的 读 请 求 是 很 自然 的 ， 那 它 能 否 继续 响应 
用 户 的 写 请 求 呢 ? 它 的 逻辑 地 址 空间 是 怎样 的 ? 发 到 失效 设备 上 的 写 
请 求 如 何 处 理 ? 





RAID 5 坏 一 块 盘 依旧 可 以 写 ， 坏 的 如 果 是 Parity 盘 ， 数 据 依然 完整 
写 入 数据 盘 。 如 果 坏 的 是 数据 盘 ， 则 一 个 写 需 要 窑 一 发 而 动 全 时 了， 此 
时 如 果 某 IO 只 更 新 坏 Segment 的 数据 ， 则 读 改 写 Parity 计 算 公式 中 的 “ 老 
数据 ”一 项 变 为 未 知 ， 所 以 只 能 读 出 所 有 其 他 数据 盘 的 数据 进行 校 验 然 
后 将 新 校 验 值 写 入 校 验 盘 即 可 。 这 个 问题 不 难 理解 ， 请 再 仔细 用 脑 思 
2 





10. 天 于 倒 盘 扩展 柜上 的 IN 和 OUT 应 口 的 问题 


接触 存储 时 间 不 长 ， 问 个 小 白 问题 ， 请 入 门 的 兄弟 给 解答 下 。 控 
制 器 后 面 的 主机 端口 上 面 有 IN 和 OUT 之 分 ， 麻 烦 给 解释 下 有 什么 区 
别 。 如 果 将 控制 器 主机 端口 (IN) 与 MDC 相 连 可 以 映射 到 阵列 中 的 相 
关 LUN， 如 果 与 《OUT) 相连 则 看 不 到 磁盘 ， 这 是 为 什么 ? 


完全 看 设计 了 ， 其 实 in 和 out 都 是 连接 在 一 个 Port Bypass Circuit 心 
上 的 。 按 理 说 连 到 out 上 也 可 以 进入 FC Loop， 但 是 有 些 设计 可 能 要 求 必 


须 接 到 in 一 条 ， 然 后 再 接 到 out 一 条 ， 就 可 以 同时 认 到 双 路 径 。 以 上 说 的 
都 是 Host 直 连 这 个 in 和 out。out 和 常规 情况 下 是 用 来 级 联 更 多 扩展 柜 的 。 


11. 关于 人 磁盘 上 的 “和 镜 余 空间 ”的 问题 


ext3 是 众所周知 的 日 志文 件 系 统 ， 在 写 一 个 文件 到 磁盘 的 空闲 区 
域 时 ， 采 用 先 写 文件 数据 ， 再 记录 元 数据 到 日 志 ， 最 后 写 元 数据 到 破 
盘 的 步骤 ， 这 样 可 以 保证 数据 的 一 致 性 。 但 是 如 果 文 件 系统 下 发 的 写 
请 求 是 对 非 空闲 的 磁盘 块 〈《 以 前 已 经 有 内 容 ) 进行 更 新 呢 ? 前 面 所 述 
的 步骤 就 不 能 保证 一 致 性 了 ， 这 种 情况 下 ext3 是 怎么 处 理 的 呢 ? 























前 提 ， 所 谓 * 非 空 采 ?和 “空闲 ”， 是 针对 FS 来 说 的 ， 磁 盘 自 身 没 有 空 
内 或 者 非 空 几 。FS 既 然 决定 了 要 和 窗 盖 某 个 文件 的 某 个 块 ， 束 证 明 原 来 的 
数据 已 经 不 需要 了 ， 此 时 窗 盖 也 无 妨 。FS 是 通过 bitmap 来 记录 磁盘 上 哪 
个 肩 区 为 空间 ， 哪 个 正 被 文件 占用 的 。 如 果 宪 盖 到 一 半 ，MetaData 未 写 
入 ， 此 时 依然 是 一 致 的 ， 因 为 bitmap 尚 未 更 新 ， 标 记 的 这 个 局 区 依然 是 
空闲 的 ， 虽 然而 区 中 实际 数据 变化 了 一 半 。 如 果 楼 主 理解 的 “一 致 "是 业 
务 层 的 一 致 ， 那 就 是 不 一 致 ， 文 件 没 有 被 真正 写 入 ， 此 时 上 层 应 该 报错 
提示 程序 写 入 不 成 功 ， 或 者 不 报错 ， 看 需求 。 但 是 此 时 FS 是 一 致 的 ， 也 
就 是 FS 不 需要 fsck。 














12. 关于 实际 磁盘 阵列 产品 使 用 FC Class Service 的 问题 


FC 协议 文档 提 到 :; FEC 仅 提供 了 错误 检测 手段 ， 但 大 多 数 情况 下 
FC 只 是 将 检测 到 的 异常 上 报 给 ULP， 是 否 重 传 、 重 传 哪些 数据 由 ULP 
决定 。 分 Class 级 别 的 ， 有 的 Class 束 提供 重 传 ， 有 的 则 不 提供 。 确 实 是 
这 样 ， 文 档 中 提 到 ， 由 于 SCSI 提 供 了 重 传 机 制 ， 因 此 SCSI over FC 
时 ， 一 般 采 用 Class ”3 (无 ACK) 。 但 文中 用 括号 写 了 这 么 一 句 ， In 


actual SCSI operation, class 3 is used for simplicity of 
implementation。 其 中 simplicity 让 人 生 疑 : Class 3 只 是 一 种 简化 方 
案 ， 真 正 运 营 时 会 采用 Class 3 吗 ? 


看 情况 了 ， 扼 我 所 知 某 阵 列 使 用 的 确实 就 是 Class3， 而 且 我 推 关 其 
他 阵列 几乎 也 都 会 使 用 Class 3， 因 为 SCSI 已 经 有 了 机 制 ， 没 有 必要 外 过 
层 再 多 此 一 举 了 。 


13. 关于 Cache Mirror 测 试用 例 的 问题 


双 控 ， 支 持 Cache Mirror。 请教， 如 何 设计 测试 Cache Mirror 功 
能 的 测试 用 例 ? 还 有 一 个 问题 : 存储 控制 器 的 Cache 一 般 是 单独 的 
Memory 还 是 从 整个 系统 的 Memory 中 分 配 一 部 分 来 做 Cache? 





设置 控制 咒 问 磁盘 Flush 的 频率 到 最 低 ， 然 后 测试 机 发 起 突 发 大 量 
IO， 期 间 人 为 Down 掉 目标 控制 费 ， 然 后 检查 磁盘 上 是 否 成 功 写 入 了 数 
据 ， 成 功 ， 则 有 效 ， 不 成 功 ， 则 Mirror 出 现 问 题 。 这 里 还 有 个 问题 ， 取 
决 于 控制 咒 的 设计 ， 如 果 茶 个 IO 恰好 断 在 控制 器 尚未 返回 ack 给 测试 
机 ， 则 妃 一 个 控制 器 是 否 可 以 继续 保留 状态 而 返回 ack? 如 果 不 保 留 ， 
则 程序 应 当 报错 ， 检 查 此 IO 的 上 一 个 IO 是 否 成 功 ， 成 功 ，Mirror 有 效 ， 
不 成 功 ， 有 问题 。 





-> 


谢谢 冬瓜 头 ! 有 两 个 问题 : 〈1) 存储 控制 器 为 何 没 有 调整 Flush 
频率 的 选项 ? (2) 测试 机 写 数据 的 时 候 应 该 复制 多 大 的 文件 为 好 ? 用 
IOmeter 这 样 的 工具 写 数据 不 太 合 适 吧 ? 








IOmeter 写 了 什么 你 不 清楚 ， 如 何 检查 ? 得 目 己 写 测试 程序 。 最 好 
是 写 小 东西 ， 比 如 每 次 一 个 LBA， 其 中 包含 容易 识别 的 二 进 制 。 








即使 和 目 己 写 了 程序 ， 怎 么 验证 人 硬盘 中 的 文件 是 通过 Cache 写 进去 
的 ， 还 是 通过 Cache Mirror 写 进去 的 ? 








同一 时 刻 发 送 大 量 IO， 控 制 占 缓存 不 会 立刻 写 到 人 磁盘， 此 时 Down 
掉 这 个 控制 器 ， 男 一 个 会 接着 写 ， 过 一 段 时 间 束 去 读 出 来 验证 。 你 再 和 仔 
细 想 想 Mirror 的 基本 原理 。 


哦 ， 男 一 个 接着 写 是 关键 ,这样 写 完 后 ， 过 一 段 时 间 读 出 来 验 
证 ， 如 果 文 件 不 完整 ， 就 说 明 mirror 有 问题 。 我 这 边 主 要 是 没有 考虑 
要 结合 多 路 径 来 测试 ， 如 果 没 有 配置 LUN 多 路 径 ， 一 个 控制 器 Down 掉 
了 ， 读 写 就 停止 了 。 另 外 ， 因 为 有 你 说 的 “恰好 断 在 一 个 IO 还 没有 返 
回 ack 之 前 ”， 所 以 需要 用 文件 复制 测试 可 能 有 问题 ， 而 需要 自己 写 
LBA 的 小 工具 ， 对 吧 ? 











其 实 写 文件 也 不 是 不 可 以 ， 只 是 可 探 性 不 好 。 写 入 大 量 小 文件 ， 
Down 机 瞬间 到 底 写 了 哪 一 些 ， 你 不 知道 。 


可 以 写 一 个 大 文件 吧 ， 比 如 说 压缩 的 RAR 文件 ， 如 果 Mirror 出 了 
问题 ， 那 么 在 读 出 来 验证 的 时 候 ， 解 压 RAR 文件 肯定 会 有 问题 ; 但 是 
如 果 读 出 来 的 RAR 文件 解压 没 问 题 ， 那 是 否 能 说 明 Mirror 一 定 没 有 问 
题 呢 ? 


写 大 文件 很 有 可 能 触发 控制 器 的 连续 写 盘 动作 ， 惑 测 不 出 来 了 。 


Carlhewei《〈 一 哥 卡 尔 ) 说 道 : 使 用 “小 文件 * 有 更 大 的 机 会 去 测试 ， 
大 文件 的 话 Cache Destage 可 能 会 太 快 而 做 不 成 有 效 测试 。“ 小 文件 ”可 能 
不 是 个 好 名 词 ， 正 确 的 应 该 是 : 自己 写 一 个 工具 ， 对 象 是 裸 设 备 ， 对 指 
定 的 起 始 LBA 写 入 Data Pattern， 比 如 从 LBA 1 一 2 之 间 写 A，LBA 2 一 4 之 
间 写 B。 有 了 工具 后 ， 就 是 选 址 写 Data ”Pattern。 选 址 尽量 拉 远 并 且 随 











机 ， 每 次 写 一 块 。 你 的 工具 可 以 把 发出 的 LBA、Data Pattern 和 大 小 记录 
到 log 里 。 然 后 用 冬瓜 的 方法 ， 可 以 Hard Reset Controller 〈 就 是 像 断 电 一 
样 的 Shutdown， 但 是 不 用 拔 出 来 ) ， 然 后 根据 log 把 数据 读 出 来 对 比 。 


14. 冷 热 插 拔 与 Rebuild 


请 教 下 各 位 ，RAID ”5/0 十 1 是 否 文 持 在 Normal 状 态 下 ， 切 断 电 
源 ， 更 换 Disk (RAID 5 1disk 、RAID0 十 1 less than 1 pair) ， 然 后 
power up， 这 两 种 阵列 是 否 文 持 这 样 的 冷 插 拔 的 recover/resyncing? 恢 
复 机 制 是 怎样 的 ? 


冷 插 拔 和 热 插 拔 一 样 ， 起 来 之 后 便 会 rebuild。 
15. 如 何 实 现 RAID 的 动态 扩容 ? 


(1) TFTP 能 人 否 文 持 路 网 段 的 传输 ? (PS: 今天 测试 了 好 半天 ， 
最 后 发 现 貌 似 不 行 ， 但 是 也 没有 搜 到 相关 的 官方 说 法 。) 


(2) 假设 一 个 RAID 01 由 四 块 100GB 的 磁盘 组 成 ， 用 一 个 150GB 
的 大 容量 盘 更 换 其 中 的 一 块 磁盘 ， 等 重建 完成 ， 然 后 更 换 第 二 块 磁 
盘 ， 再 等 重建 完成 ..…. 依 次 更 换 四 块 磁盘 容量 为 150GB 的 新 一。 这 样 
第 四 块 盘 在 开始 重建 过 程 中 会 不 会 和 前 面 的 三 块 盘 没 有 条 带 化 的 50GB 
组 成 条 带 〈 因 为 现在 四 个 盘 都 已 经 是 150GB 了 ) ? 简 而 言 之 ， 如 何 实 
现 RAID 的 动态 扩容 ? 


TFTP 基 于 TCPIP， 除 非 这 个 协议 必须 用 到 广播 ， 否 则 怎么 不 可 能 不 
支持 跨 网 段 ， 只 要 IP 能 Ping 通 ，TFTP Server 起 来 ， 就 可 以 。 (好 像 有 些 
说 法 认为 菜 些 TFTP 软 件 使 用 ARP 广 播 ， 致 使 不 能 跨 广 播 域 。) 


第 二 个 问题 完全 看 RAID 控 制 费 的 实现 方式 了 ， 传 统 上 50GB 是 浪费 
了 。 但 是 不 排除 有 些 控制 器 的 算法 不 同 ， 能 利用 起 这 50GB。 由 于 是 一 
块 一 块 地 答 换 的 ， 所 以 多 出 来 的 区 域 的 条 市 可 能 是 不 连续 的 ， 不 管 怎么 
说 ， 具 体 算法 ， 还 是 设计 者 说 了 算 。 如 果 是 校 验 型 RAID， 想 利用 起 多 
余 的 空间 ， 就 需要 将 最 大 的 盘 作 为 校 验 盘 以 便 容 纳 随 后 加 入 的 盘 ， 如 果 
加 入 更 大 的 ， 则 最 大 的 盘 顶 苦 当 前 校 验 盘 ， 这 样 就 可 以 继续 容纳 随后 加 
入 的 盘 了 。 








在 这 里 多 说 两 句 。RAID 组 扩容 后 的 数据 分 布 有 两 种 处 理 方式 : 一 
是 Redistribute， 二 是 Append。 前 者 ， 在 新 盘 加 入 RAID 组 之 后 ， 控 制 器 
立即 将 组 中 原来 磁盘 尾部 的 数据 恋 出 来 号 入 新 加 入 的 盘 ， 重 算 Parity， 
平衡 数据 分 布 ， 所 以 叫 Redistribute， 很 耗费 资源 。 后 者 ， 新 盘 加 入 
RAID 组 中 之 后 ， 控 制 占 不 做 任何 额外 的 数据 迁移 操作 ， 而 只 是 在 逻辑 
和 物理 地 址 对 应 表 中 作 变 更 ， 相 当 于 在 RAID 组 中 插入 了 一 个 一 个 的 
Segment 健 片 ， 人 逻辑 上 ， 这 块 新 加 的 盘 的 空间 被 乙 加 的 逻辑 地 址 的 尾 
部 ， 而 物理 上 却 是 琐 真 的 不 连续 物理 空间 。 随 着 前 端 IO 辣 这 块 逻辑 尾部 
空间 的 持续 写 入 ， 控 制 器 会 根据 地 址 映射 表 将 新 数据 写 到 对 应 的 物理 空 
间 中 ， 也 就 是 前 者 牺牲 了 一 时 的 性 能 来 保证 地 址 依然 是 规则 连续 映 冉 
的 ， 从 而 保障 了 后 期 性 能 ;， 而 后 者 则 是 在 潜移默化 中 对 后 期 的 性 能 造成 
了 一 定 的 影响 。 








16. 流 媒体 服务 需 使 用 何 种 存储 协议 的 问题 


应 用 : 流 媒体 服务 ， 流 媒体 处 理 模块 和 存储 介质 物理 上 分 开 ， 前 
者 在 单 板 A， 后 者 在 单 板 B， 二 者 通过 以 太 网 总 线 连接 ， 高 带宽 〈 大 约 
在 10 一 20Gbps) ， 且 需要 保证 传输 可 靠 性 。 问 题 : A、B 之 间 应 该 采用 
何 种 存储 协议 ? 


我 的 想法 如 下 。 


方案 一 : iSCSI 





优点 : 标准 主流 协议 ， 可 扩展 性 好 ， 对 以 太 网 没有 特殊 需求 。 





缺点 : TCP/PP 协 议 开 销 较 大 ， 为 保证 高 带宽 ， 需 要 TOE 技 术 ， 成 
本 较 高 。 


方案 二 : FCoE 
优点 : 不 其 了 解 。 


缺点 : FCoE 与 CEE 均 未 完全 标准 化 ， 即 使 标准 化 ， 对 以 太 网 有 和 额 
外 需求 〈 需 支持 CEE? ) 。 


方案 三 : SCSI over Ethernet 

优点 : 简单 ? 

缺点 : 小 众 标准 ， 不 知 成 熟 度 如 何 。 

SCSI over Ethernet， 目 前 有 产品 么 ? 
个 人 理解 ，FCoE 的 成 本 主要 集中 在 : 

(1) FC 协 议 处 理 忌 片 〈 能 否 用 CPU 完成 ? ) ; 
(2) 普通 千 兆 或 万 兆 以 太 网 卡 。 


用 哪 种 协议 ， 真 不 好 说 ， 得 实测 才 行 。File 协 议和 Block 各 有 优 缺 
扩 。 不 过 本 质 受 限于 的 层 链 路 ， 差 不 太 多 。 目 前 FCOE 还 不 知道 是 不 是 


县 花 一 现 的 东西 。 另 外 如 果 单 纯 为 了 FCOE 而 FCOE 的 话 ， 没 有 意义 。 如 
果 原 来 系统 中 有 FC 的 SAN， 现 在 想 融合 到 以 太 网 中 而 且 有 迫切 需求 ， 
那 可 以 考虑 。 不 过 ， 目 前 FCOE 都 是 使 用 专门 的 适 配 卡 和 专门 的 交换 
机 ， 与 传统 以 太 网 根本 不 可 互 操作 ， 目 前 实际 主要 应 用 于 大 型 运营 商 ， 
准备 同时 投入 高 速 以 太 网 与 存储 网 络 的 ， 可 以 在 适配器 、 布 线 、 交 换 机 
方面 成 本 有 所 节省 ， 离 行业 市 场 客户 还 差 很 远 。16 口 8Gbps FC 交换 机 也 
就 两 万 多 元 一 台 ， 一 台 同 样 口 数 的 10Gbps 的 FCOE 交 换 机 ， 贵 了 去 了 。 
但 是 对 于 运营 商 那 种 大 型 模块 化 交换 机 来 讲 ，FCOE 交 换 机 由 于 融合 了 
两 种 网 络 ， 反 而 比 单独 为 每 种 网 络 都 配 一 台 交 换 机 要 便宜 了 。 




















17. FC 是 否 可 以 使 用 主机 CPU 模 拟 的 问题 


想 外 接 FC SAN， 主 机 是 否 必 须 配 置 FC HBA 卡 ， 还 是 可 以 用 主机 
CPU 模拟 ? 

若 能 模拟 ，CPU 开 销 是 否 很 大 ? 

模拟 不 了 。 起 码 要 有 张 FC 卡 ， 软 硬 不 说 ， 接 口 起 码 得 有 ， 而 且 FC 
的 链 路 层 Frame 同 步 ， 提 取 功 能 要 有 ， 其 他 上 层 逻 辑 可 以 用 CPU 模拟 。 


Oooops， 我 的 问题 描述 有 误 ， 应 该 是 : FCoFE 中 ，FC-2 帧 通过 以 
太 网 承载 ，FC 协 议 处 理 能 否 用 主机 CPU 实 现 ? 按照 冬瓜 头 的 解释 ， 我 
理解 此 时 FC-2、FCoE ”Mapping 属 于 “上 层 逻 辑 "”， 可 以 通过 CPU 实 现 
的 。 


这 样 的 话 是 可 以 的 ， 而 且 我 推测 很 可 能 一 开始 某 些 FCOE 卡 大 部 分 
逻辑 就 运行 在 其 驱动 程序 中 。 


18. Stripe 与 Block 的 关系 


在 创建 RAID 的 时 候 ， 会 让 你 选择 Stripe Size 以 及 Block Size， 
Block Size 跟 所 创建 RAID 容 量 超 过 2TB 后 被 主机 识别 有 关系 。Stripe 以 
及 Block 什 么 关系 没有 ? 最 好 是 有 个 结构 图 可 以 说 明 一 下 啊 。 














不 知道 具体 哪个 设备 ， 一 般 来 讲 Block ”Size 是 存储 内 部 对 磁盘 读 写 
的 二 级 单位 。Stripe ”Size 是 RAID 横 跨 所 有 RAID 组 磁盘 的 逻辑 单元 。 要 
说 有 联系 的 话 ，Stirpe Depth 的 最 小 单位 就 是 一 个 Block， 除 了 Block， 还 
有 多 种 其 他 被 定义 的 概念 比如 Chunk、Segment、Slice 等 ， 与 各 个 厂家 设 
计 和 定义 有 关 ， 需 要 去 看 三家 的 白皮书 。 





另外 ， 著 名 的 Windows 操 作 系 统 2TB 极 限 问题 ， 是 说 MBR 分 区 格式 
下 最 大 分 区 2TB， 而 不 是 说 系统 只 能 认 最 大 磁盘 2TB， 磁 盘 可 以 认 到 很 
大 ， 只 要 注册 表 中 打开 48b 寻 址 模式 即 可 。 解 决 办 法 是 使 用 GPT 分 区 或 
者 动态 磁盘 。 而 且 ，Block Size 与 这 个 问题 无 关 。 


19. Loop 与 RAID 


如 果 是 阵列 里 的 Loop 架 构 ， 那 么 RAID 如 何 工作 呢 ? 如 何 保证 多 
块 硬盘 同时 读 写 呢 ? 还 有 就 是 这 个 LOOP 如 何 收敛 昵 ? 冬瓜 兄 ， 我 理 
解 LOOP 的 原理 是 一 个 节点 占用 后 需要 完成 操作 再 释放 令 牌 ， 磁 盘 干 
活 不 就 是 磁盘 读 写 和 传输 么 ， 总 得 让 它 一 次 VO 操作 结束 才 释 放 令 有 牌 
吧 ， 其 他 磁盘 岂 不 是 得 等 着 ?呵呵 ， 不 知道 理解 是 否 正确 ， 茶 听 各 位 


局 见 。 

















请 求 发 过 去 ， 磁 盘 总 得 干 活 吧 ， 王 活 的 时 间 ， 其 他 盘 也 给 了 任务 
了 ， 束 像 boss 一 样 ， 不 让 人 闲 厦 ， 闪 着 成 本 就 高 ， 一 个 道理 。 呵 呵 ， 仲 
裁 权 不 是 这 么 弄 的 ， 仲 裁 不 是 一 个 Session。 一 个 写 操作 底层 对 应 着 多 个 
Frame， 每 次 党 试 发 送 一 个 Frame， 都 要 仲裁 ， 而 不 是 仲裁 一 次 等 这 个 IO 





完成 的 。 每 个 Frame 都 要 仲裁 ， 这 样 才能 保证 其 他 设备 不 被 饿 死 ， 如 宁 

是 Session 的 话 ， 早 就 被 狐 死 了 了， 有 Session 的 那 是 更 加 上 层 的 协议 ， 比 如 
TCP， 底 层 需要 做 的 是 充分 保证 拓扑 上 每 个 点 的 公平 性 。 另 外 ， 以 太 网 
也 是 每 Frame 都 要 进行 CSMA 的 ， 而 且 估计 你 也 不 知道 网 卡 每 收 到 一 个 

Frame， 都 要 中 断 CPU 来 执行 驱动 程序 提取 这 个 Frame 中 的 上 层 

Payload， 这 里 顺便 告诉 你 一 下 。 





20. RAID 初 始 化 的 问题 


能 详细 说 明 下 ， 做 了 初始 化 再 使 用 RAID 的 好 处 吗 ? 





与 实现 方法 有 很 大 关系 。 如 果 所 有 磁盘 在 加 入 RAID ”Group 前 都 预 
处 理 过 ， 则 不 需要 初始 化 。 如 采 没 有 预 处 理 比如 以 前 用 过 的 磁盘 而 没有 
清 零 直接 加 入 RAID Group， 则 需要 初始 化 。 有 两 种 方式 : 前 台独 占 性 
初始 化 ， 后 台 初 始 化 。 前 者 初始 化 结束 之 前 不 能 接受 IO。 而 后 者 可 以 一 
边 接受 IO 一 边 初 始 化 ， 但 是 后 者 对 IO 的 性 能 有 很 大 影响 ， 控 制 器 会 在 后 
台 连 续 地 对 所 有 条 市 初始 化 清 零 操作 ， 或 者 读 取 所 有 数据 盘 上 的 数据 进 
行 校 验 并 将 校 验 值 写 入 Parity 盘 ， 视 不 同 设计 而 定 。 期 间 一 旦 遇 到 上 层 
下 发 的 写 IO， 则 临时 跳跃 到 对 应 的 条 带 进 行 操作 ， 完 成 后 再 转 回 来 继 
续 。 写 IO 刷 盘 之 前 如 果 对 应 的 目标 条 带 尚 未 初始 化 过 ， 那 么 控制 器 会 直 
接 在 内 存 中 就 计算 好 这 个 条 和 带 的 内 容 然 后 整 条 写 ， 这 个 整 条 中 包括 此 写 
IO 的 数据 Segment， 其 他 磁盘 的 全 0 的 Segment 以 及 计算 好 的 Parity 
Segment。 对 于 RAID 初 始 化 的 详细 摘 述 本 附录 后 文 还 有 。 














你 的 书 上 说 初始 化 有 两 种 情况 : 一 种 是 对 所 有 的 盘 全 部 写 0; 男 一 
种 是 保持 原来 的 数据 ， 只 是 写 入 校 验 位 。 我 这 碰 到 的 应 该 是 第 二 种 情 
况 ， 好 像 没 多 大 必要 都 写 O。 还 有 就 是 我 这 的 RAID ”5 不 初始 化 也 是 可 
以 用 的 ， 是 不 是 对 性 能 上 或 者 安全 上 有 影响 啊 ? 还 望 再 解释 一 下 ， 非 











常 感谢 ! 


凡是 没有 写 0， 拿 了 盘 就 加 入 RAID Group 并 且 立 即 可 以 使 用 的 ， 属 
于 后 台 初 始 化 ， 性 能 会 受到 影响 ， 因 为 写 入 的 时 候 它 有 必要 读 出 必需 的 
部 分 来 进行 校 验 ， 几 乎 部 是 全 条 带 读 出 校 验 ， 所 以 这 个 时 候 ，RAID 5 写 
惩 记 将 达到 最 大 。 








写 的 时 候 为 什么 还 要 读 出 以 前 的 旧 数 据 来 校 验 啊 ? 直接 写 入 对 应 
的 而 区 不 融 可 以 吗 ? 还 望 再 解释 一 下 ， 很 想 搞 异 它 的 具体 过 程 ， 谢 
谢 。 





请 先 理解 校 验 型 RAID 写 入 时 候 的 具体 动作 。 直 接 写 ， 其 他 什么 都 
不 干 ? 那 还 叫 RAID 5 么 ， 那 不 RAID 0 了 么 。 未 初始 化 的 RAID 5， 其 校 
验 值 根本 就 是 不 匹配 的 ， 因 为 盘 是 拿 来 就 用 的 ， 上 面 的 数据 均 未 清 零 ， 
写 入 某 个 块 ， 就 需要 读 出 整个 条 带 上 其 他 所 有 块 来 共同 进行 校 验 ， 并 写 
入 正确 的 校 验 值 。 这 个 条 带 校 验 完毕 后 ， 如 果 再 有 写 IO 针 对 这 个 条 带 ， 
那么 就 按照 正常 RAID 5 写 入 时 候 的 动作 。 有 具体 请 参考 《大 话 存储 》， 仔 
细 思 考 。 














2 执意 捞 是 什 委 东西 


存储 中 他 们 说 的 热点 盘 是 啥 意思 ? 


热点 盘 就 是 几乎 每 次 IO 都 会 读 写 的 那个 盘 。 比 如 RAID 4 中 的 校 验 
盘 ， 每 次 写 IO 无 一 例外 均 会 读 写 这 个 校 验 盘 ， 使 得 这 个 盘 的 速度 成 为 瓶 
颈 ， 而 且 也 容易 疲劳 而 损坏 。 除 了 RAID 机 制 比如 RAID 4 导致 的 不 可 避 
免 的 热点 之 外 ， 其 他 因素 ， 比 如 某 个 应 用 程序 长 时 间 不 停 地 读 写 某 个 
盘 ， 而 系统 中 其 他 的 磁盘 则 相对 空 亲 ， 则 这 个 频繁 读 写 的 盘 相 比 于 其 他 





盘 也 是 热点 盘 。 比 如 数据 库存 放 日 志 的 盘 ， 相 对 于 存放 数据 文件 的 磁 
盘 ， 就 是 热点 盘 。 





如 何 解决 热点 盘 的 瓶颈 呢 ? 





避免 用 RAID 4， 将 需要 频繁 读 写 的 盘 放 在 RAID 0/RAID 10/RAID 5 
之 上 ， 使 这 种 潜移默化 的 损害 平衡 到 多 个 物理 磁盘 上 ， 降 低 每 盘 损坏 的 
几率 和 提高 IO 性 能 。 其 次 ， 合 理 设 计 应 用 程序 。 


22. 如 何 放置 数据 文件 的 问题 


Oracle 的 库 ， 其 中 一 个 2TB， 一 个 2.6TB， 对 应 数据 和 索引 文件 ， 
从 Oracle 的 性 能 来 ， 最 好 能 放 到 不 同 的 IO 上 。Windows Server 2003 目 
前 使 用 存储 ，RAID 0 十 1 后 总 空间 是 5TB 多 ， 当 前 这 种 方案 整个 做 
RAID 0 十 1， 然 后 在 Windows 中 分 两 个 区 ， 分 别 放 数 据 和 索引 。 我 的 
想法 ， 能 否 在 存储 上 分 别 做 两 个 RAID 0 十 1， 在 Windows 上 被 认 成 两 
个 不 同 的 物理 盘 ? IO 性 能 更 好 一 点 ， 这 点 能 实现 吗 ? 不 清楚 存储 的 原 
理 ， 这 样 做 性 能 是 否 更 好 一 些 ? 


后 者 更 好 一 些 。 如 果 做 成 一 个 大 的 RAID ”Group， 数 据 和 索引 的 IO 
会 有 冲突 ， 只 能 排队 ， 但 好 处 是 空间 分 配 灵活 。 打 成 两 个 RAID 
Group， 各 自 就 有 了 专用 盘 ， 在 RAID 这 一 级 上 就 不 会 冲突 ， 但 是 在 底层 
比如 FCAL 上 依然 是 冲突 的 ， 但 这 是 无 法 避免 的 。 一 个 例外 就 是 两 个 
RAID ”Group 的 盘 分 属 不 同 的 Loop， 就 不 会 在 Loop 这 层 冲 突 ， 但 是 依然 
会 在 FC 控制 器 处 有 冲突 的 可 能 。 比 如 同一 个 FC Chip 管 理 共 享 的 多 个 AL 
环 ， 避 免 方法 就 是 使 用 每 Loop 独 立 FC Chip 的 卡 。 然 而 FC Chip 这 一 层 可 
以 解决 ， 但 是 再 下 一 层 也 就 是 IO 总 线 这 一 层 ， 依 然 可 能 冲突 ， 比 如 多 个 
AL 环 多 个 Chip 多 个 FC 卡 同 处 一 个 IO 总 线 ， 避 免 方法 是 让 其 分 属 不 同 的 

















总 线 。 再 往 下 就 是 CPU 冲 突 ， 避 免 方 法 使 用 多 核 的 、 前 端口 的 共享 等 。 
顺带 说 了 一 大 堆 ， 呵 呵 。 


23.RAID 10 和 RAID 5 的 详细 对 比 


RAID 10 和 RAID 5 相 比 ， 哪 个 性 能 比较 高 呢 ? 


RAID 10 比 RAID 5 在 读 方面 稍微 强 了 一 点 点 ， 但 是 强 的 这 一 点 点 并 
不 是 因为 数据 被 镜像 了 所 带 来 的 ， 而 是 因为 RAID 5 比 RAID 10 多 了 一 个 
Parity 盘 ， 无 法 接受 用 户 数 据 IO。 我 们 来 举 个 例子 如 何 。8 块 盘 。 


RAID 10 
11223344 
55667788 
RAID 5 
1234567P 
8 


有 12345678 这 四 个 数据 放 在 这 个 8 盘 RAID 10 上 ， 而 8 盘 的 RAID 5， 
则 是 1234567P，P 代 表 parity。 先 来 看 随机 小 块 IO， 比 如 上 层 发 来 这 样 一 
组 IO， 读 1， 然 后 3、2、4、8、5、7， 此 时 ， 抛 开 FCAL 底 层 不 讲 ， 
RAID 10 之 上 可 以 并 发 这 8 个 IO 的 ， 每 个 盘 处 理 一 个 IO， 此 时 RAID 5 之 
上 只 能 并 发 7 个 IO， 也 就 是 1234567， 废 了 一 个 P 盘 。 所 以 说 读 方面 ， 
RAID 10 的 性 价 比 远 不 如 RAID 5。 








再 来 看 写 方面 ， 同 样 是 上 面 的 RAID 组 ，RAID 10 上 ， 抛 开镜 像 过 程 
是 异步 还 是 同步 ， 全 部 按照 同步 镜像 来 算 ， 也 就 是 说 写 入 一 块 盘 则 必须 
同步 号 入 另 一 块 盘 。 假 设 上 层 某 时 刻 发 来 一 组 写 IO，1、6、3、4、5、 
7、8，RAID 10 可 以 并 发 的 JO 只 有 4 个 ， 也 就 是 永远 等 于 磁盘 总 数 除 以 
2。 再 来 看 RAID 5， 同 样 这 组 IO， 其 可 并 发 的 是 1 一 7， 构 成 整 条 写 ， 写 
效率 大 大 高 于 RAID 10 了 。 这 个 例子 貌似 对 RAID 10 不 公平 ， 我 们 先 来 
看 单一 Segment 的 IO 行为 。 单 个 Segment 写 的 情况 下 ，RAID 10 之 上 会 产 
生 两 个 实际 Segment 的 IO， 而 RAID 5 则 对 应 了 两 个 读 和 两 个 写 的 IO， 比 
RAID 10 多 了 两 个 读 。 如 果 是 两 个 Segment 的 IO， 比 如 1、2， 则 RAID 10 
对 应 了 4 个 写 操作 ，RAID 5 此 时 采用 了 读 改写 ， 即 3 个 读 3 个 写 ， 比 RAID 
10 多 了 3 个 读 ， 少 了 一 个 写 。 依 此 类 推 ，3 个 IO 情况 下 ，RAID ”10 是 6 个 
写 ，RAID5 则 是 4 个 读 ，3 个 写 ， 比 RAID 10 少 了 3 个 写 ， 多 了 4 个 读 。 至 
此 ，RAID 5 已 经 达到 读 改 写 和 重 构 写 持平 态 ，IO 再 多 可 以 实现 重 构 
写 ， 极 端 态 下 可 以 实现 整 条 写 。 显 然 ， 重 构 写 和 整 条 写 就 比 RAID 10 高 
效 多 了 。 

















然而 ， 上 述 结果 是 基于 小 范围 的 随机 ， 也 就 是 一 批 IO 很 大 几率 都 分 
布 到 同一 个 条 带 中 。 如 果 上 层 的 随机 IO 离散 度 过 大 以 至 于 分 布 到 同一 个 
条 带 的 几率 大 大 降低 ， 此 时 ，RAID 10 的 优势 凸显 ， 因 为 不 管 IO 离散 度 
如 何 ，RAID 10 始 终 可 以 并 发 半数 磁盘 数 的 IO 。 而 RAID 5 此 时 就 要 碰 运 
气 了 ， 可 并 发 几率 大 大 降低 ， 此 时 RAID 5 性 能 与 RAID 10 相 比 就 差别 比 
较 大 了 了 


综 上 所 述 ， 相 同情 况 下 ，RAID 5 的 写 操作 总 是 小 于 等 于 RAID 10 写 
操作 ， 而 读 操作 总 是 大 于 RAID 10， 在 高 度 随机 写 IO 的 情况 下 ，RAID 5 
读 改 写 的 几率 最 大 ， 所 以 相 比 RAID 10 多 出 了 很 多 读 操 作 ; 而 在 随机 性 
不 太 高 并 且 并 发 几率 比较 高 的 情况 下 ，RAID5 重 构 写 甚至 整 条 写 的 几率 





大 大 增加 ， 此 时 RAID 5 效率 与 RAID 10 接 近 。 加 上 读 操 作 比 写 操作 成 本 
和 效率 更 低 ， 而 且 如 果 考 虑 入 Cache 的 预 读 效 果 加 成 ， 总 体 来 讲 RAID 5 
与 RAID 10 实 际 使 用 中 ， 在 小 范围 随机 IO 的 情况 下 效果 差别 不 是 很 大 ， 
如 果 考 虑 性 价 比 ， 首 选 RAID 5。 如 果 写 IO 离散 度 过 大 ， 此 时 RAID 5 性 
能 下 降 就 比较 厉害 了 。 优 化 的 控制 器 会 平衡 IO Queue 的 大 小 ，Queue 越 
大 ， 就 有 更 大 的 几率 优化 成 并 发 IO， 但 是 延迟 和 开销 却 越 大 ; ，Queue 越 
小 ， 优 化 成 并 发 IO 的 几率 越 小 ， 然 而 开销 和 延迟 就 越 小 。 


24. 磁盘 数量 太 多 的 RAID 组 ， 有 什么 优 缺 点 
磁盘 数量 太 多 的 RAID 组 ， 有 什么 优 缺 点 ? 


一 个 RAID 组 中 的 磁盘 数量 越 多 ，IO 性 能 就 越 高 。 当 然 控 制 器 起 到 
至 关 重 要 的 作用 ， 有 些 控制 器 的 硬件 规格 不 能 承受 太 多 磁盘 同时 IO， 总 
有 上 限 。 通 常情 况 下 ， 一 个 RAID 组 推荐 磁盘 数量 为 8 一 14 块 。 磁 盘 太 多 
也 有 缺点 ， 比 如 扩展 性 差 ， 因 为 RAID 组 一 旦 创建 完成 就 不 可 以 剔除 其 
中 磁盘 ， 拔 掉 任 何 一块 磁 盘 ， 便 处 于 降级 状态 ， 和 危险 增加 ， 必 须 插 入 新 
磁盘 来 项 蔡 。 所 以 创建 RAID 组 是 不 可 逆 过 程 ， 如 果 一 次 就 用 了 太 多 磁 
盘 ， 今 后 余地 就 很 少 了 ， 尤 其 是 拥有 磁盘 数量 不 多 的 情况 下 。 还 有 一 个 
缺点 ， 就 是 Rebuild 过 程 会 很 长 ，Rebuild 需 要 读 出 整个 条 带 的 数据 ， 如 
果 厂 盘 数 量 太 多 ， 则 Rebuild 时 间 会 严重 增加 ， 系 统 不 堪 重 负 。 











25. 多 主机 共享 LUN 的 问题 


我 们 公司 用 HP-MSA2000 磁 盘 柜 存储 8TB 的 数据 ， 有 三 台 Dell 的 
1950 服 务 器 (操作 系统 为 Centos) 访问 这 个 存储 柜 ， 存 取 数 据 。 连 接 
方式 是 服务 器 通过 光纤 交换 机 直 连 磁盘 柜 ， 然 后 挂 载 到 本 地 访问 。 问 
题 : 从 其 中 一 台 服 务 器 往 磁 盘 柜 上 传 文 件 ， 这 个 时 候 其 他 服务 器 从 本 








地 挂 载 的 硬盘 上 看 不 到 刚才 上 传 的 文件 ， 除 非 是 先 卸 载 反 ， 然 后 再 挂 
载 才 能 看 到 。 这 是 为 什么 昵 ? 另外 这 种 连接 方式 是 不 是 SAN 呢 ? 





多 主机 共享 同一 个 LUN， 除 非 所 有 主机 上 都 安装 集群 文件 系统 或 者 
SAN 共 享 仲裁 软件 比如 SANergy ImageSAN 之 类 ， 人 否则 会 出 问题 。 问 题 
的 根源 就 在 于 三 台 主 机 上 的 文件 系统 写 入 LUN 的 信息 不 是 同步 的 ， 而 是 
各 有 人 各 的 缓存 ， 写 入 的 数据 先进 入 缓存 。 而 且 也 没有 锁 机 制 ， 致 使 数据 
不 同步 不 一 致 。 要 达到 你 的 目的 ， 多 主机 共享 数据 ， 要 么 用 NAS 要 么 用 
特殊 的 文件 系统 ， 但 是 推荐 用 NAS， 成 熟 ， 方 便 ， 只 不 过 带宽 可 能 满足 
不 了 要 求 。SAN 共 享 软件 当然 所 有 节点 都 得 装 。 不 知道 Reiserfs 本 吴 是 
否 支 持 共享 ， 不 支持 的 话 ， 上 面 已 经 回答 了 。 至 于 DAS 还 是 SAN 的 ， 不 


重要 。 














而 这 方面 我 自己 的 定义 是 这 样 的 : 广义 来 讲 ，SAN 指 的 是 存储 网 络 
和 其 中 的 所 有 元 素 ， 也 就 是 说 ， 只 要 通过 网 络 来 传输 存储 数据 的 ， 都 属 
于 SAN 范 畴 。NAS 也 属于 SAN。FC 直 连 也 应 当 属 于 SAN， 因 为 FC 是 一 
个 包 交 换 的 现代 网 络 传输 协议 ， 不 管 物 理 拓扑 上 是 直 连 还 是 通过 交换 设 
备 ， 其 协议 本 质 已 经 是 Network。 而 目前 的 存储 架构 中 ， 唯 一 排除 在 
SAN 范 畴 之 外 的 应 该 是 传统 的 SCSI 线 缆 、SATA 线 缆 、IDE 线 缆 、 
USB、1394 等 访问 方式 。 因 为 它们 不 具备 包 交 换 的 特性 ， 如 果 硬 说 它们 
也 是 网 络 的 话 〈 其 实 就 是 网 络 ) ， 那 么 也 是 一 个 共享 总 线 的 网 络 ， 不 有 具 
有 次 世代 网 络 特征 。 然 而 ， 如 果 从 最 大 的 角度 来 看 ， 目 前 所 有 存储 架构 
都 属于 SAN， 从 一 开始 就 属于 SAN。 





26. 如 何 利用 多 以 太 网 链 路 达到 最 大 带宽 的 问题 


环境 描述 : 服务 需 端 安装 了 多 路 软件 ，iCSI 磁 盘 阵 列 只 有 一 个 
LUN 分 区 ， 控 制 器 上 面 有 4 个 iSCSI 主机 接口 。 假 设 此 款 磁盘 阵列 的 每 


个 主机 接口 只 有 100MB 的 带宽 ， 连 接 到 千 兆 交换 机 ， 此 区 交换 机 文 持 
链 路 聚合 功能 ， 即 Port Trunking。 即 把 四 条 百 兆 链 路 聚合 成 一 条 总 共 
400MB 市 宽 的 链 路 。 磁 盘 阵 列 的 这 个 分 区 根据 四 个 端口 都 映射 给 了 服 
务 器 ， 即 服务 器 在 没有 配置 多 路 径 软 件 时 可 以 看 到 四 个 完全 一 样 的 分 
区 。 使 用 了 多 路 径 软 件 之 后 ， 系 统 只 有 一 个 分 区 ， 即 任何 一 条 链 路 出 
现 故 障 ， 不 影响 对 磁盘 阵列 的 正常 读 写 。 问 题 : 


(1) 服务 器 向 磁盘 阵列 读 写 数据 时 ， 是 否 能 够 通过 链 路 聚合 而 达 
到 400MB 的 带宽 ? 


(2) 多 路 径 软 件 只 认可 一 条 链 路 ， 主 要 功能 是 容错 ， 然 而 ， 和 是 否 
在 读 写 时 只 使 用 一 条 链 路 把 数据 写 入 磁盘 阵列 呢 ? 假设 此 磁盘 阵列 本 
喘 不 文 持 链 路 缀 合 的 功能 。 如 采 文 持 链 路 聚合 功能 的 话 ， 直 接 在 磁盘 
阵列 把 四 个 主机 接口 绑 定 成 一 条 链 路 ， 那 什么 问题 都 解决 了 。 





第 一 个 问题 : 这 种 情况 ， 只 有 在 同时 满足 下 列 几 个 条 件 的 情况 下 ， 
才能 达到 400MB/s。 


多 路 径 软 件 文 持 多 路 径 并 发 。 

盘 阵 端的 每 个 以 太 口 必须 都 设计 为 独 享 带宽 ， 不 允许 有 任何 一 个 
与 其 他 端口 共享 带宽 ， 也 就 是 不 允许 两 个 或 者 几 个 端口 在 一 个 
HUB 上 。 我 说 的 带宽 是 说 盘 阵 内 部 背 板 上 的 带宽 ， 而 不 是 说 外 部 
的 交换 机 或 者 HUB。 

客户 端的 IO 类 型 ， 随 机 小 Size 的 IO， 达 到 400MB 不 可 能 。 需 要 连 
续 大 块 的 并 发 IO。 

a 后 端 前 端 中 部 总 线 以 及 处 理 能 力 均 满足 400MB/s 的 需求 。 





值得 一 提 的 是 ， 利 用 多 路 径 达到 的 聚合 ， 是 原生 的 ， 不 需要 盘 








阵 “ 文 持 ”， 但 是 盘 阵 一 定 要 文 持 同时 问 多 个 前 端口 映射 这 个 LUN。 





第 二 个 问题 : 多 路 径 软 件 一 般 是 文 持 多 路 径 并 发 的 ， 不 过 效率 很 少 
有 满载 的 。 可 以 单 Active 也 可 以 多 Active。 单 Active， 最 大 带宽 只 能 是 
100m。 多 Active， 带 宽 恐 怕 也 达 不 到 400m， 理 论 值 而 已 ， 实 际 上 很 难 
达到 。 





多 路 均衡 在 OSI 的 多 个 层次 上 均 可 实现 。 


链 路 层 : Nic Teaming，Trunking/Channelling。 





网 络 层 : 根据 IP 地 址 和 MAC 地 址 的 均衡 。 


传输 层 : 用 Multi TCP Connection 进 行 均衡 ， 每 个 TCP 连 接 使 用 单独 
的 也 和 网 卡 出 去 ， 达 到 对 端 虽然 是 不 同 的 卫 和 了 网卡， 但 是 上 层 给 屏蔽 摊 
了 。 一 个 例子 就 是 iSCSI 中 的 Multi Connection per Session 。 





应 用 层 : 利用 多 路 径 软 件 进行 均衡 。 


所 以 说 ， 达 到 多 少 融 宽 ， 使 用 什么 方法 ， 在 哪 一 层 实 现 ， 都 会 对 结 
果 产 生 影响 ， 而 所 有 这 些 方法 的 本 质 皆 相同 。 


27. 关于 LUN 切 换 的 问题 


大 家 好 ， 我 有 一 个 问题 癌 大 家 请 教 。 环 境 是 : 一 台 双 控 磁 盘 阵 
列 ， 分 别 直 连 两 合 服务 器 ， 有 两 个 疑问 是 : 


(1) 正常 是 应 该 用 A 控 管理 LUN1，B 控 管理 LUN2， 但 我 划分 
LUN 的 时 候 把 LUN1 分 配给 了 B 控 ， 结 果 也 能 在 服务 器 上 看 见 LUN1， 
请 问 这 种 情况 正常 么 ? 


(2) 我 按 正 常 分 配 A 控 管理 LUN1，B 控 管理 LUN2， 如 果 A 控 制 
器 坏 了 ， 是 不 是 B 控 能 自动 接管 LUN1? 这 种 情况 还 用 在 服务 器 上 装 多 
路 径 软件 么 ? 








脱离 了 实际 设备 ， 这 个 问题 就 没有 确切 答案 。 有 的 在 盘 阵 端 支 持 
LUN 切 换 到 活着 的 控制 器 ， 而 主机 端 不 需要 切换 ， 当 然 主 机 端 需要 有 其 
他 程序 来 控制 这 种 行为 。 有 的 则 全 靠 主 机 端 多 路 径 软 件 ， 所 有 控制 器 都 
可 以 映射 所 有 LUN， 具 体 问 题 具 体 分 析 。 


28. 关于 星 形 拓 扑 、FC 拓 扑 的 问题 


我 记得 你 的 书 里 面 有 提 到 光纤 的 星 状 拓扑 ， 不 知道 和 HDS 高 端 产 
品 的 Hi-Star 光 纤 交 换 ， 还 有 EMC 高 端的 光纤 矩阵 是 什么 关系 。 搞 混 了 
擒 不 清楚 ， 打 烦请 教 下 。 


FC 拓扑 中 的 星 型 拓扑 ， 和 盘 阵 控制 器 内 部 CPU 内 存 外 设 之 间 的 拓 
扑 ， 好 像 是 两 码 事 吧 ...... 我 一 再 强调 不 要 再 用 什么 “光纤 硬盘 ”什么 “ 光 
纤 交 换 机 ”了 ， 这 里 又 来 了 个 “光纤 矩阵 ”， 本 来 已 经 很 不 容易 入 门 ， 如 
果 再 搅 浑 水 ， 会 误导 很 多 人 ， 甚 至 自己 都 糊涂 了 。HDS 高 端 存储 内 部 控 
制 占 总 线 类 型 多 少年 未 变 ， 全 部 使 用 Crossbar 交 换 和 矩阵 心 片 ， 蜗 成 本 高 
性 能 。EMC 的 高 端 存 储 内 部 总 线 架构 则 使 用 点 对 点 直 连 结构 ， 非 
Crossbar 交 换 窍 阵 。 











29. 一 些 专业 术语 的 理解 








小 种 刚 接触 存储 设备 ， 一 次 面试 过 程 中 不 知道 以 下 这 些 专业 术语 
征 什么 意思 ， 请 知道 的 兄弟 们 解释 下 ， 谢 谢 ! 快照 代理 ， 虚 拟 快照 ， 


分 裂 镜像 。 


快照 代理 : 泛 指 安装 于 0OS 中 的 一 个 程序 ， 可 以 与 FS 或 者 应 用 发 生 
交互 作用 ， 使 得 Snapshot 开 始 之 前 FS 绥 存 中 的 内 容 被 号 入 硬盘 或 者 应 用 
层 触 发 一 系列 动作 ， 让 FS 和 应 用 程序 产生 一 致 点 ， 避 免 恢 复 Snapshot 后 
不 必要 的 fsck 过 程 和 应 用 级 恢复 过 程 。 





虚拟 快照 ， 不 懂 。 你 可 以 反问 他 这 是 谁 家 的 定义 。 


分 裂 镜像 : 对 某 份 数据 做 同步 镜像 ， 空 间 双 倍 占用 ， 当 需要 这 份 数 
据 某 时 刻 的 Snapshot 的 时 候 ，Freez IO， 然 后 解除 镜像 关系 ， 脱 离开 的 镜 
像 就 是 这 份 数 据 此 刻 的 一 份 Snapshot。 这 时 你 可 以 回答 ， 咖 ， 这 么 看 
来 ， 分 裂 镜像 产生 的 Snapshot 是 实 Snapshot， 而 通过 复制 MetaData Tree 
产生 的 Snapshot 就 是 虚 Snapshot， 或 者 就 是 上 文中 的 所 谓 “ 虚 拟 快 
照 ? 吧 。 





30.RAID 5 的 读 写 步 又 


RAID 5 的 读 写 步骤 是 怎样 的 ? 





这 个 Internet 上 都 可 以 搜索 到 的 。 分 4 个 步骤 的 是 写 ， 而 且 写 也 是 分 
情况 的 ， 不 一 定 都 是 4 步 。 随 机 写 的 情况 下 ， 与 惩 基 严重 ， 先 读 出 被 履 
蘑 的 数据 和 Parity 数 据 ， 然 后 用 待 写 的 数据 和 人 说 履 盖 的 数据 计算 新 
Parity， 然 后 写 入 新 数据 和 Parity。 就 是 这 样 。 





31. SAN 共 享 问题 


有 个 问题 ， 书 中 说 到 NAS 可 以 提供 同时 对 同一 个 目录 或 文件 夹 的 
访问 ， 而 如 果 是 SAN 网 络 ， 如 果 共 至 同一 存储 空间 ， 需 要 借助 软件 。 
如 果 把 SAN 后 端 存储 中 设置 为 只 一 个 人 可 写 ， 其 他 只 读 ， 不 是 也 称 之 





为 多 台 客 户 端 在 一 台 人 存储 中 共享 访问 么 ? 《当然 了 ， 虽 然 具 体 的 访问 
模式 不 一 样 。) 


一 写 多 读 理论 上 是 可 以 的 ， 不 过 需要 在 特定 情况 下 。 比 如 所 有 客户 
端 统一 使 用 Direct IO 十 Write Through 模 式 对 目标 进行 IO， 但 是 DIO 十 WT 
模式 并 不 能 保证 客户 端 缓存 的 文件 Metadata 也 同步 被 写 入 磁盘 ， 如 果 目 
标 文 件 的 Metadata 对 程序 没有 什么 影响 的 话 ， 那 么 这 种 方式 是 可 以 满足 
要 求 的 。 但 是 现实 中 很 少 这 么 实现 的 ， 因 为 大 多 数 情况 都 是 多 写 多 读 
的 ， 只 不 只 读 是 应 用 的 事情 了 。 如 果 不 使 用 DIO 和 WT 模式 ， 就 算 用 只 
读 mount， 对 方 写 入 之 后 ， 我 方 也 不 能 得 到 最 新 的 数据 ， 除 非 等 下 一 次 
FS 从 磁盘 提取 最 新 的 inode tree 到 buffer， 这 样 会 造成 不 一 致 的 。 如 果 写 
方 和 读 方 之 间 有 其 他 上 层 关 键 业 务 逻 辑 ， 数 据 不 同步 造成 的 后 果 可 能 是 
极其 严重 的 。 





32. 如 何 判 断 造 成 邮件 队列 堵 暑 的 原因 ? 


这 是 我 上 网 看 到 的 一 个 方案 根据 作者 列 出 的 4 点 可 能 造成 邮件 队 
列 堵塞 的 现象 ， 感 觉 不 是 一 个 NAS 就 可 以 解决 这 四 个 问题 ， 方 案 如 
Ts 


1) 用 户 现 状 


某 ISP 信 息 网 原 邮 件 服 务 器 采用 某 公 司 小 型 机 及 其 磁盘 阵列 组 ， 邮 
件 服 务 器 每 日 处 理 邮 件 能 力 不 足 3000 封 ， 每 日 早晨 上 班 和 下 午 下 班 使 
用 邮件 高 峰 都 会 出 现 发 送 邮件 队列 堵塞 。 





造成 邮件 队列 堵 窟 的 现象 可 能 因为 : 





(1) 小 型 机 无 法 同时 啊 应 来 自 磁盘 阵列 盘 上 的 邮件 分 发 工作 。 


(2) UNIX 系 统 的 文件 管理 服务 在 文件 读 写 操作 过 程 中 ， 占 用 VO 
资源 无 法 释放 ， 小 型 机 处 理 并 发 WO 进程 的 能 力 有 限 。 


(3) 即使 网 络 带宽 充足 ， 几 和 干 封 邮件 排队 等 竺 处理 ， 也 会 造成 堵 
突现 象 。 


(4) 另外 ， 网 络 带宽 不 够 ， 还 可 能 造成 数据 在 网 络 传输 中 的 读 写 


3) 系统 设计 


购买 一 全 NAS 存 储 设备 作为 原 服务 器 的 数据 存储 设备 ， 将 原 服务 
融 中 的 电子 邮件 数据 全 部 转移 到 该 设备 上 ， 保 持原 服务 器 继续 作为 电 
子 邮 件 服务 的 应 用 服务 器 。 此 时 ， 一 切 问题 迎刃而解 。 


原作 者 的 方案 点 评 : 


NAS 产 品 采 用 了 专用 技术 优化 了 文件 访问 的 IO 效率 问题 ， 提 供 了 
比较 理想 的 文件 访问 能 力 。 尤 其 是 Veritas NAS 解 决 方案 还 提供 了 容 灾 
和 故障 管理 能 力 ， 使 得 NAS 技 术 也 可 以 成 为 容 灾 系统 的 组 成 部 分 。 


个 人 理解 : 


(1) 如 果 原 来 的 磁盘 阵列 只 用 于 存放 电子 邮件 数据 ， 将 原 服务 器 
中 的 电子 邮件 数据 全 部 转移 到 NAS， 这 样 做 ， 原 来 的 磁盘 阵列 是 不 是 
只 能 用 于 其 他 需求 了 ? 


(2) 保持 原 服 务 器 继续 作为 电子 邮件 服务 的 应 用 服务 器 。《〈 这 里 


的 服务 器 应 该 不 是 前 面 说 的 小 型 机 吧 《会 拿 小 型 机 做 服务 器 吗 ) ? 如 
果 不 是 ， 购 买 NAS 后 ，NAS 是 不 是 取代 的 是 原 有 的 磁盘 阵列 呢 ? ) 


(3) 优化 了 文件 访问 的 IO 效率 问题 ， 提 供 了 比较 理想 的 文件 访 
问 能 力 。 “小 型 机 配置 没有 提升 ， 只 是 买 了 台 NAS， 这 样 小 型 机 就 可 
以 同时 响应 来 自 NAS 上 的 邮件 分 发 工作 了 吗 ? 这 么 说 原来 的 人 颈 瓶 不 就 
是 出 于 原来 的 磁盘 阵列 不 能 提供 一 个 好 的 文件 访问 能 力 了 吗 ? 可 作者 
说 的 是 小 型 机 无 法 同时 响应 来 自 磁盘 阵列 盘 上 的 邮件 分 发 工作 。 怎 么 
感觉 是 小 型 机 性 能 跟 不 上 呢 ? ) 











(4) 网 络 市 宽 不 够 〈 增 加 一 侣 NAS 市 宽 束 够 用 了 吗 ? ) 


太 多 不 理解 了 ， 和 硕 望 各 位 不 要 见笑 ， 新 人 阶段 ， 各 位 能 解析 下 
吗 ? 


(1) 如 果 原 来 的 磁盘 阵列 只 用 于 存放 电子 邮件 数据 ， 将 原 服务 需 
中 的 电子 邮件 数据 全 部 转移 到 NAS， 这 样 做 ， 原 来 的 磁盘 阵列 是 不 是 只 
能 用 于 其 他 需求 了 ? 


可 以 将 数据 文件 分 别 放 在 原来 的 阵列 和 NAS 中 ， 平 衡 负载 。 





(2) 当然 还 是 原来 的 机 器 。 不 拿 小 型 机 做 服务 器 难道 用 笔记 本 
做 ? 


(3) 这 个 方案 ， 一 点 根本 的 调 碍 分 析 都 没 做 ， 只 是 给 出 了 几 个 猜 
测 ， 也 都 在 理 ， 其 实 只 要 在 小 型 机 上 用 各 种 命令 查看 输出 ， 就 能 初步 推 
上 条 到 底 瓶 祷 出 在 哪里 。 一 点 确切 结论 都 没有 ， 把 所 有 可 能 摆 上 了 ， 人 然后 
就 说 换 NAS。 他 也 没 提 到 以 前 的 到 确 还 用 不 用 ， 新 NAS 是 分 担负 载 还 是 
全 盘 蔡 换 过 来 。 而 且 ， 就 算 换 了 NAS， 也 不 一 定 会 有 改善 ， 也 得 看 NAS 





的 规格 、 后 端 市 宽 和 IO 需求 。 


(4) 他 说 的 是 前 端 融 宽 也 许 不 够 ， 都 是 推出 。 后 器 存 储 带 宽 他 没 
有 调查 ， 不 明确 。 


33. 随机 和 连续 IO 的 问题 


随机 〈random) 和 连续 (sequential) 读 写 的 区 别 ， 是 对 Volume 
来 说 连续 的 读 写 还 是 对 物理 硬盘 来 说 连续 的 读 写 ? 





是 哪个 层面 的 “磁盘 >”， 物 理 磁 盘 么 ?” 一般 来 讲 就 是 根据 一 定 算法 ， 
比如 前 几 个 是 连续 地 址 ， 后 来 这 个 差 太 大 了 ， 束 算 random 了 。 人 至 于 哪个 
层次 上 的 ， 哪 个 层次 都 有 。 但 是 最 终 影响 性 能 的 还 是 要 看 最 底层 也 就 是 
物理 磁盘 ， 因 为 最 终 是 磁头 辟 的 寻 道 影响 了 性 能 。 有 意义 的 束 是 最 终 物 
理 上 的 地 址 。 关 于 各 种 IO 属 性 的 总 结 和 联系 ， 请 阅读 《大 话 存 储 》 相 关 


草食。 

















34. 负载 均衡 的 方法 


有 一 个 SAN 环 境 ， 有 几 台 存储 管理 服务 器 ， 现 在 想 实 现 IO 负 载 均 
衡 ， 就 是 几 台 服务 器 用 一 个 虚拟 瑟 给 用 户 ， 用 户 有 数据 IO 时 ， 自 动 找 
到 IO 负载 较 小 的 服务 器 ， 有 些 类 似 于 LVS 的 思想 。 不 知道 有 没有 实现 
这 个 想法 的 软件 或 方法 。 








LVS 不 就 是 么 ?硬件 比如 F5、Packteer 之 类 的 。 都 是 基于 TCP 及 以 
上 层次 的 ， 高 级 点 的 可 能 还 会 识别 应 用 层 内 容 来 均衡 。 如 果 你 的 意思 是 
说 仅仅 均衡 存储 的 Block IO， 比 如 用 一 个 前 端 设备 接收 主机 IO， 然 后 后 
端 向 多 个 存储 设备 分 发 负载 ， 这 种 思想 是 存在 的 。 但 是 这 种 物理 拓扑 目 





前 是 不 存在 的 ， 真 正体 现 这 种 思想 的 拓扑 是 存储 集群 ， 比 如 NAS 集 群 ， 
集群 中 并 没有 一 个 前 端 Gateway 设 备 ， 而 是 多 个 节点 共同 提供 访问 。 它 
们 有 一 个 虚拟 卫 地 址 用 于 接受 前 端 1O， 而 且 负 载 均衡 并 不 是 随机 分 发 ， 
而 是 按照 预先 设 定好 的 目录 来 判断 对 应 数据 IO 应 分 发 给 哪个 存储 设备 。 
数据 一 旦 存储 之 后 ， 是 一 直 都 在 固定 的 地 方 的 ， 当 然 一 些 带 有 Tier 数 据 
迁移 功能 的 设备 除外 ， 不 管 是 否 带 有 迁移 功能 ， 数 据 被 写 入 后 ， 绝 不 是 
可 以 随机 乱 跑 的 ， 所 以 要 做 到 IO 随机 分 发 是 不 可 能 的 。 随 机 分 发 方式 的 
负载 均衡 只 能 在 相对 上 层 来 做 ， 将 所 有 数据 人 工分 目录 分 类 按照 访问 频 
度 和 要 求 存 放 在 多 个 后 端 存储 设备 上 来 达到 人 工 的 均衡 。 











35. 单个 目录 下 的 文件 数量 和 性 能 问题 


为 什么 单 目 录 下 子 文件 过 多 会 影响 性 能 ?如 1 个 目录 下 有 10000 个 
子 文件 ， 那 么 读 取 某 个 文件 的 速度 将 会 明显 慢 下 来 ， 这 和 文件 肥 引 有 
关 吗 ? 索引 中 如 何 组 织 这 些 市 点 ?谢谢 大 家 帮忙 。 





是 的 ， 与 罕 引 有 关 。1 万 个 不 算 多 。 上 百 万 个 束 看 出 来 了 。 





上 百 万 个 慢 是 文件 系统 整体 吧 ， 那 么 和 当前 目录 怎么 关系 上 呢 ? 


一 个 差不多 的 文件 系统 文 持 几 百 万 个 文件 不 算 什么 。 我 是 说 一 个 目 
录 下 ， 不 分 子 目录 ， 和 直 接 放 它 儿 十 万 上 百 万 的 文件 ， 此 时 检索 这 个 目录 
索引 很 费 资 源 。 文 持 数量 有 限 是 因为 目录 这 个 对 象 本 号 容 纳 的 大 小 有 限 
制 ， 目 录 就 是 一 个 容纳 文件 名 和 文件 对 应 inode 号 的 容器 ， 被 限制 了 ， 
那么 容纳 的 条 目 也 束 被 限制 了 。 读 取 某 个 文件 速度 没 影 响 。 但 是 伍 找 束 
费劲 了 。 茶 些 文件 系统 的 索引 机 制 不 完善 ， 甚 至 没有 什么 优化 算法 ， 致 
使 每 次 查找 耗费 更 多 的 时 间 。 




















36. Spare 的 数量 与 风险 的 关系 


一 个 DS 3200， 打 算 建 一 个 RAID 5， 本 来 设 2 块 hot spare 的 。 后 来 
由 于 容量 限制 ， 想 改 成 一 块 ， 这 样 会 增加 风险 吗 ? 


2 块 是 为 了 防止 Rebuild 结 束 之 后 过 一 段 时 间 又 坏 了 一 块 ， 能 坏 第 一 
块 就 证 明 其 他 的 也 离 坏 不 远 了 。2 抉 同时 坏 的 几率 是 比 一 块 小 。 一 旦 茶 
条 件 达 成 ， 坏 的 就 不 只 是 2 块 了 ， 次 不定 坏 一 批 或 者 HBA 问 题 直接 Loop 
上 的 全 不 认 ， 真 这 样 的 话 ， 多 少 块 spare 也 没 用 ， 一 块 就 够 了 。 所 以 需要 
综合 考虑 。 





37. 接口 市 宽 与 磁盘 传输 率 的 关系 


1000M 带 宽 满 跑 流 量 是 多 少 ? SCSI 人 硬盘 的 最 大 传 流量 是 多 少 ? 在 
不 考虑 其 他 因素 的 情况 下 . 当 两 者 满 跑 的 时 候 ， 谁 先 成 为 瓶颈 ? 


1Gb 的 跑 满 是 120MB (包含 协议 开销 )。iSCSI 便 盘 ， 没 有 这 种 便 
盘 。 有 iSCSI 盘 阵 ， 多 块 盘 一 起 做 成 LUN， 这 样 的 话 ， 大 块 连续 IO 瓶颈 
在 网 络 ， 小 块 随机 IO 瓶颈 在 磁盘 ， 不 过 也 得 具体 分 析 ， 与 磁盘 数量 ， 控 
制 器 等 都 有 关 。 理 想 状 况 下 100 一 110MB/s 是 没 问 题 的 。 


38. Page Cache 作 党 


有 一 个 卷 iv1， 块 大 小 为 4KB。 此 时 我 用 dd 做 写 测试 ，dd 
这 -=/dev/zero of=lv1 bs=4k， 当 测试 的 bs 为 4KB 时 ， 数 据 正 常 。 当 把 bs 的 
值 减 小 到 4KB 以 下 ， 发 现 恋 和 写 都 有 数据 ， 而 且 流量 相当 ， 不 知道 是 
为 什么 。 也 就 是 ， 不 理解 当 测 试 的 块 大 小 “小 于 ” 卷 的 块 大 小 时 ， 就 会 
产生 读 的 数据 。 





呼 呼 ， 正 第 现象 了 。Jlv1 是 块 设备 ， 你 用 的 什么 os? 块 设备 你 对 它 与 
小 于 4KB 的 数据 ， 它 要 先 读 出 来 ， 然 后 写 进 去 。 用 裸 设 备 就 不 会 出 现 这 
种 情况 ，1KB、512B 都 可 以 。Page Cache 在 作 晤 。 


39. 关于 标 称 带宽 与 实际 带宽 的 问题 


简单 的 说 ，DS 4700 的 机 器 用 两 个 FC 4Gbps 的 接口 ， 怎 么 样 才 外 
让 它 可 以 提供 8Gbps 的 主机 连接 带宽 ? 


CC 


估计 很 难 达 到 。4700 标 称 后 端 带 宽 没 记 错 的 话 是 1.6GB/s， 而 且 实 
际 中 一 半 估 计 都 达 不 到 ，0.83GB/s 不 可 能 达到 的 。 


40. 卷 共享 的 问题 
A 机 和 也 机 都 接 在 SAN 上 上面， 操作 系 统 是 Redhat Linux AS 4.5; 存 


储 是 HP 的 设备 。 在 A 机 上 写 的 文件 ， 在 B 机 上 不 能 访问 ， 请 问 有 无 解 
决 办 法 ? 需要 在 磁盘 阵列 上 做 什么 设置 么 ? 谢谢 。 





共享 同一 个 卷 ， 请 小 心 ， 弄 不 好 惑 数 据 损 毁 ， 得 用 集群 文件 系统 ， 
例如 Stornext， 或 者 集群 卷 软件 Sanergy 之 类 。 还 有 一 个 野蛮 办 法 ， 使 用 
DIO 十 WT 模式 ， 不 过 只 能 保证 弱 一 致 性 。 





41. Proactive Copy 与 Rebuild 的 关系 


热 备 盘 的 前 摄 性 模式 和 重建 模式 什么 区 别 ? 


可 能 这 就 是 英文 Proactive 吧 。 一 旦 发 现 哪 块 盘 不 对 劲 ，Prefail， 复 
制 数 据 ， 盘 对 盘 ， 而 不 是 Rebuild， 这 样 速 度 快 很 多 ， 人 性 能 受 影 响 也 很 


小 。 





42. Loss of Sync 的 含义 


Loss of sync 过 高 意味 着 什么 ? 





意味 着 物理 层 两 端 时 钟 或 者 接口 接触 等 方面 有 问题 。 这 种 是 可 以 自 
行 恢复 的 ， 恢 复 不 了 就 是 link fail 了 。 


43. 数据 删除 之 后 如 何 恢复 ? 


一 块 SCSI 36GB 硬 盘 ， 作 为 SYBASE 12.5 数 据 库 的 数据 文件 设备 ， 
最 近 出 现 读 写 错误 ， 估 计 是 人 硬盘 有 坏 块 ， 做 了 FSCK 后 问题 依旧 ， 数 
据 文件 无 法 备份 也 无 法 复制 ， 昨 天 一 哥们 来 通过 数据 库 倒 数据 ， 结 果 
误 操 作 ， 把 原来 数据 的 表 全 部 删除 后 ， 又 重新 创建 ， 我 现在 都 大 了 ， 
大 侠 们 看 看 能 恢复 到 误 操作 前 的 数据 状态 吗 ? 











得 找 数据 恢复 公司 了 。 重 新 创建 的 ， 往 里 填 数 据 了 么 ? 没 填 的 话 可 
能 只 是 hole， 还 有 和 希望 恢复 的 。 


44. FC 阵列 是 否 可 以 直 连 的 问题 

FC 磁盘 阵列 是 否 可 以 直 连 ? 

可 以 直 连 ， 只 能 以 FCAL 模 式 直 连 了 。 因 为 用 交换 机 的 情况 下 ， 各 
个 节点 都 是 N 端 口 ， 都 需要 进行 Flogin 等 一 系列 FC 人 逻辑， 直 连 情况 下 ， 
如 果 两 端 都 还 是 N 问 口 ， 则 无 人 会 啊 应 Flogin。FCAL 则 是 各 个 节点 目 初 


始 化 自选 举 自 仲裁 的 ， 所 以 可 以 直 连 。 


45. RAID 3 的 IO 问题 


RAID 3 每 进行 一 笔 数 据 传输 ， 都 要 更 新 整个 Stripe， 即 每 一 个 成 
员 人 磁盘 驱 动 器 相对 位 置 的 数据 都 一 起 更 新 ， 因 此 不 会 发 生 需要 把 部 分 
磁盘 驱动 器 现 有 的 数据 读 出 来 ， 与 新 数据 做 XOR 运 算 ， 再 写 入 的 情 
况 。 这 种 情况 在 RAID 4 和 RAID 6 中 会 发 生 ， 称 之 为 Read、Modify、 
Write “Process， 即 读 、 改 、 写 过 程 。 因 此 ， 在 所 有 的 RAID 级 别 中 ， 
RAID 3 的 顺序 写 入 性 能 是 最 好 的 。 怎 么 理解 ? 








RAID 3 任何 情况 下 都 保持 整 条 写 ， 解 释 完 了 。 其 实 上 面 已 经 解释 的 
很 清楚 了 ， 不 理解 的 话 表明 对 更 加 基本 的 一 些 底 层 概念 还 没有 理解 ， 所 
以 请 再 阅读 《大 话 存 储 》。 





46. 脑 分 裂 是 怎么 回 事 ? 





谁 能 儿 我 解释 下 到 捅 Split-brain 即 脑 袭 是 怎么 一 回 事 ? 








就 是 说 ， 本 来 一 个 大 脑 的 两 半球 互相 配合 ， 变 成 了 分 裂 成 两 个 独立 
的 大 脑 ， 都 认为 对 方 已 死 。 此 时 ， 双 方 都 尝试 接管 集群 资源 ， 造 成 冲 
突 ， 后 果 严 重 。 解 决 办 法 : 使 用 Vote 人 磁盘 仲裁 ， 利 用 对 特定 数量 的 磁盘 
放置 SCSI reservation 的 方式 来 决定 谁 最 终 掌 管 集群 资源 ， 或 者 ， 最 极端 
的 Powerfence， 谁 抢先 关 掉 对 方 的 电源 谁 藉 获胜 。 








47. 便 舟 的 Block 与 Extent 的 区 别 


人 硬盘 中 block 和 extent 有 何 区 别 ? 





这 些 名 词 都 请 参阅 具体 三 家 的 定义 。 硬 盘 上 只 有 sector， 还 有 
track。Cylinder 也 是 由 track 组 成 的 一 个 逻辑 定义 。 其 他 什么 都 没有 。 再 
往 上 的 都 是 逻辑 结构 ， 并 非 物理 结构 ， 窑 扯 到 逻辑 结构 ， 那 就 和 定义 者 





有 关 了 。 
48. 一 些 IO 测 试 结 果 的 分 析 


先 介绍 一 下 大 概 情 况 : 阵列 是 EMC 的 CX-310， 全 光纤 盘 ， 与 主机 
连接 用 的 是 4GB 的 光纤 通道 卡 ， 做 的 RAID 5。 机 器 是 IBM ”System 
x3650 (7979B9C) 。 服 务 器 的 硬盘 是 SAS 盘 。 操 作 系 统 是 Centos5.2， 
文件 系统 是 ext3。 下 边 是 用 dd 测 出 来 的 速度 ( 侦 尔 会 更 低 ) : sda 是 本 
机 sas 盘 。 


sda 


全 


和 


dd if=/dev/zero of=/app1i/test/dd.1og 

# dd if=/dev/zero of=/appi/test/dd.1og 

1975913+0 records in 

1975912+0 records out 

1011666944 bytes (1.0 GB) copied, 15.0658 seconds, 67.1 MB/s 


读 


dd if=/appi/test/dd.1log of=/dev/null 

# dd if=/appi/test/dd.1og of=/dev/null 

1975912+0 records in 

1975912+0 records out 

1011666944 bytes (1.0 GB) copied, 6.53719 seconds, 155 MB/S 


dd if=/appi/test/dd.1log of=/appi/test/dd2.10og 

# dd if=/appi/test/dd.1og of=/appi/test/dd2.1o0og 

1975912+0 records in 

1975912+0 records out 

1011666944 bytes (1.0 GB) copied, 17.1978 seconds, 58.8 MB/s 


十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 


阵列 


/home/sakai/mount/bak 


EE 


管 


dd if=/dev/zero of=/home/sakai/mount/bak/dd.1og 
# dd if=/dev/zero of=/home/sakai/mount/bak/dd.1og 
3544417+0 records in 

3544417+0 records out 


1814741504 bytes (1.8 GB) copied, 24.3567 seconds, 74.5 MB/s 


读 


dd if=/home/sakai/mount/bak/dd.1log of=/dev/null 
# dd if=/home/sakai/mount/bak/dd.1log of=/dev/null 
3544417+0 records in 

3544417+0 records out 


1814741504 bytes (1.8 GB) copied, 11.9376 seconds, 152 MB/S 


dd if=/home/sakai/mount/bak/dd.1log of=/home/sakai/mount/bak/d 


# dd if=/home/sakai/mount/bak/dd.1log of=/home/sakai/mount/bak 
3544417+0 records in 
3544417+0 records out 


1814741504 bytes (1.8 GB) copied, 26.4129 seconds, 68.7 MB/s 


569MB 速 度 显 然 是 Cache 速 度 ， 既 然 恋 入 的 是 FS 文件 ， 那 么 显然 FS 
组 存在 作 昧 。umount 然 后 mount (或 者 # echo 3 > 
/proc/sys/vmy/drop_Caches) ， 然 后 再 测试 你 就 会 发 现 根 本 没有 500 多 
MB。 人 至 于 155MB/s 的 速度 ， 与 很 多 因素 有 关 ， 如 IO 调 用 方式 、IO Size 
等 。centos 不 熟悉 。dd 在 Linux 下 一 般 都 是 sync 同 步 10 调 用 ， 每 次 IO Size 
三 4KB， 此 时 除非 同时 运行 多 个 dd， 和 否则 只 一 个 dd，155MB 速 度 也 算是 
不 错 了 ! 


df 碍 看 的 是 文件 系统 使 用 率 ， 磁 盘 使 用 率 如 何 获取 呢 ? 大 家 谈 谈 
思路 也 行 ， 谢 谢 。 


这 是 个 匪夷所思 的 问题 。 如 果 拿 一 块 轩 新 的 厂 盘 ， 你 可 以 说 它 使 用 
率 是 0， 一 旦 使 用 了 一 段 时 间 ， 就 不 好 说 了 。 只 有 其 上 “有 用 ”的 区 域 ， 
才能 算是 使 用 率 ， 如 何 计 算 “ 有 用 ”的 区 域 呢 ? 就 是 看 文件 系统 。 





文件 系统 之 外 的 有 两 部 分 : 操作 系统 其 他 逻辑 层 比如 VM， 在 disk 
上 写 的 数据 ; 磁盘 控制 器 比如 RAID 控 制 器 在 磁盘 某 些 区 域 写 入 的 数 
据 ， 这 些 也 算 “ 有 用 ”的 ， 但 是 不 能 通过 FS 来 查看 了 。 





这 个 问题 脱离 了 上 层 的 卷 管 理 软 件 或 者 文件 系统 ， 是 没有 意义 的 。 
磁盘 本 身 并 不 知道 自己 身上 哪些 是 正在 被 使 用 的 ， 哪 些 是 没 用 的 。“ 有 
用 ”和 “ 没 用 ”是 FS 或 者 VM 管理 的 ，VM 用 磁盘 ，FS 用 VM， 应 用 程序 用 
FS， 人 用 应 用 程序 ， 如 果 人 说 一 句 ， 这 些 数 据 都 没 用 了 ， 扔 了 吧 ， 那 么 








不 就 是 都 没 用 了 么 ?顺便 说 一 句 ，FS 里 面 都 有 bitmap 来 记录 对 应 存储 空 
间 上 的 每 个 悄 区 或 者 簇 区 是 否 被 菜 文件 占用 ， 占 用 则 有 用 ， 未 占用 则 没 
用 ， 也 就 是 空闲 。 空 闲 的 鹿 区 不 一 定 里 面 都 是 0， 可 能 是 原来 数据 的 
Zombie， 这 个 请 阅读 《大 话 存 储 》 相 关 章 节 。 其 他 的 OS 不 谈 ， 在 AIX 里 
面 应 用 能 使 用 多 少 硬 盘 空 间 在 lspv 里 面 可 以 看 到 (Free PPs 十 Used 
PPs=Total PPs) 。Free PPs 是 还 可 以 使 用 的 空间 ， 而 Total PPs 残 是 总 空 
间 。 这 个 总 空间 肯定 比 磁盘 的 裸 空 间 要 小 ， 但 通常 相差 不 是 很 大 ， 通 党 
就 是 相差 一 个 PP 的 大 小 。 所 以 我 说 如 果 不 严 格 要 求 的 话 可 以 近似 用 lspv 
来 看 。 不 过 如 果 你 说 的 是 磁盘 阵列 上 物理 磁盘 的 利用 率 ， 那 我 们 说 的 就 
不 是 一 回 事 了 。 议 日 了 ，VM 就 是 个 粗 线条 的 FS。 最 终 知道 使 用 率 的 ， 
除了 FS 就 是 YVM， 最 终 物理 Disk， 没 法 知道 。 














49. NAS 控 制 器 和 服务 器 的 区 别 


存储 设备 是 通过 NAS 控 制 器 挂 到 网 络 上 的 ，NAS 控 制 占 也 被 称 为 
瘦 服 务 器 ， 实 践 方面 接触 的 比较 少 ， 谁 知道 这 个 NAS 控 制 右 的 具体 结 
构 请 介绍 一 下 ， 主 要 是 和 一 般 的 服务 器 的 区 别 〈 从 结构 上 谈 ， 功 能 
网 上 搜 的 到 ) 。 如 宁可 以 ， 其 他 方面 的 也 谈 一 下 ， 比 如 共 体 的 工作 流 


程 。 


NAS 就 是 一 个 提供 文件 服务 的 设备 ， 后 端 既 可 以 使 用 自己 本 地 硬 
盘 ， 也 可 以 连接 到 SAN 设 备 上 拿 硬 盘 。 之 后 上 面 加 一 些 虚拟 化 的 层 ， 比 
如 Volume、LUN， 然 后 必须 再 添加 一 层 本 地 文件 系统 层 ， 最 终 一 层 必 
须 是 网 络 文件 系统 ， 比 如 CIFS、NFS 等 。 就 是 这 么 个 架构 。 











50. 关于 RAID 信 息 是 否 写 盘 的 问题 


我 知道 很 多 RAID 控 制 器 为 了 好 管理 都 会 写 类 似 超级 块 的 信息 到 组 


成 RAID 的 人 硬盘 上 。 我 想 知 道 有 没有 一 种 控制 器 除了 上 层 操作 系统 的 写 
数据 外 是 不 会 写 任何 信息 到 硬盘 上 的 。 








稍微 高 端 一 点 的 RAID 控 制 器 好 像 没 有 哪 家 这 么 做 ， 原 因 很 简单 ， 
一 是 卡 上 没有 足够 的 地 方 存放 ， 而 是 写 到 硬盘 上 ， 卡 坏 了 ， 换 个 卡 ， 载 
入 ， 照 样 用 。 后 者 是 根本 原因 。 早 期 的 RAID 卡 甚至 不 允许 磁盘 槽 位 错 
乱 ， 很 有 可 能 就 是 因为 它 没 向 磁盘 上 写 入 对 应 的 信息 ， 而 只 是 在 卡 上 自 
己 保存 了 一 份 ， 磁 盘 一 旦 错乱 ，RAID 就 不 认 了 。 写 到 磁盘 上 之 后 ， 磁 
盘 不 管 放 到 哪个 槽 位 ， 馆 辑 上 的 结构 依然 没有 变 ， 依 然 可 以 组 成 RAID 
Group。 





51. 测试 速度 达 不 到 要 求 

明光 磁盘 阵列 柜 ， 挂 到 服务 器 上 用 HDTune 测 试 只 有 5MB。 
提供 可 能 的 原因 : 

(1) IO 不 对 齐 或 者 其 他 原因 导致 的 内 部 惩罚 。 

(2) 用 IOmeter 试 试 。 


(3) Queue Depth 太 低 。 





(4) 用 多 线程 并 发 访问 ， 不 会 只 用 了 一 个 线程 吧 ? 


(5) 也 是 最 有 决定 性 的 原因 ，IO 属 性 是 什么 。 


52. FCOE 和 iSCSI 的 区 别 


请 问 下 fcoe 和 iSCSI 的 区 别 是 什么 ? 


用 于 存储 网 络 时 : 
FCOE: SCSI over FC over Ethernet 
iSCSI: SCSI over IP over (any kind of link that support IP) 


其 实 ， 底 层 链 路 不 管 是 什么 ， 都 可 以 文 持 卫 。 文 持 这 个 词 似 乎 用 得 
不 好 ， 但 是 链 路 层 帧 中 应 该 有 个 字段 来 描述 其 承载 的 上 层 协议 是 什么 ， 
这 就 是 所 谓 的 支持 。IP 和 链 路 层 位 于 OSI 不 同 层次 ， 之 间 可 以 适 配 的 ， 
所 以 ， 不 管 怎么 连通 ， 用 什么 方式 连通 ， 其 上 都 可 以 盖 一 层 IP 来 进入 
TCPIP， 这 就 是 OSI 的 精髓 。 男 外 ，FCOE 现 在 已 经 远 非 这 么 简单 了 ， 
FCOE 已 经 逐渐 脱离 传统 以 太 网 基础 架构 ， 适 配器 ， 甚 至 交换 机 都 需要 
专用 的 ， 这 还 谈 什 么 OE 呢 ? 本 来 就 是 为 了 和 以 太 网 基础 架构 结合 ， 降 
低 成 本 ， 现 在 却 越 发 走向 不 开放 的 道路 ， 个 人 不 看 好 。 








53. 判断 IO 瓶颈 


现 有 一 台 LSI 3994 磁 盘 阵 列 (IBM 的 4000 系 列 即 是 OEM 它 的 ) ，2 
台 HPDL380G5 与 这 人 台 磁 阵 相 连 ， 这 两 台 服 务 器 各 自 有 自己 的 LUN， 不 
做 双 机 ， 只 是 2 台 服 务 器 一 起 给 磁 阵 写 数据 ， 写 到 各 自 的 LUN 上 。 但 是 
现在 只 要 使 用 业务 ，2 台 服务 器 开始 给 磁 阵 写 数据 ，2 台 一 共 大 概 有 
180MB/s 的 写 入 量 。 这 时 读 磁 阵 上 保存 的 数据 时 ， 速 度 很 慢 ， 大 概 
1MB/s 多 的 速度 吧 。 这 人 台 服 务 器 的 主机 通道 是 4Gb/s 的 ， 应 该 有 400MB 
的 读 写 能 力 ， 怎 么 会 这 么 慢 呢 。 服 务 器 使 用 的 是 Windows 2003 操 作 系 
统 。 服 务 器 分 别 直 接连 接 两 个 控制 器 ， 没 有 使 用 光纤 交换 机 。 磁 阵 已 
经 设置 为 4G 的 模式 ， 磁 盘 条 带 化 已 经 为 了 适应 视频 而 调节 到 最 大 值 
Te 





呵呵 。 兄 弟 ， 看 来 你 这 瓶颈 没 出 在 网 络 上 。 虽 然 用 了 80 个 500G 的 
SATA， 但 是 控制 器 此 时 的 行为 不 好 说 是 否 都 用 在 了 写 数据 上 。180M 的 
写 IO， 请 问 这 些 IO 的 属性 估计 一 下 是 IO 密集 的 还 是 IO Size 很 大 的 ? 如 果 
是 前 者 ， 具 体 多 少 ? 有 没有 达到 IOPS 瓶 颈 ? 其次，IO 的 时 候 ， 不 一 定 
就 真正 分 摊 在 了 这 80 块 盘 上 ， 而 很 有 可 能 只 用 到 了 其 中 几 块 盘 。 最 好 能 
用 盘 阵 监视 工具 看 一 下 当前 的 磁盘 IO 情况 ，CPU 和 RAM 情 况 ， 综 合 分 
析 。 读 的 时 候 用 什么 读 的 ? 读 的 多 大 的 文件 ? RAID 类 型 是 什么 ”这 些 
都 要 心 有 一 幅 图 ， 不 然 没 法 做 下 去 的 。 











54. 网 卡 瓶颈 


在 由 服务 器 网 卡 到 交换 机 再 到 磁盘 阵列 的 传输 链 路 中 ， 瓶 颈 在 哪 
里 ， 值 是 多 少 ? 


假设 : 





(1) 网 卡 为 普通 千 兆 网 卡 ， 且 服务 器 只 有 这 一 块 网 卡 用 于 连接 IP 
SAN 中 的 交换 机 ; 


(2) 交换 机 为 全 干 兆 全 线 速 转发 交换 机 ; 


(3) 磁盘 阵列 通过 对 硬盘 做 RAID 能 够 从 出 口 对 交换 机 提供 足够 
的 传输 带 视 。 


那么 瓶颈 应 该 可 能 在 两 个 位 置 : 





(1) 服务 器 网 卡 ， 千 兆 网 卡 理论 带宽 128MB/s， 人 然而 它 的 实际 工 
作 带 宽 能 达到 多 少 ? 有 60% 吗 (77MB/s) ? 如 果 除 去 IP 协 议 的 开销 ， 
还 剩 多 少 ? 





(2) 交换 机 端口 传输 融 宽 ， 于 兆 的 端口 ， 最 大 实际 工作 带宽 能 达 
到 128MB/s 的 60% 吗 ? 


我 想 准 确 地 知道 这 个 值 ， 因 为 我 想 知 道 ， 在 这 种 情况 下 的 IP SAN 
与 服务 器 本 地 硬盘 相 比 ， 在 传输 性 能 上 有 没有 优势 。 本 地 硬盘 按 
SATA 平 均 内 部 传输 率 60MB/s 来 算 。 





觉得 为 何 这 帖子 至 今 无 人 回答 ， 是 因为 没 法 回答 。 你 也 说 了 ， 瓶 
矣 点 一 在 网 络 ， 二 在 磁盘 ， 就 这 两 个 。 磁 盘 外 面 是 清 一 路 的 千 兆 通路 ， 
所 以 算 一 个 瓶颈 点 。 盘 阵 网 口 后 面 是 控制 器 OS 以 及 其 他 硬件 ， 这 里 算 
是 个 潜在 瓶颈 点 ， 但 是 再 烂 ，125MB/s 的 速度 也 至 少 能 提供 ， 所 以 本 
案 ， 此 处 没有 瓶 贷 。 再 就 是 后 端 磁盘 了。 还 是 那 句 话 ， 再 烂 ， 一 百 来 兆 
的 速度 起 码 也 能 给 出 来 吧 。 综 合 分 析 ， 您 这 系统 瓶颈 将 会 在 网 络 。 








而 实际 中 只 要 是 大 带宽 需求 的 环境 ， 确 实 很 大 比例 都 出 现在 网 络 瓶 
颈 上 ，1Gb/s 的 速率 实在 是 很 低 了 。 如 果 IO ”Size 很 大 的 话 ，106MB 左 右 
是 正常 的 ， 这 也 是 我 平时 所 见 的 。IO Size 很 小 的 话 ， 五 六 十 兆 甚至 十 几 
兆 都 有 可 能 ， 得 根据 IO 属 性 综合 判断 。 实 际 中 可 能 发 生 各 种 问题 。 有 客 
户 甚至 测试 过 ， 用 盘 阵 不 如 用 USB 硬 盘 盒 。 性 能 分 析 一 定 要 有 如 下 条 
件 : WD 什 么 应 用 ; 包 什 么 盘 阵 ， 内 部 行为 如 何 设计 的 ，CPU 和 RAM 如 
何 ，@@ 什 么 IO， 读 写 ， 大 小 ， 随 机 程度 ，QueueDepth 并 发 程度 什么 
RAID 类 型 ， 有 具体 参数 ，Strip、Block 之 类 ， 并 发 度 怎样 ;，@@ 各 种 适 配 卡 
线 等 是 否 底层 缺乏 兼容 性 或 者 参数 不 匹配 。 





55. IO 是 怎么 定义 的 ? 


(1) 怎样 的 操作 才 算 是 一 个 IO 操作 ? 什么 操作 才 算 一 个 


transaction 


(2) Transaction 和 IO 有 什么 关系 ? 


你 好 ， 关 于 如 何 才 算 一 个 IO 的 问题 ， 我 可 以 在 这 里 简要 讲解 ， 不 过 
更 详细 的 内 容 请 参考 本 书 前 几 章 。IO 在 不 同 层次 有 不 同 的 概念 和 单位 。 
一 次 IO 惑 是 一 次 请 求 ， 对 于 磁盘 来 次， 一 个 IO 就 是 读 或 者 写 磁 盘 的 菏 个 
或 者 茶 段 而 区 ， 读 写 完 了 ， 这 个 IO 也 就 结束 了 。 








至 于 transaction， 束 是 更 高 层 的 内 容 了 ，transaction 往 往 与 业务 逻辑 
有 关系 。 比 如 你 去 银行 存 一 笔 钱 ， 你 存 这 笔 钱 的 过 程 中 ， 服 务 器 问 数 据 
库 中 写 入 的 所 有 关联 的 操作 残 算 是 一 个 transaction， 而 完成 这 一 个 
transaction， 人 往往 对 应 了 底层 对 磁盘 的 多 次 IO 。 比 如 ， 读 出 数据 库 中 原 
来 的 数据 ， 比 如 你 原来 存款 是 10000 元 ， 他 读 出 来 了 ， 然 后 显示 在 柜台 
终端 上 ， 然 后 操作 员 存 入 5000 元 ， 数 据 传输 到 数据 库 服务 器 ， 数 据 库 服 
务 器 在 内 存 中 更 改 这 个 数值 ， 从 10000 更 改 为 1.5000， 然 后 数据 库 Flush 
的 时 候 ， 将 对 应 的 数据 库 写 入 磁盘 ， 完 成 后 ， 柜 台 终 端 显示 成 功 。 这 个 
过 程 中 对 应 了 多 次 磁盘 IO。 











补充 几 点 : IO 类 型 有 多 种 ， 数 据 型 IO 和 非 数据 型 IO。 前 者 是 指 IO 
请 求 中 包含 读 写 而 区 的 数据 的 ， 后 者 是 指 IO 中 不 包含 而 区 数据 ， 而 是 承 
载 其 他 信息 的 ， 如 SCSI 协 议 中 的 很 多 操作 码 ， 比 如 0x01 就 是 zero 指 令 ， 
命令 人 磁盘 目 行 回 所 有 遍 区 中 写 0。 或 者 诸如 report LUN 这 种 常见 的 指令 ， 
它们 是 命令 磁盘 做 一 些 其 他 的 动作 ， 而 不 是 真正 的 读 写 而 区 中 的 数据 。 
对 于 网 络 文件 系统 来 说 ， 也 有 数据 型 ID0 和 非 数据 型 ID， 前 者 比如 读 写 操 
作 ， 后 者 比如 NFS 中 的 mount、fsinfo、fsstat、getattr 等 。 这 就 是 
transaction 与 10 的 关系 。 











56. Cache 与 IJOPS 的 关系 


增 大 阵列 的 Cache 能 对 IOPS 有 多 大 的 影响 ? 对 于 顺序 读 \ 写 、 随 机 
读 \ 写 影响 会 有 多 大 ? 


Cache 对 于 连续 IO 具 有 较 好 的 效果 ， 尤 其 是 连续 小 块 IO。 针 对 
Cache， 不 同 的 产品 有 不 同 的 算法 ， 但 是 大 部 分 是 众人 皆 知 的 算法 。 连 
续 小 块 IO 效果 较 好 的 原因 是 因为 预 读 程序 会 预先 读 入 与 本 次 IO 相连 的 周 
围 地 址 的 数据 ， 而 IO 的 Size 越 小 ， 并 且 IO 越 连续 ， 性 能 提升 的 效果 就 越 
明显 了 。 











连续 大 块 IO 为 何 效果 不 明显 ?” 其 实 这 里 所 说 的 明显 与 否 是 相对 的 。 
连续 大 块 IO 的 时 候 ， 更 多 的 压力 在 于 磁盘 和 通道 珊 宽 ，Cache 只 起 到 一 
个 缓冲 作用 ， 并 没有 体现 出 任何 优化 的 效果 。 大 块 连续 IO 情况 下 ， 
Cache Eject 率 非常 高 ， 系 统 没 有 必要 也 没有 这 个 精力 去 再 做 什么 优化 ， 
也 没有 可 优化 的 地 方 。Cache 在 重复 读 的 情况 下 效果 最 佳 。 所 谓 重 复 
读 ， 也 就 是 外 部 频繁 地 读 取 某 些 地 址 的 数据 ， 而 从 来 不 更 改 它 们 。 这 
样 ， 这 些 数据 就 会 长 时 间 地 停留 在 Cache 中 而 无 须 访 问 硬盘 。 


随机 IO 的 情况 下 ，Cache 效 果 最 小 。 随 机 IO 的 瓶颈 在 于 磁盘 寻 道 ， 
并 且 更 加 考验 一 个 产品 针对 IO 的 优化 程度 。 但 是 广泛 来 讲 ， 随 机 IO 性 能 
低下 的 问题 在 机 械 硬盘 的 世界 里 ， 永 远 不 可 能 有 本 质 上 的 解决 办 法 。 只 
有 SSD 或 者 其 他 概念 的 存储 方式 才 可 以 从 本 质 上 解决 随机 IO 的 性 能 问 
题 。 但 是 面 对 随 机 IO，Cache 也 不 是 一 点 效果 也 起 不 到 的 ， 比 如 某 种 算 
法 ， 类 似 数据 库 的 优化 方法 ， 即 让 数据 在 磁盘 上 的 分 布 单 位 加 大 ， 每 次 
读 都 读 出 整个 extent 来 碰 运 气 。 也 就 是 类 似 这 种 思想 ， 比 如 有 一 群 蚂 
蚁 ， 你 要 把 它们 全 收集 起 来 ， 而 你 的 筷子 每 次 夹 的 太 少 ， 麻 烦 费 力 低 
效 ， 而 如 果 你 换 成 勺子 ， 直 接 将 蚂蚁 和 泥土 一 起 挖 起 来 ， 同 样 可 以 达到 
收集 蚂蚁 的 效果 。 也 就 是 用 大 炮 打 蚊子 ， 炮 弹 爆 炸 了 ， 那 肯定 周围 的 蚁 
子 也 被 烧 死 了 。 








连续 读 : 对 于 小 块 连续 读 IO，Cache 优 化 效果 最 好 ;对 于 大 块 连续 
读 IO， 优 化 效果 不 明显 。 


连续 写 : 对 于 连续 小 块 写 IO， 如 果 Cache 是 write back 模 式 ( 通 常 都 
应 当 是 write back) ， 由 于 IO Size 比 较 小 ，Cache 剩 余 空 间 充 裕 ， 不 至 于 
频繁 引起 Cache flush 操 作 ， 加 之 系统 不 或 忙 ， 有 更 多 时 间 去 进入 算法 流 
程 对 这 些 IO 进 行 优化 调度 重 排 等 ， 所 以 此 时 Cache 效 果 民 好 。 对 于 连续 
大 块 写 IO，Cache flush 频繁 ， 整 体 上 瓶 宽 归于 磁盘 ，Cache 优 化 不 明显 ， 
仅 作 绥 冲 之 用 。 


随机 读 : 瓶颈 归于 磁盘 ，Cache 优 化 不 佳 ， 只 作为 缓冲 之 用 。 


随机 写 : 对 于 随机 小 块 写 IO， 如 果 Cache 是 write back 模 式 ， 则 
Cache 表 现 出 来 的 优化 效果 良好 ， 使 得 程序 有 充分 时 间 去 重 排 、 优 化 这 
些 IO 数 据 从 而 为 更 高 效 的 并 行 写 入 磁盘 做 准备 。 对 于 随机 大 块 写 IO， 此 
时 Cache 效 率 最 为 低下 ， 整 体 瓶 宽 归 于 厂 盘 但 是 表 于 Cache， 因 为 Cache 
快速 被 充满 而 后 端 磁盘 处 于 瓶颈 态 ， 此 时 系统 最 为 难受 。 











增加 Cache 会 对 连续 大 块 IO 性 能 提升 比较 明显 ， 但 是 对 于 小 块 IO， 
Cache 空 间 足 够 ， 再 增加 也 无 济 于 事 。 不 过 依然 要 综合 来 看 ， 比 如 如 果 
太 多 客户 并 写 入 导致 Cache 不 够 用 ， 那 当然 束 考 虑 增加 Cache， 总 之 ， 都 
是 相对 的 。 只 要 后 闻 磁 各 没 有 达到 瓶 贷 ， 增 加 Cache 有 好 人 处， 而 且 大 块 
和 小 块 ， 在 Cache 相 对 很 大 的 时 候 ， 大 和 小 的 区 别 就 可 以 忽略 了 。 











不 知道 其 他 厂商 产品 底层 如 何 ftush 的 ， 我 猜测 应 该 是 一 直 在 flush， 
也 就 是 源源 不 断 地 利用 满 后 端的 带宽 。 如 果 一 次 ftush 非 要 等 待 所 有 dirty 
block 写 盘 ， 而 此 时 其 他 线程 都 挂 死 的 话 ， 那 绝对 是 划 不 来 的 。 所 以 我 
推测 是 少食 多 和 餐 制 ，flush 频 率 非 常 快 ， 或 者 是 完全 异步 处 理 ， 后 端 细 水 








长 流 ， 而 前 端 洪 水 暴发 进入 水 库 蓝 水 ， 同 时 进行 。 而 茶 些 产品 受制 于 日 
志方 式 ， 日 志保 存 的 地 方太 小 以 至 于 flush 频 每 并 且 是 同步 阻塞 模式 。 前 
者 那 种 细水长流 模式 下 ，Cache 越 大 当然 越 好 ， 再 大 不 怕 因 为 电池 保 
护 ; 而 少食 多 餐 模 式 下 ， 太 大 的 Cache 对 写 IO 也 没什么 效果 。 而 后 者 那 
种 电池 只 保护 日 志 空 间 的 模式 下 ， 则 太 大 的 Cache 没 有 用 处 ， 充 其 量 读 
绥 存 占 大 部 分 ， 剩 余 的 写 缓存 根据 保存 日 志 的 空间 来 定 。 

















上 述 是 Cache 管 理 的 大 概 思 想 ， 至 于 更 多 细节 的 实现 方式 ， 比 如 多 
流 合并 、 分 区 等 思想 和 技术 ， 就 要 看 不 同 产 品 不 同 设计 方式 和 开发 人 员 
富有 创造 力 的 头脑 了 。 





但 我 有 个 阵列 ， 把 Cache 由 原来 的 1GB 增 加 到 3GB。 做 SPC1 测 试 
从 BSU 240 增 加 到 300， 增 加 了 25%， 是 因为 原来 Cache 就 太 少 了 吗 ? 


\ 人 否认 这 个 测试 结果 ， 但 是 他 的 系统 缓存 只 有 1GB， 未 免 太 小 ， 况 
且 spc 结 末 中 随机 写 这 部 分 到 捅 提 升 了 多 少 ， 无 从 考证 ， 况 且 不 知道 是 
什么 产品 ， 底 层 destage 的 机 制 等 。 但 是 不 可 否认 的 是 ， 增 加 Cache， 对 
读 优化 肯定 是 增加 的 了 。 





更 多 的 绥 存 意味 痢 可 以 将 更 多 的 IO 直接 写 到 缓存 里 面 ， 马 上 
response 给 主机 说 IO complete， 然 后 等 积累 到 一 定 程度 在 后 人 台 destage 
给 人 磁盘， 性 能 应 该 更 好 才 对 ， 为 何 说 是 相对 的 呢 ? 





Cache 太 大 ， 有 太 多 的 数据 没有 destage， 虽 然 放 到 Cache 中 有 电池 保 
护 ， 但 是 还 是 要 尽快 destage 到 硬盘 上 才 保 险 的 ， 这 就 引出 了 我 对 于 
destage 方 式 的 讨论 ， 如 果 是 一 次 全 部 destage， 那 么 太 大 的 Cache 当 然 会 
耗费 很 多 资源 了 ， 上 所 以 上 面 才 请 林 总 介绍 一 下 目前 大 Cache 的 产品 
destage 是 怎么 个 机 制 啊 。 











当然 ， 后 端 通道 和 磁盘 越 多 ， 相 应 Cache 束 得 跟 上 去 ， 这 个 无 可 否 
认 。 而 且 如 果 他 的 destage 方 式 是 按照 Cache 容 量 比例 来 的 ， 而 且 后 端 没 
有 瓶 了 筑 ， 那 当然 是 缓冲 空间 越 大 越 好 了 ， 如 有 果 后 端 捉襟见肘 ， 还 配 百 八 
十 GB 的 缓存 ， 那 也 是 没 必 要 的 。 但 是 为 何 我 说 随机 IO 下 Cache 优 化 效果 
最 小 ， 也 就 是 性 能 提升 最 小 ， 因 为 毕竟 是 随机 IO， 绥 存 再 多 ， 形 成 整 条 
写 的 几率 也 是 相对 其 他 类 型 的 IO 低 ， 这 点 必须 承认 ， 所 以 后 端 依然 是 会 
产生 瓶颈 的 。 既 然 这 样 ， 后 端 产 生 瓶 颈 的 几率 增 大 ， 那 么 必然 需要 
destage 相 对 频 演 一 些 而 不 是 积 斤 太 多 一 次 destage， 因 为 一 旦 积 搬 太 多 而 
待 写 数据 过 于 离散 ， 则 后 端 需要 很 长 时 间 才 能 完成 destage， 资 源 消耗 比 
较 大 ; 反 过 来 说 ，destage 如 有 果 频 繁 ， 则 Cache 对 于 写 数 据 所 占 的 空间 也 
就 不 需要 太 大 了 ， 而 可 以 放 更 多 的 读 prefetch 数 据 。 这 方面 可 以 继续 讨 
论 研 究 。 











57. SAS 和 FC 


据说 SAS 接 口 的 普通 盘 阵 ， 十 几 块 盘 束 可 以 达到 600MB/s 的 吞吐 
量 ， 这 样 我 还 用 买 高 端 FC 盘 阵 么 ? 





SAS 盘 阵 达 到 700MB/s，800MB/s，900MB/s 的 速度 都 是 常 有 的 事 
情 。SAS 卡 上 的 多 路 SAS PHY 可 以 形成 宽 端 口 的 ， 一 般 可 以 达到 12Gb 的 
佛 宽 ， 也 就 是 4 个 3Gb 的 合并 ， 所 以 才能 有 这 个 速度 。 目 前 SAS 已 经 可 以 
达到 单 PHY 速 率 6Gb/s。SAS 相 对 FC 是 不 错 的 选择 。 至 于 高 端的 FC 盘 
阵 ， 往 往 其 他 功能 强 ， 接 口 也 多 ， 而 且 线 缆 方 面 也 比 SAS 方 便 ， 更 容易 
扩大 至 很 大 的 扩展 柜 数 量 ， 所 以 SAS 目 前 并 未 非常 流行 ， 取 代 FC 的 路 程 
还 有 很 长 要 走 ， 让 我 们 拭目以待 。 








我 一 直 有 个 疑问 ， 就 是 SAS 在 Sequential 环 境 中 的 表现 到 底 如 何 ? 
理论 上 可 是 有 12Gb 和 带宽 啊 。 从 我 看 到 的 几 个 产品 上 看 ， 好 像 是 用 SAS 


的 产品 在 Seq 环 境 中 带宽 表现 不 是 十 分 好 ， 反 而 在 random 环 境 效果 更 


佳 。 





不 知道 是 哪 球 产品 ， 怎 么 测 的 ，SAS 一 RAID 卡 市 面 上 有 很 多 : 
软 ， 硬 ， 半 软 半 硬 。 带 RAID 功 能 的 SAS 箱 的 表现 与 外 置 RAID 卡 再 接 
JBOD 的 性 能 没什么 差别 。 随 机 和 seq 环 境 下 的 性 能 主要 取决 于 参差 不 齐 
的 RAID 卡 了 ， 看 其 优化 是 否 到 位 。 能 否 提 供 一 下 实际 数据 ， 研 究 研 


分 ~ 


in 
58. 软 RAID 和 RAID 控 制 器 有 何不 同 ? 


基于 软件 的 RAID 和 基于 控制 器 的 RAID 有 什么 区 别 ? 


前 者 泛 指 利用 主机 自己 的 硬件 资源 来 实现 RAID。 由 于 主机 上 没有 
针对 RAID 的 硬件 忌 片 比如 XOR 运 算 器 或 者 其 他 硬 多 辑 必 片 ， 所 有 RAID 
功能 全 部 由 主机 上 的 CPU 通 过 运行 操作 系统 底层 的 RAID 逻 辑 代 码 执 
行 。 后 者 泛 指 RAID 逻 辑 运行 在 独立 的 硬件 上 ， 这 些 独 立 设备 一 般 都 配 
有 特殊 的 硬 ASIC 世 片 来 将 复杂 的 运算 硬化 入 芯片 从 而 相对 于 全 靠 CPU 
来 运行 的 系统 性 能 大 为 提升 。 


当然 ， 也 有 的 控制 器 全 部 用 CPU 来 执行 RAID 功 能 和 其 他 存储 系统 
的 所 有 功能 。 二 者 的 区 别 : 前 者 耗费 主机 资源 ， 不 过 如 果 主 机 CPU 不 繁 
忙 、 系 统 负载 不 高 而 且 CPU 内 存 够 强 幼 ， 其 表现 的 性 能 不 亚 于 硬 
RAID。 后 者 不 耗费 主机 资源 ， 但 是 要 求 一 个 独立 的 设备 ， 成 本 增高 ; 
前 者 由 于 在 主机 上 运行 ， 一 般 不 考虑 实现 复杂 的 逻辑 而 尽量 保持 局 效 
率 ， 后 者 则 由 于 在 独立 的 设备 上 ， 可 以 方便 实现 更 多 的 复杂 功能 ， 前 者 
运行 于 主机 之 上 ， 一 旦 出 现 问题 或 者 需要 维护 ， 则 很 可 能 要 停机 ， 而 后 
者 如 果 不 出 现 大 问题 ， 对 主机 端 一 般 没 多 少 影响 ， 有 灵活 。 








59. 关于 RAID 的 初始 化 


儿 块 盘 创 建 好 一 个 RAID 5 后 ， 一 般 是 采用 什么 方式 初始 化 的 ? 我 
现在 想到 有 两 种 : 





(1) 每 个 Stripe 都 是 写 0， 这 样 只 需要 进行 写 操作 ， 不 需要 进行 读 
操作 和 XOR 操 作 ， 而 且 最 后 的 Stripe 数 据 是 呈 寞 或 天 系 的 。 





(2) 每 个 Stripe 是 模拟 RAID ”5 坏 掉 一 块 盘 后 插入 一 块 新 盘 重 新 
recovery， 即 先 读 同步 的 盘 上 的 数据 然后 作 XOR， 计 算 结 果 最 后 写 入 
被 同步 的 盘 。 





我 知道 Linux 内 核 中 是 采用 后 一 种 方式 的 ， 但 是 在 性 能 较 弱 的 CPU 
上 会 显得 有 点 吃力 ， 因 为 要 作 XOR 计 算 ， 不 知道 有 没有 其 他 RAID 厂 
家 采用 第 一 种 方式 的 ? 





另外 ， 不 知道 有 没有 不 做 初始 化 就 直接 使 用 的 RAID 三 家 ? 


前 台 初 始 化 的 时 候 是 不 能 接受 IO 的 ， 必 须 等 待 。 比 如 DS 6800 就 是 
这 样 。 前 台 初 始 化 理论 上 也 有 两 种 方式 ， 也 就 是 上 面 列 出 来 的 两 种 方 
式 ，Zero Disk， 或 者 读 出 整个 条 带 的 原来 数据 然后 计算 Parity 数 据 然 后 
写 Parity。 不 过 一 般 倾 向 于 Zero Disk， 因 为 这 种 方式 最 为 简便 ， 只 需要 
发 送 一 个 SCSI Operation 0x01 指 令 到 磁盘 然后 等 待 返回 即 可 。 控 制 器 不 
耗费 一 点 资源 。 如 果 是 第 二 种 ， 则 有 点 兴 师 动 众 的 意思 ， 速 度 慢 效率 
低 ， 也 没有 必要 这 样 做 。 








百 台 初始 化 ， 这 种 方式 可 以 接受 IO， 理 论 上 有 是 控制 器 从 RAID 
Group 被 建 好 的 那 一 刻 起 即 开始 做 初始 化 ， 不 可 能 使 用 Zero Disk 的 方法 
了 ， 因 为 此 时 需要 接受 上 层 下 发 的 IO 了， 必须 由 控制 器 做 读 写 操作 ， 所 


以 只 能 用 Parity 重 算 的 方法 。 一 旦 某 个 Stripe 有 IO 进 来 ， 则 控制 器 跳 转 到 
这 个 Stripe， 初 始 化 这 个 Stripee， 捐 带 上 下 发 进来 的 写 数据 一 起 将 这 个 
Stripe 处 理 好 ， 使 得 其 Parity 与 user Data 是 一 致 的 。 如 果 是 读 IO， 而 且 目 
标 地 址 落 在 了 尚未 初始 化 的 条 带 上 ， 那 么 控制 器 直接 在 内 存 中 返回 全 0 
给 发 起 IO 的 主机 ; 如 果 落 在 了 已 经 初始 化 过 的 条 带 中 ， 则 此 时 由 于 控制 
器 无 法 判断 这 个 条 带 初 始 化 之 后 是 否 已 经 被 号 入 实际 数据 ， 只 能 假设 已 
经 被 更 改过 ， 所 以 需要 从 对 应 目标 地 址 读 出 数据 并 返回 。 处 理 完 后 ， 继 








过 程 中 会 对 已 经 初始 化 和 未 初始 化 的 条 带 做 记录 ， 这 个 记录 很 小 ， 比 如 
一 个 bitmap， 每 个 位 代表 一 个 条 带 ， 初 始 化 完成 就 标 为 1， 未 初始 化 就 
标 为 0， 所 以 查找 起 来 不 费力 。 


为 了 避免 不 必要 的 麻烦 ， 前 台 初 始 化 过 程 应 当选 择 Zero ”Disk 的 方 
式 。 校 验 型 RAID ”Group 必须 初始 化 ， 只 不 过 是 前 台 还 是 后 从 而 已 。 有 
百 台 初始 化 的 产品 ， 一 些 低 端 RAID 卡 都 可 以 做 到 。 


前 提 是 RAID ”5 边 初 始 化 ， 边 要 写 数 据 。 当 RAID 5 初始 化 到 了 
10%， 而 数据 写 到 了 20%。 假 如 这 时 RAID 5 中 掉 了 一 个 盘 ， 请 问 我 这 
写 的 20% 数 据 能 够 恢复 吗 ?” 如 果 不 能 ， 前 10% 的 数据 能 恢复 吗 ? 或 者 
数据 就 是 不 能 恢复 ? 能 举 个 例子 帮 分 析 一 下 吗 ? 谢谢 。 





RAID 5 本 喘 是 容许 一 个 磁盘 损坏 或 者 丢失 。 不 管 衣 台 或 者 后 人 台 初 始 
化 ， 几 是 已 经 初始 化 完成 的 Stripe， 缘 可 以 容许 一 块 磁盘 丢失 ， 而 未 初 
始 化 完成 的 Stripe， 保 护 它们 也 没有 意义 。 这 样 的 话 ， 系 统 必须 依然 可 
以 从 剩余 的 磁盘 来 校 验 出 丢失 磁盘 对 应 Stripe 上 的 数据 。 不 过 实际 上 ， 
一 个 未 初始 化 完成 的 RAID Group 已 经 坏 盘 ， 那 么 正好 是 破 饶 子 破 摔 
了 。 你 想 想 ， 此 时 系统 就 等 于 初始 化 完成 了 并 且 进 入 等 待 Rebuild 状 态 ， 
插入 好 盘 之 后 ， 重 新 逐 Stripe 的 Rebuild， 此 时 就 无 所 谓 初 始 化 与 否 了 。 





所 以 ， 不 知道 上 面 这 个 例子 是 假想 的 还 是 实际 的 ， 理 论 上 讲 系统 依 
然 可 以 接受 IO， 只 不 过 一 旦 未 被 初始 化 的 Stripe 上 有 IO， 则 数据 一 致 性 
要 靠 应 用 层 来 判断 了 。 所 以 上 面 这 个 例子 应 该 不 会 发 生 ， 如 果实 际 中 真 
的 发 生 了 RAID ”Group 因 为 未 初始 化 完 而 掉 盘 就 停止 接受 IO， 则 可 能 系 
统 为 了 充分 保证 安全 性 吧 ， 此 时 你 可 以 插 上 新 盘 让 它 Rebuild 就 可 以 了 。 
如 果 这 样 都 不 行 ， 那 只 能 证 明 这 个 后 台 初 始 化 系统 设计 的 不 完善 。 数 据 
是 可 以 手动 恢复 的 ， 找 专门 的 恢复 结构 ， 只 要 他 用 的 RAID 5 校 验 方式 是 
常规 套路 。 








60. 关于 SAN 共 享 


SAN 为 什么 不 能 文件 共 译 ?谢谢 ! 也 就 是 说 ， 为 什么 块 级 存储 ， 


不 能 提供 共享 ? 


SAN 是 一 个 大 家 访问 存储 设备 的 通道 ， 处 于 确 层 。 对 于 一 个 目标 设 
备 ， 可 以 有 多 个 客户 并 设备 对 其 访问 ， 同 时 读 写 ， 没 有 问题 。 块 级 的 访 
问 是 最 低级 别 的 ， 接 受 访问 的 设备 根本 束 不 去 管 有 多 少 客户 着 访问 ， 谁 
写 了 哪些 局 区 ， 古 否 被 不 正确 地 才 关 了 。 

















底层 就 是 要 实现 高 效率 的 访问 ， 如 果 把 这 些 东 西 都 做 到 硬盘 上 或 者 
SAN 盘 阵 中 ， 那 逮 辑 就 相当 复杂 了 。 当 然 ，NAS 设 备 就 是 这 样 一 个 提供 
文件 共 至 的 设备 ， 因 为 NAS 协 议 的 一 个 作用 就 是 解决 多 客户 端 共 享 文 
件 ， 保 证 文件 的 一 致 性 。 然 而 这 也 取决 于 客户 端的 决定 ， 如 宋 客 户 端 在 
使 用 NAS 的 时 候 ， 不 进行 Lock 操 作 ， 那 同样 也 会 出 现 后 来 写 入 的 窗 盖 之 
前 写 入 的 情况 ， 就 是 这 样 设计 的 。 这 些 馆 辑 全 处 于 应 用 层 上 。 


至 于 Block 级 别 的 Lock，SCSI Reservation 算 一 个 ， 但 是 它 不 会 像 
NAS 协 议 的 Lock 一 样 去 保证 一 致 性 ， 其 功能 也 不 是 为 了 共享 ， 最 大 一 个 


作用 是 为 了 解决 Brain Split。 还 是 那 句 话 ，Block 级 别 是 低级 智能 的 。 要 
实现 文件 共享 ， 必 须 在 Block 卷 这 一 层 解决 ， 也 就 是 使 用 集群 文件 系 
统 ， 或 者 使 用 一 个 诸如 Sanergy 的 卷 共享 软件 ， 上 层 依然 使 用 诸如 NTEFS 
这 种 常规 的 FS， 卷 共享 软件 可 以 保证 访问 同一 LUN 的 多 个 客户 端 上 的 
FS 时 刻 从 这 个 LUN 读 取 的 数据 都 是 最 新 的 数据 ， 当 某 个 客户 问 写 入 数据 
的 时 候 ， 卷 共享 软件 会 将 其 他 客户 端 FS 绥 存 中 对 应 被 写 入 块 的 数据 进行 
过 期 作废 处 理 ， 重 新 读 入 最 新 数据 。 





各 个 客户 端 上 的 fs 缓存 ， 此 时 在 卷 共享 软件 的 全 盘 管 理 下 ， 实 现 了 
全 局 共 控 。 如 果 不 这 么 做 ， 举 个 例子 ， 假 如 T1 时 刻 设备 1 将 10000 这 个 数 
值 写 入 了 扇 区 0， 而 设备 2 不 知道 ， 没 有 人 通知 它 ， 设 备 2 的 FS 缓存 中 对 
应 这 个 而 区 的 数据 依然 是 0。 随 后 ， 设 备 2 上 的 程序 做 了 一 次 运算 ， 比 
如 : 余额 十 5000， 其 实 此 时 ， 余 额 应 该 三 10000， 但 是 由 于 没 人 通知 设 
备 2 局 区 0 的 内 容 已 经 更 改 ， 所 以 设备 2 仍然 用 0 来 当 余额 ， 这 样 算出 的 结 
末 是 5000， 然 后 写 入 磁盘 ， 之 后 ， 人 有 余额 变 成 了 5k， 你 赔 了 10000 元 啊 ! 





上 面 的 例子 是 一 个 概要 ， 现 实 中 ， 多 设备 同时 读 写 同一 LUN， 会 产 
生 各 种 各 样 的 后 果 。 有 时 候 设备 1 下 次 读 出 的 时 候 会 完全 混乱 ， 就 像 刚 
才 的 例子 ， 应 该 是 1 ”50000， 结 果 错 误 保 存 成 了 5000。 这 种 结果 算是 杀 
人 于 无 形 之 间 。 有 时 候 如 果 遇 到 FS 的 MetaData 扇 区 不 一 致 ， 则 FS 轻 则 
fsck， 重 则 骨 训 。 骨 省 了 比 上 一 种 情况 好 ， 如 果 不 骨 误 就 这 么 以 论 传 论 
将 牛头 不 对 马 嘴 的 数据 返回 给 上 层 ， 那 后 果 可 是 不 堪 想 象 了 。 然 而 ， 用 
了 上 面 的 方法 ， 只 能 保证 数据 在 文件 系统 和 卷 之 下 还 辑 的 一 致 性 ， 却 不 
能 保证 上 层 业 务 方面 的 一 致 性 。 业 务 层 的 逻辑 不 可 能 也 没有 必要 放 到 FS 
之 下 去 实现 。 所 以 还 需要 实现 业务 层 的 一 致 性 ， 举 个 例子 :比如 设备 1 
在 这 个 LUN 的 0 虱 区 号 入 了 数据 ， 而 设备 2 在 卷 共 享 软件 或 者 集群 FS 的 控 
制 下 ， 它 的 FS 缓存 对 应 的 这 个 扇 区 的 数据 过 期 ， 重 新 读 入 最 新 的 由 设备 





1 写 入 的 数据 ， 读 入 之 后 ， 设 备 2 对 其 做 了 更 改 ， 写 入 履 盖 扇 区 0。 


这 个 过 程 是 一 个 正常 的 过 程 ， 不 会 产生 数据 不 一 致 性 。 然 而， 如 果 
设备 1 和 设备 2 之 间 没 有 足够 的 配合 ， 比 如 ， 我 用 同一 个 账户 在 设备 1 和 
设备 2 同时 登录 进行 数据 更 改 ， 假 设 还 是 刚才 那个 银行 账户 吧 ， 原 来 余 
额 是 0(，T1 时 刻 我 在 设备 1 上 存 入 10000， 设 备 1 将 数据 写 到 扇 区 1 保存 ， 
然后 关闭 终端 应 用 程序 。 














此 刻 设 备 2 缓存 过 期 重新 读 入 新 出 区 0 数据 。 然 后 我 来 到 设备 2 合 看 
我 的 余额 ， 仍 是 0， 为 什么 呢 ? 为 何 FS 绥 人 存 都 更 新 了 但 是 终端 显示 仍然 
古 呢 ? 这 是 应 用 程序 编写 的 时 候 没 有 考虑 数据 业务 层 的 一 致 性 ， 如 条 程 
序 随时 参考 FS 缓存 内 的 最 新 数据 而 不 是 自身 缓存 内 的 数据 ， 那 么 最 新 的 
数据 就 会 生效 ， 不 管 是 使 用 Push 还 是 Pull 的 方式 获得 最 新 数据 。T2 时 
刻 ， 在 设备 2 上 直接 退出 应 用 程序 ， 此 时 设备 2 上 的 应 用 程序 由 于 这 个 错 
误 ， 将 一 直 绥 存在 程序 Buffer 中 的 数值 0 写 入 而 区 0， 这 样 ，10000 变 成 了 
0。 你 损失 了 10000。 所 以 ， 业 务 层面 ， 也 就 是 应 用 程序 层面 ， 一 定 要 考 
碟 周 到 ， 利 用 各 种 方式 来 相互 通信 ， 或 者 从 底层 时 刻 获 得 最 新 的 数据 ， 
是 很 重要 的 。 























61. Cache 和 Buffer 和 的 区 别 


请 问 ，Cache 和 Buffer 的 主要 区 别 是 什么 ? 都 是 缓存 ， 区 别 在 哪 ? 


其 实 Cache 和 Buffer， 物 理 上 讲 都 是 &RAM。 罗 辑 上 讲 ， 你 把 Cache 叫 
成 Buffer， 或 者 把 Buffer 叫 成 Cache， 都 没有 错 。 不 过 Buffer 多 用 于 编程 
方面 ，Cache 多 用 于 非 编程 方面 的 叫 法 。 比 如 为 某 程序 分 配 一 段 Buffer， 
而 一 般 没 有 说 为 某 程序 分 配 一 段 Cache 的 ， 但 是 你 可 以 说 这 个 程序 有 
Cache， 或 者 说 Cache 是 泛 指 ，Buffer 是 特 指 。 上 见仁见智 。 而 对 于 磁盘 阵 





列 来 讲 ，Buffer 二 Cache。 


另外 ， 从 本 质 上 讲 ，Buffer 是 “缓冲 ”， 而 Cache 是 “缓存 ”， 即 Buffer 
中 的 数据 是 一 定 要 在 短 时 间 内 被 处 理 的 ， 而 Cache 则 可 以 作为 一 个 数据 
的 长 期 的 容器 而 其 中 的 数据 不 一 定 非 要 被 立刻 处 理 。 





62. 关于 存储 系统 中 的 CPU 的 作用 


高 端 存 储 中 CPU 起 的 作用 到 底 有 多 大 ? 


高 端 存 储 的 CPU 对 性 能 影响 很 大 。 因 为 高 端 产 品 其 出 发 点 不 单单 是 
把 磁盘 数据 拿 出 来 扔 出 去 ， 或 者 等 着 别人 写 进来 ， 然 后 写 到 磁盘 这 么 简 
单 了 。 高 端 存 储 中 CPU 主要 决定 下 列 4 个 大 方面 的 作用 : 


(1) 基本 的 数据 吞吐 服务 。 








(2) 物理 上 ， 大 量 的 IO 卡 和 接口 ， 需 要 消除 底层 的 瓶颈 。 总 控 各 
种 附加 硬 asic， 比 如 xor 的 心 片 ， 或 者 数据 压缩 重心 片 等 功能 心 厂 ， 使 
CPU 周边 的 所 有 枪杆 子 和 部 队 有 条 不 率 地 执行 任务 。 


(3) 人 逻辑 上 ， 大 量 客户 端 并 发 、 随 机 10 操作 的 优化 ， 需 要 消除 逻 
辑 上 IO 的 瓶 贷 。 


(4) 功能 的 多 样 化 ， 各 种 高 附加 值 的 功能 比如 snapshot、mirror、 


dr、dedup 等 。 
CPU 的 高 性 能 对 整个 存储 的 性 能 起 到 多 大 的 作用 ? 


有 了 上 面 的 4 个 方面 ， 下 面 束 来 一 一 描述 一 下 CPU 如 何 影 啊 其 性 


ZI》 
CC 
o 


(1) 基本 的 数据 吞吐 服务 。 


这 是 一 个 盘 阵 最 基本 的 功能 。prefetch、queue、read wirte、flush,， 
这 些 过 程 都 是 最 基本 的 要 求 。 这 些 过 程 ， 看 算法 复杂 度 和 IO 类 型 而 定 ， 
基本 上 连续 大 块 IO 对 CPU 耗费 不 大 ， 主 要 在 于 磁盘 和 Cache 的 瓶 贷 ， 因 
为 连续 大 块 IO 不 要 求 CPU 做 出 多 少 运算 。 而 对 于 连续 小 块 IO， 此 时 虽然 
IO 是 连续 的 ， 但 是 Size 变 小 ， 系 统 整 体 否 吐 量 相 对 于 大 块 1O0 来 说 降低 不 
多 ， 当 然 ， 前 提 是 除了 磁盘 之 外 的 其 他 节点 没有 诸 贷 ， 而 CPU 利 用 率 却 
显著 上 升 ， 此 时 对 CPU 的 要 求 束 逐 渐 显 现 出 来 。 











当前 端的 IO 逐渐 增加 ，CPU 一 Cache 一 diskchannel 这 条 线 上 随处 可 
以 产生 瓶颈 ， 比 较 好 的 表现 应 该 是 disk 首 先 瓶 颈 ， 如 果 是 Cache 或 者 CPU 
首先 瓶 开 ， 那 么 这 个 系统 就 不 是 最 优 的 。 对 于 随机 IO 来 讲 ， 此 时 程序 会 
进入 优化 随机 IO 的 算法 模块 中 ， 视 算法 复杂 上 度 而 定 ， 此 时 要 求 CPU 足够 
强劲 来 抵消 一 部 分 磁盘 固有 的 面 对 随 机 IO 的 瓶 领 。 此 时 ， 算 法 越 精 民 ， 
CPU 越 强 ， 人 性 能 就 越 提 升 ， 当 然 如 果 算 法 本 身 已 经 达到 瓶颈 ， 此 时 提升 
CPU 也 没有 用 。 所 以 ， 这 些 东 西 都 要 经 过 详细 的 测试 、 考 察 。 











(2) 物理 上 上， 大量 的 IO 卡 和 接口 ， 需 要 消除 底层 的 瓶颈 。 总 控 各 
种 附加 硬 asic， 比 如 xor 的 芯片 ， 或 者 数据 压缩 硬 心 片 等 功能 必 片 ， 使 
CPU 周边 的 所 有 枪杆 子 和 部 队 有 条 不 率 地 执行 任务 。 高 端 存 储 有 大 量 的 
IO 卡 设备 ， 从 底层 角度 来 讲 ， 如 此 多 的 10 设备 和 接口 ， 就 要 求 多 CPU 和 
够 多 的 总 线 与 其 对 应 来 啊 应 源源 不 断 的 中 断 和 数据 收发 操作 了 。 其 次 ， 
高 端 存储 的 架构 大 多 硬件 模块 化 ， 各 个 模块 细 分 功能 ， 比 如 xor 模 块 专 
门 计算 xor 值 ， 其 他 模块 fc 通道 控制 、Cache 控 制 、 数 据 压缩 等 ， 这 些 硬 
件 蕊 厂 在 一 个 高 端 存储 中 有 多 个 ， 这 些 功 能 的 相互 配合 和 运作 要 求 CPU 
数量 足够 与 之 匹配 ， 而 频率 则 没有 过 多 要 求 。 








(3) 逻辑 上 ， 大 量 客户 端 并 发 、 随 机 IO 操作 的 优化 ， 需 要 消除 迎 
辑 上 IO 的 瓶 锋 。 





高 端 存储 的 一 个 必须 考虑 的 东西 就 是 同时 满足 大 量 客户 端的 并 发 操 
作 。 大 量 的 不 同 种 类 的 IO 类 型 同时 进入 ， 此 时 要 求 算 法 能 够 临危 不 惧 不 
乱 ， 井 井 有 条 地 对 这 些 IO 进 行 queue、requeue 分 类 等 操作 。 首 先 算法 本 
号 应 该 效率 足够 高 ， 其 次 CPU 应 当 足 够 强 或 者 核心 足够 多 从 而 使 得 算法 
更 快 地 执行 而 不 产生 等 待 ， 这 样 才能 满足 大 量 数据 源源 不 断 地 进出 而 不 
是 堵塞 在 Cache 中 ， 高 端 存储 Cache 动 辑 几 百 GB， 这 就 要 求 操作 手 需 要 
更 快 地 充满 或 者 清空 这 些 空间 以 便 接 受 更 多 IO。 








(4) 功能 的 多 样 化 ， 各 种 高 附加 值 的 功能 比如 Snapshot、Mirror、 
DR、Dedup、Cache 分 区 每 。 这 些 东 西 可 以 说 是 纯 软 件 操作 了 ， 对 磁盘 
速度 没有 过 高 要 求 。 而 对 算法 要 求 很 高 ， 比 如 Snapshot、Dedup 等 ， 你 
看 Datadomain 为 什么 两 家 来 抢 他 ， 就 是 因为 它 的 算法 能 让 Dedup 在 在 线 
数据 上 运行 而 效率 足够 高。 越 是 好 的 算法 ， 越 是 能 在 耗费 CPU 相 对 较 小 
的 情况 下 完成 相对 较 好 的 任务 ， 如 果 算 法 不 好 ，CPU 利 用 率 又 高 ， 那 只 
能 提升 CPU 来 补偿 了 。 还 有 诸如 Snapshot、Mirror、Sync 等 操作 ， 其 底 
层 是 很 复杂 的 东西 ， 其 底层 要 保存 很 多 结构 比如 bitmap 之 类 ， 都 要 求 算 
法 和 CPU 的 。 











个 人 认为 高 端 存 储 主要 在 于 磁盘 数据 与 缓存 的 交换 ， 那 么 主要 性 
能 就 体现 在 这 里 ， 那 CPU 的 性 能 体现 在 哪里 ? 


刚才 已 经 列举 了 高 端 存储 除了 基本 的 数据 吞吐 服务 之 外 的 功能 以 及 
CPU 对 其 影响 ， 这 里 就 不 多 说 了 。 





仅仅 是 对 数据 预 读 或 控制 读 写 队列 ? 那么 现 有 的 CPU 是 不 是 足以 


满足 需要 ? 


如 果 仅 仅 是 prefetch、queue optimization，RAID 卡 上 的 CPU 也 做 的 
不 错 ， 但 是 高 端 存 储 需 要 更 多 的 prefetch， 更 多 更 复杂 的 queue， 更 多 更 
复杂 的 算法 ， 考 虑 的 更 多 ， 所 以 需要 CPU 足够 强劲 。 现 有 的 CPU 都 是 根 
据 整 个 系统 可 以 提供 的 动力 来 选用 的 ， 或 者 存在 商业 价值 的 因素 ， 不 满 
足 要 求 就 伦 钱 买 更 强 的 CPU。 














HDS、EMC 的 高 端 中 采用 的 类 似 分 布 式 的 结构 ， 采 用 大 量 相对 低 
频率 的 CPU; 而 TIBM 则 是 对 称 多 处 理 器 结构 ， 抛 开 可 靠 性 等 因素 单纯 
考虑 控制 器 性 能 ，IBM 的 DS8000 的 结构 通过 提升 小 机 性 能 来 提升 存储 
性 能 ， 究 竟 能 提升 到 什么 程度 ? 





CPU 性 能 提升 有 两 种 方式 : 整体 核心 数 和 整体 频率 和 。 这 两 种 提升 
方式 的 选择 ， 与 系统 软件 的 层 结构 有 很 大 关系 。 如 果 系 统 研 层 的 各 个 模 
块 之 间 是 互 不 牵制 ， 独 立 并 发 运行 的 多 个 进程 或 者 线程 ， 并 且 明 显存 在 
线程 并 发 数 己 经 受到 整体 CPU 核 数 的 限制 成 为 瓶颈 了 ， 那 么 这 种 系统 采 
用 提升 CPU 核心 数量 的 方法 ， 性 能 提升 最 为 有 效 。 





而 如 末 某 系统 软件 诬 层 采用 的 多 是 各 个 模块 之 前 有 牵制 不 能 并 发 运 
行 ， 或 者 直接 单线 程 ， 这 种 结构 很 容易 受到 CPU 频率 的 限制 ， 而 提升 核 
心 数 对 这 种 结构 没有 很 大 的 提升 ， 反 而 提升 单个 CPU 的 频率 ， 性 能 提升 
很 大 。 然 而 ， 不 管 什 么 样 的 软件 架构 ， 随 着 产生 瓶 锋 的 触发 因素 不 同 ， 
比如 IO 的 行为 、 并 发 量 或 者 其 他 功能 性 模块 比如 snapshot 等 设计 的 不 
同 ， 对 这 两 种 染 构 产生 的 影响 也 不 同 ， 有 了 时候 前 者 反而 可 能 受 频 率 影 
响 ， 而 后 者 可 能 受 核心 数 的 有 影响， 这 时 候 束 需要 综合 判断 取 平 衡 了 。 
DS8000 软 件 层面 采用 什么 方式 ， 我 不 清楚 。 但 是 无 外 平 上 面 的 两 种 架 
构 。 








IBM 把 P6 装 到 DS8000 里 能 起 多 大 作用 ? 


这 不 是 起 多 大 作用 的 问题 ， 而 是 这 个 产品 就 是 这 么 设计 的 ， 用 小 机 
充当 控制 右 。 


63. 数据 库 系统 与 文件 系统 的 关系 


数据 库 系统 与 文件 系统 的 区 别 是 什么 ?最 近 买 了 《大 话 存储 》， 
下 在读， 感觉 不 错 。 


数据 库 是 应 用 程序 ， 一 般 都 是 运行 在 操作 系统 之 上 的 。 而 文件 系统 
是 操作 系统 内 核 的 一 个 模块 ， 运 行 于 操作 系统 内 核 。 然而， 数据 库 也 有 
文件 系统 的 功能 ， 即 ， 可 以 自己 管理 和 分 配 磁盘 上 的 Block， 读 写 数 
据 ， 当 然 也 可 以 利用 OS 内 核 的 文件 系统 来 读 写 文件 数据 。 


64. Iometer 中 Worker 的 问题 


您 好 ， 我 想 请 教 您 一 下 在 使 用 IOmeter 进 行 测试 的 时 候 ， 多 个 
worker 连 一 个 盘 和 一 个 worker 连 一 个 盘 测 试 有 什么 区 别 呢 ?谢谢 ! 还 
有 当 经 过 samba 和 NAS 导 出 的 盘 显 示 成 黄色 红 杠 的 时 候 ， 怎 么 开始 测 
试 。IOmeter 写 入 iobw.tst 文 件 的 时 候 ， 怎 么 写 入 ， 写 入 多 大 啊 ? 非常 
感谢 您 ! 


如 果 你 这 多 个 盘 是 同一 台 盘 阵 ， 如 末 想 测试 整体 性 能 ， 得 需要 知道 
这 个 盘 阵 内 部 是 如 何 对 IO 进行 处 理 的 ， 如 果 只 测试 一 个 盘 ， 可 能 并 不 能 
反映 这 人 台 设 备 的 真实 能 力 ， 因 为 设备 有 可 能 基于 LUN 来 分 配 资源 ， 如 果 
只 对 一 个 LUN 进 行 IO 测试 ， 则 这 样 的 话 很 有 可 能 一阵 列 就 有 所 保留 ， 所 
以 最 好 是 每 个 盘 都 多 个 worker 测 试 。Iometer 好 像 不 能 对 NAS 盘 符 的 ， 可 





以 对 iSCSI。 那 个 文件 是 要 充满 整个 盘 的 ， 如 条 直接 测试 raw 设 备 ， 则 不 
会 写 文 件 。 测 试 格式 化 后 的 磁盘 ， 会 一 直 写 满 。 这 个 不 用 我 说 你 自己 试 
试 也 能 试 出 来 。 


65. 测试 用 Block 大 小 的 问题 


网 络 存储 测试 中 测试 存储 系统 性 能 的 IOPS 时 ， 为 什么 块 大 小 选择 
512B~64KB 啊 ?512B 肯 定 是 因为 破 盘 的 忆 区 原因 ， 可 64KB 是 怎么 回 
事 ? 





要 获取 IOPS，IO _ Size 当然 要 最 小 ， 也 就 是 512B 了 ，IO Size 过 大 的 
话 ， 会 在 IOPS 较 低 的 情况 下 就 已 经 达到 饱和 链 路 带宽 了 。 此 时 不 足以 反 
映 设 备 的 真实 饱和 IOPS。 达 到 最 大 IOPS 的 条 件 是 完全 利用 所 有 前 端 接 
口 发 送 请 求 ，512B 的 连续 IO， 并 且 链 路 带宽 没有 饱和 ， 此 时 所 得 到 的 
IOPS 数 据 便 是 系统 饱和 IOPS 。 


当然 这 种 情况 下 的 IOPS 否 吐 能 力 古 没 多 少 意义 的 。 在 小 块 随机 IO 

情况 下 的 IOPS 更 具有 意义 。 更 有 其 者 要 求 不 使 用 内 部 Cache， 其 至 连 物 
理 磁盘 的 读 Cache 都 不 使 用 ， 在 这 种 情况 下 所 得 到 的 IOPS 数 据 则 可 以 肥 
映 设 备 对 后 端 磁盘 IO 的 优化 程度 。 至 于 64KB， 这 个 就 因 人 而 异 了 ， 总 
之 ， 要 根据 环境 来 进行 测试 。 比 如 你 的 环境 中 主机 的 IO Size， 最 好 能 做 
成 一 个 图 ， 取 几 个 点 ， 然 后 针对 存储 IOPS 否 吐 ， 结 果 再 做 一 个 图 ， 这 样 
比较 直观 地 反映 存储 在 各 种 Size 和 随机 率 IOPS 情 况 ， 并 判断 这 个 设备 是 
否 比 较 均 衡 而 不 是 大 起 大 沙 。 





但 是 我 想 测 试 网 络 存储 系统 的 性 能 ， 也 就 是 通过 网 络 连接 后 的 存 
储 系统 ， 希 望 能 尽 可 能 地 模拟 真实 的 环境 ， 束 需要 不 同 的 IO Size 了 。 
但 是 IO Size 的 选择 有 个 范围 ， 测 试 时 想 采 用 IO Size 线 性 递增 的 方式 进 


行 ， 即 512B，1KB, 2KB, 4KB, ...... 64KB，......， 但 是 最 大 多 大 合 
理 ， 是 否 是 一 直 递 增 ， 直 到 系统 的 响应 时 间 使 用 户 不 能 接受 为 止 。 我 
在 某 个 资料 上 看 到 TCP 的 窗口 大 小 是 64KB， 不 知道 是 不 是 跟 这 些 因 素 
有 关 ? 








根据 你 环境 中 主机 的 行为 而 定 ， 如 果 主 机 平均 在 64KB， 你 去 用 
512B 测 试 出 来 看 性 能 ， 那 就 不 对 口 了 。IO Size 最 大 值 是 有 的 ， 两 个 地 方 
限制 : 协议 本 身 ， 设 备 本 上身 。 前 者 是 协议 固有 限制 ， 后 者 则 根据 存储 端 
的 考虑 ， 有 些 存 储 设备 并 不 严格 遵循 协议 ， 这 也 是 兼容 性 参差 不 齐 的 原 
因 。 最 后 你 又 说 TCP 了， 那么 我 更 不 明白 了 ， 你 这 是 测试 的 SCSI 还 是 
NAS 呢 ? IO ”Size 和 TCP 一 层 的 没有 直接 关系 。TCP 的 Buffer 大 或 者 小 ， 
并 不 制约 上 层 的 东西 ， 倒 是 MSS 和 MTU 有 点 制约 关系 。 


66. 存储 性 能 的 衡量 指标 


存储 系统 的 性 能 衡量 指标 有 哪些 ? 目前， 我 用 三 个 海量 存储 系统 
测试 的 性 能 指标 元 数据 否 吐 率 ， 并 发 访问 量 和 聚合 带宽 IOPS/ 啊 应 时 
间 ) 来 判断 网 络 存储 系统 性 能 是 否 正确 ? 由 于 网 络 存储 系统 测试 时 是 
通过 文件 系统 接口 来 测量 的 ， 因 此 不 知 能 否 测 出 网 络 存 IOPS/ 啊 应 时 间 
指标 。 在 衡量 磁盘 阵列 时 ， 这 个 指标 是 必需 的 ， 但 古 哪个 测试 是 基于 
文件 系统 之 下 得 出 来 的 ? 疑问 中 .… 














元 数据 吞吐 量 ， 其 实 没 有 多 少 实 量 ， 看 元 数据 IOPS。 而 对 于 NAS 来 
说 ， 这 些 IO 大 部 分 会 Cache hit， 因 为 NAS 内 部 可 以 感知 自己 的 FS 逻辑 ， 
FS 预 读 元 数据 。 并 发 访问 ， 聚 合 带宽 ， 这 两 点 IOPS 响 应 时 间 曲 线 可 以 
反映 出 一 台 设 备 大概 的 素质 了 。 当 然 可 以 不 通过 文件 系统 接口 ， 使 用 
RAW 直接 读 写 测试 。 








可 是 在 小 文件 模式 下 ， 元 数据 的 量 就 上 来 了 。 








我 的 意思 是 说 实 量 和 虚 量 的 概念 。 实 量 直接 导致 吞吐 量 上 升 ， 而 虚 
量 直接 导致 IJOPS 的 上 升 ， 小 文件 多 的 情况 下 ， 虚 量 相对 比较 多 ，IOPS 
相对 较 大 。 








请 教 冬瓜 兄 ， 如 果 别 人 只 给 我 们 提供 文件 系统 接口 ， 我 们 只 能 把 
别人 给 的 网 络 存 储 系统 当成 黑 盒 子 ， 那 我 怎么 得 到 系统 的 IOPS 与 其 对 
应 的 啊 应 时 间 ? 我 知道 在 磁盘 阵列 里 是 阵列 管理 融 决 定 了 IOPS 的 大 
小 ， 但 是 在 存储 系统 中 ， 由 于 磁盘 阵列 之 上 可 能 要 做 虚拟 化 和 并 行文 
件 系 统 等 ， 用 IOPS 与 其 对 应 的 啊 应 时 间 来 衡量 这 样 的 存储 系统 可 信 
么 ? 还 有 几 个 问题 : 看 元 数据 更 应 该 看 IOPS? 元 数据 操作 速率 和 IOPS 
的 关系 怎样 ? 











看 来 你 的 存储 空间 就 是 一 个 基于 NAS 的 Volume。 如 果 你 使 用 
linux/unix 系 统 ， 那 么 可 以 将 NAS 客 户 端 也 就 是 主机 端 上 的 NAS 绥 存 关 
闭 ，mount 选 项 中 有 好 几 项 可 以 控制 这 个 行为 ， 这 样 得 出 来 的 IO 是 可 以 
排除 本 地 缓存 加 速 的 裸 IO 结果 。 不 管 怎么 虚拟 化 ， 怎 么 并 行 ， 最 终 我 们 
要 的 是 应 用 程序 能 够 得 到 快速 的 IO 处 理 服 务 ， 而 IO 测试 软件 就 是 可 以 从 
一 定 角度 反映 应 用 程序 获得 这 种 服务 的 具体 情况 的 。IOPS 和 啊 应 时 间 ， 
以 及 吞吐 量 ， 这 是 最 终 我 们 需要 看 的 ， 当 然 可 信 。 上 所 谓 元 数据 操作 ， 在 
NAS 中 ， 比 如 NFS 中 的 getattr()、fsinfo()、fsstat()、lookup()、create() 

等 。 这 些 操作 根本 没有 实 量 ， 也 了 吏 是 IO 中 没有 传输 实际 文件 数据 ， 而 都 
是 元 数据 ， 这 个 你 去 抓 包 看 看 就 理解 了 。 这 些 没有 实 量 的 IO， 块 小 ， 频 
繁 ， 容 易 导 致 IOPS 上 升 而 吞吐 量 很 低 。 





67. 单 块 便 盘 的 IOPS 问 题 


一 块 硬 盘 的 IOPS 约 为 多 少 ?” 通常 看 储存 的 性 能 IOPSIOPS 和 
Throughput 这 两 个 参数 ， 那 一 块 300GB ”SAS 硬 盘 的 IOPSIOPS 大 约 多 
少 ? 有 谁 知 道 ， 单 块 硬盘 ， 不 配置 RAID， 不 使 用 RAID 卡 的 IOPS? 


这 个 不 能 顺 嘴 就 说 。 你 可 以 自我 测试 一 下 。 硬 盘 有 Cache 的 ， 读 
IOPS 在 一 定 条 件 下 甚至 可 以 达到 上 和 于。 小 块 随机 IOPS， 就 很 低 了 ， 几 
十 都 有 可 能 。 通 常情 况 下 ， 综 合 来 说 ，15000 RPM 的 FC 和 SAS 能 有 300 
差不多 ，SATA， 差 不 多 160 吧 ， 这 是 8 / 2 比例 混合 读 写 时 的 大 概 结 
如 果 是 100% 随 机 读 ， 那 么 大 概 400 左 右 ; 100% 比例 随 机 写 ， 不 到 400。 








68. 何谓 “ 端 到 端 ”? 


端 到 端 到 底 是 什么 意思 ? 总 看 有 些 资 料 说 “ 端 到 问 ” 的 什么 什么 ， 
这 个 词 到 底 什 么 意思 啊 ? 跟 什么 相对 呀 ? 端 到 端 到 确 有 什么 好 处 ?是 
支持 的 传输 距离 更 远 么 ? 


端 到 端 不 是 好 处 和 坏处 的 问题 ， 只 是 一 个 事实 而 已 。 端 到 端 就 像 是 
字面 上 理解 的 一 样 ， 一 端 到 另 一 端 ，through， 穿 透 性 的 。 具 体 还 要 根据 
上 下 文 来 解释 。 比 如 TCP 是 端 到 并 有 状态 协议 ， 意 味 着 TCP 是 在 通信 双 
方 的 两 端 各 保存 状态 机 ， 不 管 两 庙 之 间 经 过 什么 链 路 ， 用 什么 设备 相 
连 ， 数 据 包 走 的 哪 条 路 ，TCP 不 管 ，TCP 管 的 就 是 收 到 对 应 的 数据 从 而 
去 触发 状态 机 改变 ， 依 次 循环 下 去 。 再 比如 描述 存储 设备 ， 诸 如 “ 端 到 
端 4Gb 市 宽 ”， 这 里 的 端 到 问 ， 束 是 说 从 存储 前 端 到 后 端 ， 接 口 带宽 都 是 
4Gb， 而 不 是 前 端 4Gb， 后 端 降低 到 2Gb， 这 样 后 端 就 可 能 产生 瓶 陈 。 也 
许 这 了 束 是 所 谓 的 “好 处 ? 吧 ， 还 是 那 名 话 ， 端 到 端 和 好 处 坏处 没有 关系 ， 
与 传输 距离 更 是 没有 一 点 关系 。 是 一 个 事实 而 已 。 














69. MSCS 对 iSCSI 阵 列 的 要 求 


MSCS 双 机 ， 使 用 这 CSI 阵 列 ， 目 前 担心 有 些 iSCSI 阵 列 实现 不 是 很 
完整 ， 咨 询 一 下 MSCS 对 iSCSI 阵 列 有 什么 特殊 要 求 么 ? 


只 要 注意 iSCSI 阵 列 支 持 SCSI2 ”Reservation 即 可 ， 最 好 支持 SCSI3 
Reservation。SCSI3 的 Reservation 是 SCSI2 Reservation 的 进化 版 ， 专 为 并 
行 多 客户 端 访问 LUN 而 生 ，MSCS 是 一 种 HA， 而 不 是 并 行 访问 。MSCS 
用 的 是 SCSI2 Reservation， 也 就 是 传统 的 Reserve 和 Release 的 command。 
Break ”reservation 是 要 由 客户 问 也 就 是 主机 并 来 实现 ， 主 机 不 Release， 
Reserve 永 远 存在 ，SCSI2 时 候 只 要 存储 端的 SCSI ” Stack 重新 reset 或 者 设 
备 断 电 重 启 后 ， 即 Release。SCSI3 中 简单 的 reset 或 者 reboot 并 不 能 


release。 





70. IOPSs 与 带宽 的 关系 


IOPS 与 带 完 有 什么 区 别 ? 存储 阵列 以 哪个 参数 为 性 能 指标 ? 


(1) IOPS 与 带宽 有 什么 区 别 ? 每 次 IO 就 是 一 次 操作 ， 比 如 读 从 哪 
开始 的 多 少 扇 区 的 数据 ， 这 就 是 一 次 IJO。 每 次 IO 请 求 的 数据 量 乘 以 
IOPS， 束 等 于 带宽 。 





(2) 存储 阵列 以 哪个 参数 为 性 能 指标 看 客户 并 对 存储 的 需求 了 ， 
有 些 要 求 蝇 带宽 比如 视频 编辑 ， 有 些 则 要 求 高 IOPS 否 吐 能 力 比 如 一 些小 
块 离散 的 IO。 前 者 虽然 达到 高 带宽 但 IOPS 可 能 较 低 ， 因 为 每 个 IO 请 求 
的 数据 量 很 大 ， 后 者 IOPS 高 但 是 可 能 市 宽 较 低 ， 因 为 每 次 IO 请 求 的 数 
气量 小 。 











71. 随机 与 连续 的 比较 





(1) 随机 读 是 不 是 比 顺 序 读 速度 快 ? 


你 搞 反 了 吧 。 随 机 读 是 不 可 能 比 连续 读 快 的 。 这 里 “顺序 ”应 为 连 
续 ， 顺 序 和 并 发 是 一 对 ， 连 续 和 随机 是 一 对 。 如 果 没 有 Cache 的 作用 ， 
随机 读 更 是 慢 上 加 慢 。 有 了 Cache， 有 了 prefetch 预 读 的 效果 ， 能 轻微 增 
加 随机 读 的 效果 ， 但 是 效果 的 提升 不 像 连续 读 那 么 显著 。 另 外 ， 如 果 你 
用 SSD， 那 么 又 另 当 别论 了 。SSD 下 随机 IO 和 连续 IO 的 差别 没有 机 械 便 
盘 那么 大 。 








(2) 随机 写 是 不 是 比 顺序 写 慢 ? 





随机 写 同 样 比 顺序 号 慢 ， 如 果 没 有 Cache， 那 后 果 是 很 严重 的 。 有 
了 Cache， 能 大 大 提升 随机 写 的 速度 ， 但 是 仍然 比 连续 写 要 慢 一 些 。 即 
便 有 了 Cache， 还 要 看 Cache 策 略 ， 是 write back 模 式 还 是 write through 模 
式 ，write through 模 式 的 话 ， 随 机 写 虽 然 比 没有 Cache 情 况 下 要 快 一 些 ， 
但 是 依然 很 慢 。write _ back 模式 下 ， 只 要 Cache 足 够 大 ， 控 制 器 将 Data 收 
进来 并 作 受 善 安置 后 便 会 对 主机 返回 ack，IO 完 成 ， 然 后 控制 器 会 对 这 
些 随 机 的 IO 进行 重新 优化 写 盘 。 











(3) 存储 阵列 的 随机 读 写 是 不 是 比 顺序 读 写 性 能 差 ? 

只 要 是 随机 ， 总 比 连续 慢 。 不 管 单 盘 还 是 阵列 ， 有 无 Cache。 但 是 
读 和 写 之 间 谁 快 谁 慢 ， 就 得 看 Cache 了 。 

72. 关于 ZONE 和 和 争 抢 资源 的 问题 


“在 设计 Zone 时 ， 有 一 个 最 基本 的 原则 每 个 Zone 中 只 有 一 全 
主机 。 遵 循 这 样 规 则 设计 出 的 Zone， 结 构 非 常 清晰 ， 不 会 有 错误 产 
生 。 另 外 可 以 防止 不 同 的 主机 争夺 对 磁盘 控制 权 的 情况 。? 人 争夺 磁盘 控 





制 权 ， 如 何 理解 ? 


那 句 话 估计 是 作者 估 摸 着 乱 说 的 ， 说 的 时 候 又 没 说 底层 机 制 ， 可 以 
不 必 在 意 。 并 不 存在 所 谓 争 抢 问 题 ， 争 抢 是 应 该 的 ， 如 果 强 者 胜出 ， 那 
岂 不 是 只 有 一 个 Initiator 可 以 访问 target 了 么 ?这 个 所 谓 “ 争 抢 ” 是 正常 现 
象 。 所 以 说 这 个 作者 在 估 摸 着 乱 说 ， 只 是 为 了 体现 Zone 的 重要 性 而 已 。 
SCSI3 PR 用 于 并 行 访问 ， 集 群 脑 裂 后 的 vote， 与 这 个 “ 争 抢 ” 就 没有 关系 
了 ，vVote 就 是 在 争 抢 ， 有 什么 反常 么 ? 





73. LAN Free 的 问题 


IP SAN 能 做 到 LAN Eree 吗 ? 如 果 是 iSCSI 必然 用 到 Lan， 那 么 还 


能 Lan Free 么 ? 


我 们 用 的 是 SL 500 磁 带 库 ， 不 知道 如 何 实现 IP SAN 环 境 下 的 LAN 


Eree 


呵呵 ，Lan 。 Free 这 个 概念 早 该 被 干掉 了 。 取 而 代 之 的 是 Front-End 
Free。 上 所 谓 Lan 不 一 定 就 非得 指 代 前 端 客 户 端 与 服务 器 通信 的 网 络 ， 你 
单独 弄 个 交换 机 用 于 存储 和 主机 ， 不 一 样 是 Lan Free 么 ? 但 是 这 个 单独 
交换 机 ， 是 不 是 也 是 “Lan” 啊 ? 所 以 ， 这 个 词 该 被 干掉 了 。 用 frontend 和 
backend。 后 文 对 这 些 概念 还 有 更 加 详细 的 论述 。 





74. 如 何 选择 磁盘 以 及 磁盘 阵列 的 问题 


冬瓜 头 ， 你 好 ! 很 早 就 一 直 看 你 的 文章 ， 最 近 又 重新 拜读 了 你 的 
《大 话 存 储 》。 在 存储 应 用 中 ， 我 一 直 在 思考 儿 个 问题 : 


(1) 在 数据 库 等 关键 应 用 环境 下 ， 一 般 建 议 配置 146GB 的 





15krpm 光 纤 磁 盘 ， 而 不 选择 用 大 容量 光纤 磁盘 。 我 的 理解 是 : 146GB 
的 磁盘 重 构 时 间 短 ， 能 够 有 效 减 少 对 应 用 的 影响 。 但 是 在 性 能 方面 似 
乎 没有 提升 。 





(2) 如 何 根据 一 个 应 用 来 选择 相应 的 磁盘 阵列 《例如 : 人 磁盘 阵列 
的 前 端 端口 数 、 后 端 磁盘 通道 数 、Cache 大 小 ) ? 我 的 理解 是 : 前 端 
端口 数 二 对 应 的 IOPS/ 单 块 磁盘 平均 IOPS/ 主 机 端口 平均 并 发 磁盘 数 。 
但 是 Cache 没 有 办 法 来 计算 了 。 主 机 平均 并 发 磁盘 数 是 否 根据 不 同 ) 
商 不 同 ， 是 否 有 经 验 值 呢 ? 














不 知道 ， 我 的 理解 是 否 有 偏 莽 。 还 请 帮助 指正 ， 谢 谢 ! 





感谢 文 持 ! 就 我 的 理解 回答 一 下 。 


(1) 你 讲 的 有 一 定 道理 ， 即 从 Rebuild 时 间 角 度 考 虑 。 但 是 选择 多 
大 容量 的 人 硬盘， 得 根据 盘 位 、 价 格 、 今 后 扩展 、 当 前 需求 量 等 因素 综合 
考 夸 。 我 想 你 说 的 “而 不 选择 大 容量 FC 磁 盘 ? 只 是 茶 种 条 件 下 做 出 的 决 
定 ， 没 有 普遍 性 。 理 论 上 讲 ， 磁 盘 越 多 ， 人 性 能 越 高 ， 不 管 是 从 带宽 吞吐 
量 还 是 IOPS 吞 吐 量 的 角度 。 如 有 宁 对 性 能 要 求 不 高 但 是 又 要 求 大 容量 ， 那 
么 没有 理由 不 选择 容量 大 的 盘 了 。 多 一 块 盘 ， 多 耗 电 ， 多 花 成 本 。 

















(2) 不 同 的 应 用 的 确 会 产生 不 同类 型 的 O， 但 是 这 不 是 用 来 选择 
盘 阵 的 最 重要 的 标准 。 如 果 你 的 盘 阵 只 给 一 台 主 机 、 一 个 应 用 来 用 ， 那 
可 以 根据 这 个 往 下 调查 。 但 是 多 主机 并 行 访问 情况 下 ， 并 行 的 IO 在 一 起 
会 将 原本 单 路 IO 的 属性 混沌 化 ， 使 得 IO 属性 对 盘 阵 的 影响 降 为 次 要 予 
盾 。 此 时 主要 看 盘 阵 的 人 硬件 规格 参数 ， 还 有 其 SPC 评 测 理论 值 ，Cache 
IOPS， 非 Cache 的 IOPS， 即 Write Through 模 式 下 的 IOPS。 首 先 需 要 乔 清 
楚 主机 端 到 底 可 以 以 多 大 的 速率 、IO 来 稻 炸 存储 ， 然 后 再 根据 存储 的 理 




















论 规格 来 是， 最 卫 接 的 办 法 束 是 进行 模拟 测试 ， 以 实际 数据 为 准 。 我 不 
清楚 “主机 并 发 磁盘 数 ?具体 你 指 的 是 什么 意思 。 


75. 所 谓 “ 坏 面 区 转移 ”功能 


“ 另 一 个 额外 的 容错 功能 是 坏 局 区 转移 (Bad Sector 
Reassignment) 。 坏 局 区 转移 是 当 人 磁盘 阵列 系统 发 现 磁 盘 有 坏 悄 区 
时 ， 以 另 一 空白 且 无 故 隧 的 硬 区 取代 该 忆 区 ， 以 延长 磁盘 的 使 用 寿 
命 ， 减 少 坏人 磁盘 的 发 生 率 以 及 系统 的 维护 成 本 。 所 以 坏 悄 区 转移 功能 
使 磁盘 阵列 具有 更 好 的 容错 性 ， 同 时 使 整个 系统 有 最 好 的 成 本 效益 
比 。” 上 面 这 段 话 中 ， 这 个 坏 届 区 转移 是 所 有 的 商家 都 有 这 个 技术 ， 还 
是 个 别 三 家 的 ? 











被 忽悠 了 。 这 个 技术 是 SCSI3 中 详细 定义 的 协议 ， 他 只 是 实现 器 
了 ， 没 什么 神秘 的 。 去 找 份 SCSI 文 档 看 看 就 知道 了 。 


76. 关于 不 同 设备 不 同 IOPS 的 问题 
向 冬瓜 头 请 教 一 个 问题 : NETAPP 不 同 设备 的 IOPS 数 据 的 改变 是 
依靠 什么 ? 软件 结构 还 是 硬件 型 号 ， 例 如 CPU、 主 板 、 网 卡 还 是 什 
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CPU 总 线 ， 外 部 接口 ， 磁 盘 数 量 。ONTAP 系 统 内 核 效 率 不 同 平台 
几乎 相同 的 ， 发 挥 到 多 少 就 看 硬件 指标 了 。 


77. 3 块 盘 做 RAID 6， 坏 2 块 怎么 恢复 ? 





3 个 盘 做 的 RAID ”6 是 如 何 实现 反 2 盘 容 错 的 ? 3 盘 做 RAID 6 的 ， 


LSI8708 可 以 做 ， 那 么 怎么 使 用 1 块 盘 恢复 其 他 2 块 盘 呢 ? 


不 过 ， 你 吕 3 块 盘 ， 有 必要 这 样 折腾 ? 如 果 你 明白 RAID 6 基本 的 算 
法 ， 你 就 明白 了 。3 块 盘 的 RAID 6， 我 做 个 比喻 吧 ， 数 据 盘 上 的 内 容 是 
中 文 ， 校 验 盘 1 上 的 数据 是 英文 ， 校 验 盘 2 上 的 数据 是 德 文 。 数 据 盘 和 校 
验 盘 1 被 拿 掉 ， 一 样 可 以 从 德 文 盘 经 过 翻译 ， 回 到 中 文 。 











本 质 上 ，RAID 6 就 是 将 数据 盘 用 两 种 不 同 的 校 验 算法 校 验 出 两 套 独 
立 的 校 验 数据 来 保存 。 对 于 三 块 盘 的 RAID 6， 几 乎 所 有 算法 算出 来 的 其 
实 等 同 于 3 盘 RAID 1。 








78. IOMETER 测 试问 题 


问题 一 是 : 我 要 用 Iometer 测 试 磁盘 阵列 的 最 大 IOPS，lrt (10% 负 
载 下 的 啊 应 时 间 ) 设置 的 参数 里 面 有 一 项 是 并 发 IO 请 求 数 〈 在 Iometer 
里 面 只 能 设置 进程 数 ， 这 个 我 知道 ) ， 现 在 要 确定 这 个 参数 的 典型 值 
《比如 10000 为 基数 ， 以 5000 为 步 长 递增 ) ， 但 是 我 不 知道 如 何 确定 这 
个 值 ， 我 只 知道 IOPS 的 峰值 >800000， 我 需要 根据 其 他 什么 参数 ， 如 
何 来 确定 呢 ? 我 在 网 上 看 了 很 多 测试 的 结果 报告 ， 发 现 大 家 并 发 数 大 
多 定 为 64， 还 有 说 是 128 或 256 的 ， 这 是 为 什么 呢 ， 如 何 确定 的 呢 ? 用 
的 2 的 几 次 方 ， 这 是 什么 原因 ? 为 什么 不 用 整数 比如 我 号 的 10000 这 样 
的 呢 ? 














这 个 并 发 IO 请 求 数 需要 根据 不 同 层次 的 限制 来 判断 : user ”level 和 
kernal level 之 间 的 限制 ，device driver 处 的 限制 ， 适 配 卡 硬件 frmware 处 
的 限制 ， 存 储 设 备 处 适 配 卡 和 device driver、application 处 的 限制 。 取 它 
们 之 间 的 最 小 值 来 作为 这 个 并 发 10O 数 ， 再 大 的 话 ， 束 已 经 任意 一 处 被 限 
制 ， 没 有 意义 了 。 人 至 于 每 一 处 的 数值 ， 需 要 你 去 调查 。 这 个 数值 也 就 是 





queue ”depth， 看 到 这 个 字眼 就 差不多 是 了 。 人 和 针对 你 的 问题 ，10000 是 不 
可 能 的 ， 也 没 必要 ， 一 般 来 讲 ，device driver 和 适 配 卡 firmware 处 不 会 超 
过 256 的 ，64 是 折 中 数值 。 


问题 二 是 : 我 看 冬瓜 头 版 主 在 别 的 帖子 里 回复 说 ， 一 个 系统 测试 
IOPS、 响 应 时 间 、 吞 吐 量 ， 这 三 个 指标 是 基本 的 。 我 想 请 问 ， 在 随机 
IO 应 用 环境 下 ， 需 要 测 吞 叶 量 吗 ? 这 个 吞吐 量 是 指 什么 ? 单位 是 MB/s 
吗 ? 如 果 是 的 话 ， 那 在 Iometer 测 试 结果 里 面 ， 不 是 有 这 个 值 么 ， 还 需 
要 单独 测试 么 ? 我 的 意思 是 在 测试 rt 和 IOPS 的 时 候 就 可 以 得 出 这 个 
值 。 如 果 测 量 吞 吐 量 的 峰值 ， 我 知道 应 该 是 在 顺序 IO 应 用 环境 下 测试 
对 吧 ， 问 题 是 我 现在 在 随机 IO 环境 下 ， 测 吞吐 量 有 意义 吗 ? 并 且 是 可 
以 直接 通过 IOPSX 块 大 小 得 出 的 啊 。 
































这 属于 明知 故 问 了 。 随 机 IO 下 主要 看 IOPS 和 啊 应 时 间 ， 吞 吐 量 意 
义 不 大 。 当 然 如 果 茶 个 设备 在 相当 随机 和 小 块 IO 下 依然 能 够 饱和 链 路 带 
览 ， 那 是 相当 好 的 情况 了 。 


79. 计算 IOPS 

假定 : 

(1) 硬盘 没有 Cache，512B 下 随机 IOPS 为 150 

(2) RAID 卡 和 存储 都 没有 Cache 

(3) 主机 端 IO Size 512B 的 随机 IO， 读 写 比例 是 2:3 


(4) RAID 5 


问题 ， 计 算 要 10000 的 10PS 需 要 多 少 块 盘 ? 
10000x0.4 十 10000x0.6x4 一 28000 


28000:150 王 186.7 即 需要 187 块 盘 才 可 以 达到 需求 ， 





则 最 大 的 吞吐 量 为 10000x512B 王 5.12MIB/s 
请 问 ， 这 样 的 计算 是 否 正 确 ? 


你 还 少 了 一 个 假定 ， 束 是 RAID 控 制 器 不 能 并 发 IO， 也 就 是 这 个 
RAID 5 时 刻 处 于 单个 IO 的 读 改 写 的 状态 。 有 了 这 些 假设 ， 就 可 以 大 致 
算出 了 。RAID 5 写 惩 刊 ， 在 单个 随机 IO 读 改写 模式 下 ， 共 额外 产生 1 个 
写 和 两 个 读 。 所 以 10000x0.4x2 十 10000x0.6x2 二 20000，20000=*150= 二 
134。 不 过 这 个 数字 基本 没 多 大 意义 。 实 际 情况 下 ，RAID 5 视 磁盘 数量 
多 少 ， 可 以 并 发 不 少 IO 的 ， 最 好 的 情况 下 是 可 以 整 条 写 ， 写 惩 鹿 没 有 读 
IO， 而 RAID 5 任何 情况 下 写 惩 罚 中 的 写 IO 只 有 一 个 ， 就 是 写 Parity。 而 
随 厦 并 发 几率 增加 ， 读 改写 或 者 重 构 写 时 的 号 惩 如 更 为 严重 ， 增 加 了 大 
量 的 读 操 作 。 最 后 ， 还 要 看 后 端的 总 线 或 者 Loop 的 限制 ， 一 个 Loop 所 
能 提供 的 带宽 和 IO 都 有 限 。 




















80. 存储 系统 后 端 多 链 路 的 问题 


存储 设备 后 端 接口 数量 有 2、4、8、16 等 ， 如 EMC CX120 是 2 个 ， 
CX240 是 4 个 ，480 是 8 个 等 。 可 控制 器 都 是 双 控 的 ， 后 端 有 较 多 的 链 路 
除了 起 到 宛 余 的 作用 ， 是 否 还 有 其 他 功能 ?” 本 人 理解 一 个 控制 器 单位 
时 间 内 只 能 使 用 一 条 链 路 ， 是 否 正 解 ? 


元 余 是 次 要 的 ， 后 端 更 多 链 路 主要 是 为 了 接 入 更 多 磁盘 啊 ! 谁 说 控 


制 器 单位 时 间 只 能 使 用 一 条 链 路 的 ? 看 后 端的 必 片 ， 一 般 位 于 同一 共 孚 
总 线 上 的 多 个 链 路 是 单位 时 间 一 条 ， 但 是 高 端 货 后 端 都 是 无 阻 压 的 。 





81. RAID 类 型 与 1OPS 





情况 是 这 样 的 ， 目 前 本 人 正在 弄 一 家 六 百 台 的 网 吧 ， 原 先 打 算 买 
台 游 戏 服务 器 《就 是 虚拟 盘 ， 把 游戏 放 在 服务 器 上 面 让 客户 机 来 读 
取 ， 相 当 于 网 络 存储 了 ) ， 原 先是 打算 用 四 块 300G SAS 做 RAID 0 阵 
列 。 配 上 32GB 内 存 做 绥 存 “因为 虚拟 盘 软件 都 有 绥 存 功能 ， 读 过 一 次 
的 东西 会 在 缓存 里 ， 第 二 次 读 的 时 候 直接 读 内 存 ) 。 但 这 两 天 听 了 一 
个 说 法 ， 讲 的 是 RAID 0 不 能 提高 随机 读 写 性 能 ， 所 以 没有 必要 做 
RAID 0， 因 为 网 吧 读 游戏 都 是 随机 的 多 。 看 了 冬瓜 头 前 碍 的 博客 上 有 
一 篇 文章 ，“ 深 入 理解 各 种 RAID 相 对 单 盘 速度 的 变化 >， 他 的 结论 是 
RAID 0 随机 读 写 仅 在 并 发 IO 十 分 割 块 很 大 的 时 候 ，IOPS 显 闭 增 加 。 
但 对 这 句 话 不 大 理解 ， 不 知道 在 网 吧 这 个 案例 中 ， 到 底 有 没有 必要 和 弄 

RAID 0。 

















不 知道 你 网 吧 里 什么 架构 ，RAID 0 不 安全 ， 坏 一 块 盘 数 据 全 丢 ， 除 
非 找 数 据 恢 复 公 司 ， 圣 运 的 话 能 恢复 一 些 。RAID 0 是 最 好 的 提速 方式 ， 
那个 文章 中 我 只 是 说 相对 于 单 盘 在 随机 IO 情况 下 的 IOPS 提 升 相 对 幅 
度 。 另 外 ， 需 要 完全 深刻 地 了 解 IO 类 型 ， 甚 至 存储 系统 ， 首 先 推 荐 你 阅 
读 《 大 话 存 储 》 一 书 。 针 对 你 的 其 体 问 题 ， 说 RAID 0 不 能 提高 随机 该 写 
性 能 ， 是 错误 的 ， 当 然 可 以 提高 ， 但 是 得 看 情况 ， 有 些 条 件 显 车 提高 ， 
有 些 则 不 显著 。 














RAID 0 随机 读 写 ， 在 并 发 IO 十 分 割 块 大 的 情况 下 显著 提升 IOPS， 
你 不 理解 这 句 话 可 能 是 因为 分 割 块 的 问题 ， 这 里 所 谓 分 割 块 当时 我 没有 
用 Segment 这 个 词 蔡 代 ， 如 果 蔡 代 了 ， 你 束 明 白 了 ， 如 果 还 不 明白 ， 那 








么 我 再 说 下 去 就 要 大 费 口 百 了 ， 就 不 如 你 去 看 看 书 来 得 快 和 益处 多 。 到 
底 用 不 用 RAID 0， 刚 才 也 说 了 ，RAID 0 最 好 ， 但 是 你 要 忍受 数据 丢失 
的 风险 ， 综 合 评判 ， 折 中 方案 是 使 用 RAID 5， 既然 客户 端 都 是 读 而 不 
写 ，RAID 5 读 的 时 候 与 RAID 0 几乎 相同 效率 。 


82.10 冲 突 导致 的 性 能 下 降 


看 到 本 版 讨论 的 都 是 非常 大 型 的 存储 ， 我 都 有 点 怕 自 己 的 小 小 系 
统 问 题 拿 不 出 手 ， 不 过 还 是 鼓 足 点 勇气 请 教 大 家 了 。 不 过 我 这 个 系统 
主要 是 我 个 人 用 的 ， 对 个 人 而 言 属于 较为 奢侈 的 存储 设备 了 吧 ? 由 于 
本 人 的 工作 室内 部 资源 分 享 需要 ， 我 需要 组 建 一 个 六 个 客户 端 并 发 ， 
每 个 客户 端 50MB/s 的 文件 服务 器 ， 复 制 的 都 是 较 大 的 文件 ， 一 般 超 过 
1GB。 注意 50MB/s 是 M 字 节 每 秒 ， 不 是 比特 每 秒 ) 。 这 意味 着 该 服 
务 器 起 码 需 要 300MB/s 的 并 发 速度 。 为 此 ， 我 的 便 件 配置 为 : 








Dell 690 工 作 站 (Intel 5110 cCPU / 4g ram / Intel 5000x 心 片 / Intel 
632x 南 桥 心 片 组 ) ，Intel 9402pt pci-e 4x 双 口 网 卡 ， 共 两 块 。 
Highpoint 4320 pci-e 8x RAID 卡 。Netgear 724at 文 持 802.3 ad 动态 聚合 
的 交换 机 。4 块 Seagate es.2 500g 企 业 级 SATA 便 各 (备注 ， 我 本 来 打算 
要 购买 8 块 WD RE3 的 硬盘 的 ， 后 来 打算 先 随便 测试 看 看 能 够 跑 多 少 ， 
于 是 找 了 四 块 希 捷 硬 盘 来 测 ) 。 我 已 经 完成 的 部 分 测试 : Dell 690 安 
装 “Win2008 SP2 正 厂 系 统 ， 开 局 共享 ， 关 闭 防 火场 ， 四 个 硬盘 通过 
Highpoint 做 RAID 0 测试 。 每 个 客户 端 都 是 win2008 系 统 ， 都 是 干 兆 
pci-e 网 卡 。 


测试 : 


Intel 9402pt 两 块 ， 每 块 两 端口 ， 任 何 一 个 端口 跟 我 的 一 台 客 户 疹 


机 【〈 也 是 win2008 SP2) 连接 ， 可 以 达到 90MB/s 的 速度 ， 这 个 时 候 只 
让 这 一 个 网 口 工作 ， 不 接 交 换 机 ， 不 做 网 卡 聚 合 。 实 际 上 束 是 单 测 一 
台 客 户 端 连接 到 Dell 690 工 作 站 上 的 速度 。 


测试 : 


将 Intel 9402pt 两 块 总 共 四 个 端口 做 聚合 linkagg0，Netgear 交 换 机 
也 做 对 应 聚合 。 然 后 发 动 四 个 客户 端 通过 Netgear 交 换 机 同时 连接 到 
Dell 690 己 经 做 好 RAID 0 的 人 硬盘 阵列 复制 东西 ， 大 约 50GB 数 据 ， 一 个 
客户 端 20MB/s， 一 个 客户 端 多 于 10 MB/s， 另 外 一 个 30MB/s， 另 外 一 
个 也 是 15MB/s。 


测试 : 


因为 对 上 述 结 果 迷 惑 不 解 ， 于 是 将 网 卡 ljinkaggr 去 除 ， 分 散 成 独立 
的 4 个 网 卡 端口 ， 每 个 网 卡 端口 直接 接客 户 端 机 器 〈 不 经 过 交换 机 ) ， 
这 个 时 候 的 性 能 更 加 可 怜 ， 有 的 40MB/s， 有 的 5MB/s， 四 个 网 口 加 起 
来 总 共 速 度 才 75MB/s。 








测试 : 


Highpoint 4320 卡 为 新 购 入 ， 购 入 后 我 已 经 用 它 倒 入 1000GB 的 数 
据 做 稳定 测试 ， 没 有 任何 问题 。 另 外 ， 四 个 Seagate es.2 500g 便 盘 组 成 
的 RAID 0 阵列 用 HpDtune 测 试 速度 在 250MB/s 左 右 。 我 反复 做 了 很 多 次 
测试 ， 但 是 就 没有 看 到 过 四 个 网 卡 总 共 并 发 超过 90MB/s 的 情况 ， 无 论 
是 网 卡 聚 合 还 是 网 卡 不 聚合 ， 无 论 是 接 交换 机 还 是 不 接 交 换 机 。 到 
此 ， 我 已 经 迷惑 不 解 了 ， 我 虽然 没有 买 专业 化 的 存储 ， 但 是 我 购买 的 
些 东西 都 是 性 能 很 好 的 东西 ， 例 如 Intel 9402 pt 网 卡 ， 我 放 着 好 几 块 
8492mt 网 卡 没有 用 ， 花 了 将 近 3000 元 买 了 两 块 回来 。 例 如 RAID 卡 ， 我 





没有 用 Dell 690 的 RAID， 而 是 花 了 将 近 4000 元 购买 了 Highpoint 4320 
卡 。 男 外 交换 机 ， 都 是 正宗 文 持 802.3 ad 聚合 的 Netgear 724at 交 换 机 ， 
一 个 交换 机 就 是 5000 元 。 至 于 网 线 ， 我 全 部 是 采用 六 类 品牌 线 。 所 有 
这 些 部 件 单 测 都 没有 问题 的 。 


我 目 己 整 理 的 怀疑 思路 : 可 以 排除 CPU、 内 存 、 交 换 机 、 网 卡 本 
喘 的 问题 ， 因 为 CPU 源 自始至终 测试 都 古 在 30% 以 下 ， 内 存 也 足 足 有 
余 。 排 除 交 换 机 是 因为 不 接 交 换 机 ， 四 个 网 卡 口 独 目 工作 总 带宽 也 上 
不 去 ， 网 卡 每 个 口 我 都 做 过 几 个 小 时 大 数据 测试 的 。 


剩 下 的 怀疑 





(1) Dell 690 主板 南 本 有 问题 ? 只 是 猜测 ， 南 桥 那 么 大 的 带 帘 ， 
随便 给 点 束 超 过 100MB/s 了 。 


(2) Win2008 SMB 共 享 协议 限制 速度 ? 或 者 这 个 协议 并 发 能 力 上 
薄弱 ? 


(3) Seagate 的 SATA 硬 盘 阵 列 并 发 啊 应 能 力 薄 弱 ? 虽然 SATA 的 
并 发 能 力 由 于 不 文 持 TCQ， 而 只 是 文 持 NCQ， 但 是 并 发 啊 应 能 力 不 至 
于 如 此 薄弱 吧 ? 








瓶颈 究竟 出 在 什么 地 方 ? 请 有 经 验 的 高 手 帮 帮 我 吧 


这 问题 我 遇 到 过 ， 而 且 是 在 一 台 专 业 设 备 上 ， 专 业 设 备 尚且 如 此 ， 
更 不 用 说 Win2008 搭 建 起 来 的 DIY 了 。 总 体 来 说 还 是 软件 效能 问题 ， 
CPU 内 存 和 IO 总 线 没有 瓶 贷 ， 而 且 后 端 磁盘 少 说 也 得 接近 200MB/s 才 算 
可 以 《你 读 的 大 文件 ) 。 所 以 还 是 软件 处 的 瓶颈 。 另 外 ， 交 换 机 上 的 那 
种 aggr 最 好 别 用 ， 根 据 以 前 的 实验 ， 几 乎 无 效 。 很 大 程度 上 与 底层 驱动 











层面 有 关系 ， 你 如 果 换 成 FC 的 方式 ， 则 能 够 利用 全 部 带宽 ， 而 不 管 你 
用 CIFS 还 是 ISCSI， 得 到 的 总 是 一 块 卡 的 效果 ， 甚 至 还 不 到 。 可 以 换 成 
WSS 系 统 试 一 试 ， 或 者 用 FreeNAS，Openfiler，Opene 等 来 DIY。 


了 解 之 前 情况 可 以 参看 我 前 面 的 帖子 。 男 外 ， 我 下 周一 还 预约 了 测 
试 更 多 的 sas 便 盘 做 成 阵列 ， 不 过 我 几乎 不 抱 希 望 了 。 


在 之 后 义 完成 了 如 下 测试 。 


一 : 服务 器 商 那 边 测 试 。 前 日 Chinaunix 发 完 帖 以 后 睡觉 ， 睡 到 昨 
日 下 午 。 因 为 已 经 约 好 到 一 家 专门 做 服务 器 的 地 方 去 看 。 这 家 服务 器 
商 既 有 品牌 的 味道 ， 也 有 DIY 的 味道 。 见 面 守 办 过 后 ， 直 接 开 测 ， 平 
台 为 超 微 的 5500 平 台 ，RAID 卡 为 RocketRAID 3560， 这 个 卡 支持 的 硬 
盘 比 我 的 多 ， 多 达 24 个 ， 但 是 我 的 性 能 比 它 的 强 ， 我 的 IOP 是 1.2GHz 
的 。 用 了 四 个 ST es.2 1TB 企 业 级 SATA 硬 盘 。 结 果 性 能 跟 我 之 前 的 测 
试 差不多 ， 三 台 机 器 并 发 测试 就 是 75MB/s 差 不 多 。 看 来 可 以 排除 主板 
南 桥 的 问题 了 。 








二 : 回 到 家 中 换 成 FreeNAS 把 系统 换 成 FreeNAS 测 试 ， 居 然 并 发 

性 能 比 Win2008 的 差 ， 看 来 Win2008 的 SMB 性 能 比 Win2003 好 不 少 ， 文 
件 传 输 并 发 性 能 是 不 是 比 Freebsd 好 呢 ? 有 趣 的 是 : 我 在 三 台 客 户 端 机 
器 上 同时 从 服务 器 上 复制 一 个 文件 的 时 候 ， 奇 迹 发 生 了 ， 网 卡 拓 然 可 
以 跑 到 900Mb/s (我 这 时 没有 做 交换 机 聚合 ， 也 没有 做 网 卡 聚 合 ) ， 也 
就 是 110MB/s， 这 个 速度 显然 是 非常 令 人 惊讶 的 ， 干 光 网 卡 的 极限 

啊 。 我 当时 就 开心 的 几乎 跳 起 来 了 ， 然 而 我 马上 冷 下 来 了 ， 如 果 是 不 
同 的 文件 呢 ， 于 是 立即 开始 测试 ， 当 三 台 机 器 每 个 机 器 从 服务 器 上 复 
制 不 同 的 文件 的 时 候 ， 整 个 速度 立即 下 降 ， 估 计 总 共 就 是 45MB/s， 这 
个 速度 还 不 如 Win2008 下 的 昵 。 而 且 这 个 时 候 SATA RAID 0 阵列 速度 








忽 高 忽 低 ， 一 会 儿 是 波峰 500MB/s， 一 会 波 谷 60MB/s， 总 体 来 说 跳 得 
非常 厉害 。 于 是 得 出 结论 ， 人 硬盘 的 并 发 能 力 是 真正 的 瓶颈 。 另 外 ， 就 
是 Freebsd 的 网 络 性 能 的 确 很 强悍 ， 我 还 从 来 没有 见 到 过 于 兆 网 卡 居然 
可 以 持续 跑 到 940MB/s 的 。 还 有 就 是 UFS 文 件 系统 性 能 是 不 是 比较 弱 
昵 ? 怎么 比 win2008 的 并 发 传输 能 力 差 啊 。 另 外 就 是 Freebsd 的 网 络 负 
载 平 衡 能 力 强 啊 ， 几 个 客户 端的 速度 非常 平均 ， 但 是 在 Win2008 下 ， 
高 的 45MB/s， 低 的 10MB/s。 


三 : 15k6 SAS 人 硬盘 上 场 。 突 然 记 起 我 还 有 一 个 15k6 146G 15000 转 
SAS 人 硬盘 ， 这 是 个 好 东西 ， 于 是 立即 接 上 。 环 境 还 是 FreeNAS。 三 个 
客户 端 持续 并 发 复制 不 同文 件 ， 速 度 总 共 是 18MB/s 左 右 ， 这 个 SAS 传 
输 东 西 的 时 候 速 度 波动 很 少 ， 基 本 上 在 18MB/s 左 右 波动 。 这 个 跟 宣传 
的 持续 读 能 力 110MB/s 差 得 太 远 了 。 但 是 一 个 客户 端 连接 复制 东西 
(其 他 客户 端 不 动 ) ， 速 度 可 以 很 轻松 跑 到 50MB/s。 





到 目前 为 止 的 结论 是 : 


(1) 硬盘 的 并 发 性 能 是 真正 的 瓶颈 。 我 这 几 天 看 了 些 文 章 ， 没 有 
确证 但 是 我 非常 相信 ， 人 家 15 个 15k6 SAS 硬 盘 ， 持 续 大 数据 并 发 读 写 
不 过 束 是 100MB/s 多 一 点 。 看 来 一 并 发 ， 便 税 阵 列 性 能 就 下 滑 的 非常 
厉害 。 








(2) 网 上 的 那些 测试 其 实 是 针对 单个 客户 端 而 言 的 ， 说 白 了 就 是 
机 器 的 阵列 惑 是 机 器 目 己 用 ， 如 果 组 成 阵列 速度 的 确 会 很 快 。 


(3) 并 发 环境 下 的 持续 读 写 速度 要 达到 200MB/s 以 上 ， 估 计 得 等 
到 SSD 硬 盘 了 。 靠 目前 的 机 械 硬 盘 ， 即 使 是 SAS， 如 果 不 像 大 公司 那 
样 ， 估 计 根 本 超 不 过 150MB/s 了。 





(4) 我 觉得 现 阶段 要 达到 较 高 并 发 的 办 法 (不 一 定 对 ) 就 是 在 一 
台 机 器 里 多 组 几 个 阵列 ， 放 不 同 的 内 容 ， 让 客户 根据 内 容 分 流 了 。 例 
如 5 个 15k6 SAS 人 硬盘 RAID， 并 发 持续 读 能 力也 就 是 120MB/s， 但 是 我 
如 果 分 成 5 个 盘 ， 最 好 的 情况 下 ， 五 个 客户 分 别 读 五 个 盘 ， 那 样 的 并 发 
总 性 能 就 超过 250MB/s 了 。 但 是 这 样 一 是 无 法 像 管理 RAID 那 样 一 个 整 
盘 管理 ， 另 外 一 个 方面 对 客户 的 需求 无 法 恨 好 统计 从 而 优化 分 配 。 














(5) RAID 阵 列 卡 的 作用 。RAID 阵 列 卡 我 党 得 本 身 没 有 什么 大 的 
加 速 作 用 《这 个 跟 广 商 吹 喊 的 是 两 码 事情 ， 从 这 点 可 以 看 出 ， 广 商 是 
多 么 一 致 的 忽悠 我 们 最 终 客户 ) ， 就 是 一 点 Cache， 这 个 起 不 了 什么 
大 作用 。 但 是 我 认为 RAID 阵 列 卡 在 保证 数据 安全 方面 还 是 比较 有 用 
的 。 另 外 ，RAID 阵 列 卡 把 多 个 硬盘 的 性 能 一 定 程度 上 串联 起 来 了 ， 这 
样 针 对 应 用 而 言 ， 磁 盘 性 能 得 到 了 很 大 提高 。 





今天 凌晨 完成 的 测试 ， 就 是 在 各 位 的 提醒 下 做 出 的 。 测 试 目 的 : 

瓶 宽 究竟 在 哪里 ? 测试 服务 器 : Dell 690， 测 试 硬盘 : 4 块 Seagate es.2 
500g，1 块 15k6 15000 转 SAS 硬 盘 ， 不 做 任何 RAID， 两 块 Intel 9402pt 
网 卡 四 个 口 聚 合 ， 交 换 机 做 四 个 口 聚 合 。Win2008 ”SP2 系 统 测试 客户 
端 : 4 台 笔 记 本 电脑 ，1 台 PC， 均 是 干 兆 网卡 。 测 试 方法 : 每 台电 脑 分 
别 对 应 服务 器 上 的 一 个 硬盘 ， 这 样 避 免 硬盘 的 并 发 。 测 试 结果 : 五 台 
客户 端 并 发 的 时 候 ，Win2008 ”SP2 任 务 管理 器 以 及 每 个 客户 端 分 别 监 
测 ， 从 服务 器 出 来 的 流量 稳定 在 2400Mbps， 也 就 是 300MB/s 每 秒 。 


测试 结论 : 


(1) 网 卡 聚 合 和 交换 机 聚合 是 成 功 的， 网 络 上 许多 朋友 说 无 法 聚 
合 ， 那 是 因为 自己 的 交换 机 太 差 ， 不 支持 802.3 ad， 例 如 H3C 1216 / 
h3c 1224。 就 我 所 知道 的 ，5000 元 以 下 几乎 没有 支持 802.3 ad 的 交换 机 


的 ，CISCO 有 支持 的 但 是 端口 是 100Mb/s 的 。 


(2) 真正 的 瓶 锋 显然 清楚 了 ， 那 融 是 硬盘 阵列 。 之 前 做 的 RAID 
0 阵列 死活 上 不 了 75MB/s， 就 是 因为 并 发 性 能 很 差 ， 现 在 我 把 硬盘 打 
散 不 做 聚合 ， 各 自 复 制备 自 的 东西 ， 结 果 性 能 束 上 来 了 。 











(3) 未 来 的 希望 要 徘 SSD 了 ， 同 时 我 要 高 度 鄙视 一 下 硬盘 厂商 ， 
副 视 RAID 卡 上 商 ， 在 很 大 程度 上 他 们 隐 恶 扬 善 ， 强 调 单一 任务 的 性 
能 ， 对 并 发 性 能 只 字 不 提 。 


另外 ， 我 个 人 花费 了 大 量 的 时 间 和 精力 来 测试 ， 同 时 由 于 自己 之 
前 的 一 些 无 知 ， 导 致 购买 了 不 少 价值 比较 高 的 设备 ， 现 在 哭 啊 ， 大 家 
安奈 我 一 下 吧 。 真 希望 SSD 硬 盘 1TB 降 价 到 3000 元 以 内 ， 如 果真 的 降价 
到 这 个 程度 ， 明 天 我 就 过 去 打 几 块 回来 。 下 周一 ， 我 将 做 多 个 SAS 
15k6 硬 盘 的 RAID 测 试 ， 到 时 候 再 发 上 来 。 最 后 再 次 谢谢 冬瓜 头等 诸位 
兄弟 们 。 姐 姐妹 妹 ， 估 计 这 儿 没 有 吧 ， 如 果 有 ， 一 并 感谢 。 





嗯 ， 并 及 的 大 块 连续 读 写 效率 确实 低下 的 。 读 同一 个 文件 那 是 
Cache 的 速率 了 ， 所 以 能 撑 满 带宽 。 并 发 情况 下 ， 而 且 数 据 是 按照 横 问 
条 带 分 布 的 话 ， 由 于 磁盘 寻 道 产生 的 致命 影响 ， 多 盘 获 得 的 IOPS 和 否 吐 
量 提 升 基本 上 相对 单 盘 幅度 很 小 。 这 是 所 有 产品 都 不 能 避免 的 。RAID 0 
对 单个 客户 端的 大 块 连续 读 写 提 升 还 是 很 大 的 ， 这 不 能 怪 RAID 卡 ， 而 
古 理论 上 已 经 不 可 能 达到 了 ， 除 非 分 多 个 RAID 组 ， 或 者 算法 上 提供 用 
户 目 己 决定 数据 分 布 的 选项 ， 但 是 低 问 产品 别 指 望 有 这 些 ， 甚 全 高 端 产 
品 灵 活 度 也 没有 这 么 高 的 。 楼 主 可 以 继续 做 如 下 实验 。 




















实验 1: Size 适 中 的 并 发 的 随机 IO。RAID 0 对 这 个 很 拿手 ， 与 单 盘 
对 比 效率 定 大 增 。 


实验 2: 做 两 组 RAID 0， 两 个 盘 一 个 ， 使 其 互 不 影响 ， 调 碍 数据 并 
作对 比 。IO Size 相 比 Stripe Size 较 大 的 时 候 ， 也 残 是 楼 主 的 环境 ， 读 与 
大 文件 ，RAID 0 就 不 支持 并 发 10 的 。 其 他 RAID 类 型 和 IO 类 型 ， 可 以 套 
用 本 书 第 4 章 中 的 几 个 列表 。 


不 错 不 错 ， 通 过 上 自己 的 试验 有 条 有 理 地 解决 了 疑问 。 不 过 ， 你 说 
RAID 对 并 发 不 行 ， 也 是 偏激 了 。RAID 0 如 果 增 加 条 带 深度 ， 是 可 以 并 
发 成 功 的 ， 你 看 那些 分 布 式 集群 存储 ， 比 如 XIV， 等 效 条 带 深 度 为 
1MB， 比 如 3PAR， 等 效 条 带 深 度 为 256MB， 局 部 连续 地 址 范围 很 大 ， 
所 以 这 样 的 话 系统 整体 依然 可 以 并 发 多 个 上 层 IO， 否 则 也 不 可 能 达到 几 
万 儿 十 万 的 IOPS。 人 至 于 一 些小 打 小 闹 的 RAID 卡 ， 其 条 待 深度 几 百 k 而 
己 ， 局 部 连续 地 址 范围 太 小 ， 导 致 一 个 上 层 IO 同 时 占用 了 多 个 
Segment， 此 时 完全 不 能 并 发 TO 了 ， 多 个 IO 得 排队 ， 寻 道 ， 传 输 。 











说 实话 ， 纯 种 RAID 3 估计 现在 没有 设备 可 以 真正 实现 了 ， 首 先 它 要 
求 的 磁盘 磁头 位 置 同步 以 及 转速 的 严格 同步 ， 这 技术 现代 的 存储 系统 都 
不 考虑 了 ， 现 在 RAID 3 都 是 假 RAID 3， 即 条 带 很 小 的 RAID 4，RAID 3 
一 4 一 5 的 演变 过 程 骂人 几 年 前 有 贴 讨 论 过 ，《 大 话 存 储 》 中 也 有 收录 。 
RAID 3 更 不 可 能 并 发 10 的 ， 所 以 并 发 环境 下 ， 还 是 多 组 RAID， 或 者 条 
带 深度 达到 几 百 兆 级 别 的 高 端 虚 拟 化 级 别 的 设备 ， 方 能 满足 要 求 ， 此 时 
由 于 算法 的 革新 ，SATA 盘 也 就 可 以 达到 很 好 的 整体 性 能 。 


83. MPIO 和 MCS 的 关系 


您 好 ， 请 教 个 问题 MPIO 和 和 MCS 负载 均衡 ， 具 体 性 能 上 会 有 差 
异 吗 ? MCS 是 每 个 session 多 connection， 与 MPIO 多 个 session 具 体 区 别 
在 哪里 ? 男 外 如 果 我 的 存储 两 种 方式 的 负载 均衡 都 支持 ， 我 可 不 可 以 
先 做 MPIO 的 负载 均衡 ， 再 对 每 个 session 做 MCS 的 负载 均衡 ? 有 盼 网 


教 ， 谢 谢 ! 





MPIO 里 没有 session 的 概念 ，MPIO 没 有 连接 状态 ， 它 不 是 一 个 通信 
协议 。MPIO 工 作 在 SCSI 层 之 上 ，iSCSI 的 MCS (Multi Connections per 
Session) (你 问 的 时 候 应 该 注 明 是 iSCSI， 否 则 别人 不 知道 你 指 什么 ， 
幸好 我 猜 出 来 了 ) 工作 在 TCP 层 ，MPIO -SCSI -iSCSLFCP 
layeI4 一 TICP/FC lower layer»IP/FC lower layer ~ MAC/FC lower 
layer physical bit encoder physical cable， 这 是 整体 层次 。iSCSI 如 果 使 
用 MCS， 只 是 底层 连接 链 路 ， 或 者 TCP 连 接 个 数 〈 使 用 同一 个 物理 接 
口 ) 上 增多 了 ，MCS 层 上 发 现 的 还 是 同一 份 LUN 的 一 个 影像 。 而 MPIO 
层 是 在 SCSI 之 上 了 ， 例 如 ， 在 iSCSI Initiator 处 不 使 用 MCS， 通 过 两 个 网 
卡 认 到 同一 个 LUN 的 两 份 影像 ， 这 时 候 就 得 用 到 MPIO 层 次 的 东西 了 。 
你 问 到 的 先 用 MCS 对 每 个 session 做 均衡 ， 然 后 多 个 session 再 用 MPIO 来 
管理 ， 当 然 可 以 。 


84. 链 路 负载 均衡 的 设计 


我 想 做 一 个 从 服务 器 网 卡 到 存储 设备 的 网 卡 之 间 的 线路 元 余 ( 包 
括 网 卡 和 线路 交换 机 也 元 余 ) 的 方案 ， 每 侣 服务 需 配 三 个 网 卡 《〈 一 个 
做 HA 的 心跳 线 ， 男 两 个 分 配 同 一 网 络 的 同一 网 段 的 IP 地 址 ， 如 A 网 卡 
是 X.X.2.1，B 网 卡 是 x.x.2.2) ， 把 两 个 网 卡 的 网 线 分 别 连 到 两 个 交换 机 
上 【 束 当 它 是 个 普通 的 二 层 干 兆 交 换 机 〉 。 存 储 设备 是 一 个 普通 的 
iSCSI 设 备 ， 有 四 个 网 络 接口 ， 两 个 交换 机 上 分 别 连 到 存储 设备 的 A 接 
口 和 B 接 口 。 这 个 存储 设备 文 持 线路 捆绑 ， 可 以 把 A 和 B 网 卡 捆 绑 形 成 
一 个 IP。 不 知道 这 样 的 方 采 能 不 能 达到 我 所 需求 的 效果 ? 服务 器 那 边 
是 否 也 要 对 两 个 网 卡 进行 捆绑 ?交换 机 是 否 要 求 要 三 层 交 换 机 ? 望 局 
人 指点 ， 谢 谢 ! 














(1) 存储 端 文 持 链 路 聚合 ， 是 什么 协议 ”Etherchannel 还 是 基于 
LACP 的 Etherchannel。 但 是 又 是 用 两 条 线 分 别 连 接 两 个 交换 机 ， 这 样 的 
话 ， 线 路 上 没有 什么 特殊 聚合 协议 ， 交 换 机 端 惑 不 会 管 什 么 Channel 
了 ， 不 是 端 到 端的 聚合 ， 而 只 是 存储 端 一 端 上 自己 的 聚合 ， 而 且 尚 不 知道 
存储 端 是 否 文 持 这 种 一 头目 己 聚 合 。 











(2) 存储 端 是 否 支 持 ISCSI 的 Multi Connection per Session， 即 MCS 
功能 ， 如 果 文 持 ， 就 多 了 一 种 选择 ， 相 当 于 可 以 负载 均衡 的 多 路 径 软 
件 。 如 果 不 支 持 ， 就 只 能 用 ISCSI Initiator 自 带 的 MPIO 功 能 。 不 过 还 是 
推荐 MPIO。 


(3) 存储 端 是 否 具 有 一 种 叫做 IP Fast Path 或 者 类 似 功 能 ， 即 外 出 
流量 Bypass 路 由 表 ， 而 根据 进入 的 IP ”Packet 所 流 经 端口 而 直接 转发 出 
去 ， 类 似 记 录 session。 如 果 不 文 持 ， 束 不 太 好 办 了 ， 必 须 将 两 台 交 换 机 
级 联 起 来 形成 一 个 广播 域 。 





用 不 着 三 层 交 换 机 。 如 果 存 储 端 文 持 日 己 本 里 的 聚 合 ， 则 交换 机 最 
好 连 起 来 ， 因 为 你 弄 不 清 它 如 何 选 择 外 出 转发 链 路 的 ， 除 非 你 有 把 握 。 


(1) 存储 设备 支持 以 太 网 的 链 路 聚合 ， 从 存储 端 用 两 条 线 分 别 连 
接 两 个 交换 机 ， 是 考虑 到 交换 机 的 元 余 。 如 果 把 捆绑 后 的 两 条 线路 都 
接 到 同一 个 交换 机 上 的 话 ， 那 么 这 交换 机 坏 了 ， 线 路 自然 断 了 ， 我 也 
不 知道 设备 是 否 支持 存储 单 端的 链 路 聚合 ， 所 以 不 知道 此 方法 是 否 
行 ? 

(2) 存储 设备 应 该 是 不 支持 MCS 功 能 的 ， 您 说 的 在 ISCSI 


Initiator 使 用 MPIO 功 能 ， 此 功能 在 Microsoft ISCSI Initiator 有 吗 ? 在 
2 


(3) 存储 端 应 该 是 不 文 持 Bypass 路 由 表 的 ， 我 的 这 个 拓扑 中 ， 服 
务 需 的 两 个 网 卡 一 、 存 储 设备 的 网 卡 卫 都 是 同一 网 段 的 ， 这 种 情况 下 
好 像 并 不 需要 用 到 三 层 的 路 由 表 吧 ? 





(4) 态 外 ， 至 于 您 说 的 “如果 存储 端 文 持 目 己 本 身 的 聚合 ， 则 交 
换 机 最 好 连 起 来 ， 因 为 你 乔 不 清 它 如 何 选择 外 出 转发 链 路 的 ， 除 非 你 
有 把 握 ?， 你 所 指 的 交换 机 连 起 来 是 指 交 换 级 连 吗 ? 还 是 交换 机 之 间 互 
连 ， 寿 这 样 的 话 束 形成 二 层 环 路 了 。 假 如 服务 器 的 两 网 卡 卫 是 同一 段 
王 的 话 ， 就 是 不 知道 会 用 哪个 IP 跟 存储 通信 ? 至 于 回流 的 数据 ( 即 从 
存储 到 服务 嚣 方 同 的 数据 流 ) 的 路 径 应 该 是 可 以 确定 的 ， 从 哪 条 路 过 
来 就 从 哪 条 路 回去 。 





呵呵 ， 怎 么 可 能 成 环 .…… 难 道 你 要 把 服务 器 看 做 一 个 转发 以 太 网 广 
播 的 网 桥 ? 可 以 ， 两 个 卡 你 给 桥接 起 来 ， 成 环 了 。 你 怎么 能 确定 回流 的 
它 就 哪 条 进来 哪 条 回去 ? 这 个 功能 是 要 单列 的 ， 普 通路 由 表 横 式 下 就 是 
有 一 个 默认 的 出 口 的 。session 模 式 下 才 会 哪 条 进 哪 条 出 ， 那 是 一 些 路 由 
虱 之 类 才 有 的 功能 ， 和 存储 端 当然 也 应 该 实现 ， 你 最 好 和 厂家 去 确认 一 
下 。 


85. 天 于 D2D2T 


我 们 公司 现在 有 一 个 这 样 的 FTP 应 用 ， 使 用 磁盘 阵列 以 及 磁带 库 
进行 二 级 存储 ， 现 在 想 在 磁盘 阵列 上 开 习 一 个 区 域 用 于 缓存 磁带 库 数 
据 。 这 个 缓存 怎么 做 ， 有 现成 的 算法 或 产品 吗 ? 


你 的 需求 貌似 是 一 个 分 级 存储 的 需求 。 既 然 你 的 盘 阵 可 以 直 连 磁带 
库 ， 那 么 就 证 明 它 已 经 开发 了 相关 的 模块 ， 你 要 在 它 上 面 放 缓 存 ， 我 理 
解 缓 存 中 的 数据 是 你 近期 可 能 要 调用 的 所 以 不 想 瑟 上 束 放 磁带 ， 那 么 你 


得 和 这 个 盘 阵 的 三家 联系 看 看 是 否 有 这 个 功能 。 软 件 方面 灵活 度 就 高 
了 ， 一 般 D2D2T 的 备份 软件 都 提供 这 种 功能 ， 只 不 过 不 一 定 叫 “缓存 什 
么 的 ， 一 般 备 份 软件 都 把 这 种 模式 叫做 Disk ”Stage， 你 可 以 选择 什么 时 
候 将 Disk 中 的 数据 转移 到 磁带 。 


86. 晰 开 ISCSI Session 时 总 是 报错 
为 什么 用 Windows 自 带 的 ISCSI 客 户 端 去 连接 IJP SAN， 并 且 写 入 


数据 后 ， 想 在 客户 端 把 Target 退 挥 ， 为 什么 老 是 会 报错 (提示 session 
的 问题 》， 老 是 退 不 挥 ， 是 微软 本 和 映 的 问题 吗 ? 谢谢 ! 








确保 所 有 与 本 磁盘 操作 有 关 的 程序 都 推出 ， 比 如 打开 的 窗口 。 还 不 
行 束 先 砸 Target 端 Unmap 这 个 LUN， 然 后 断 开 。 


87. 针对 某 IO 测 试 结果 的 分 析 


前 几 天 测试 了 一 台 EVA4400， 服 务 器 系统 Linux， 使 用 Orion 测 试 
的 ， 读 写 比 例 90:10。 使 用 sar 和 iostat 监 控 ， 其 中 发 现 了 这 种 情况 ， 请 
各 位 给 解答 下 : EVA4400 满 配 12 块 硬盘 ， 我 划 了 一 个 Disk Group， 划 
分 了 4 个 vdisk， 容 量 分 别 为 几 十 GB， 服 务 器 与 盘 阵 间 有 光纤 交换 机 ， 
Linux 上 打上 了 HP 的 多 路 径 软 件 ， 系 统 中 fdisk”-1; 系统 盘 是 c0d0， 盘 
阵 映射 到 服务 器 中 的 是 sda/sdb/sdc/sdd。 测 试 结果 如 下 。 


第 一 次 : 


Orion 测 试 值 : 0, 46041, 41442, 3712 3, 3637 4, 3588 5, 3479 6, 3411 
7, 3310 8, 3206 


sar 值 (部 分 ): 


13:55:34 DEV tps rd _ sec/s wr_sec/s avgrdq-sz avgdu-sz a 
13:55:34 dev8-0 959.74 13795.80 1564.84 16.00 14.72 1 
13:55:34 dev8-16 1077.02 15539.66 1695.90 16.00 10.82 1 
13:55:34 dev8-32 1184.42 17069.33 1868.53 15.99 16.09 1 
13:55:34 dev8-48 1313.39 18961.84 2057.14 16.00 22.11 1 


iostat 值 〈 部 分 ) : 


10/26/09 13:55:34 

Device: rrqm/s wrqm/s r/s w/srkB/swkB/s avgrq-sz avgqu-sz 
cciss/c0d00.00 0.500.000.40 0.00 3.6018.00 0.01 25 0 
sda 0.00 0.00 862.50 97.70 6904.00 781.6016.0114.74 
sdb 0.00 0.00 972.20 106.10 7776.00 848.8016.0010.83 
sdc 0.00 0.00 1068.80 116.90 8544.00 935.2015.9916.11 
sdd 0.00 0.00 1186.00 128.80 9490.40 1031.2016.0022.13 


往生 一 Vf 


第 二 人 : 


Orion 测 试 值 : 0，2470 1,874 2,650 3,653 4,634 5,623 6,597 7,597 
8,580 


sar 值 (部 分 ): 


14:19:04 DEV tps rd_sec/s Wr_sec/s avgrdq-sz avgqu-Sz a 
14:19:04 dev104-0 1.20 0.00 26.43 22.00 0.03 21.50 7.25 
14:19:04 dev8-0136 ,44 1915.52227.43 15.71 16.85127 .93 
14:19:04 dev8-16148 ,75 2146.15233.83 16.00 1.29 8.65 
14:19:04 dev8-32165.17 2386.39296.30 16.24 46.35250.14 


玉 0 人 ~ 


14:19:04 dev8-48186.29 2657.06323.52 16.00 1.56 8.39 


iostat 值 〈 部 分 ) : 


10/26/09 14:19:04 

Device: rrqm/s wrqm/s r/s w/srkB/swkB/s avgrq-sz avgqdqu-sz 
cciss/c0d00.00 2.100.001.20 0.0013.2022.00 0.03 21.50 7 
sda 0.00 0.00 121.30 15.00 956 .80 113.6015.7116.83 
sdb 0.00 0.00 134.00 14.60 1072.00 116.8016.00 1.298. 
sdc 0.00 0.00 147.00 18.00 1192.00 148 .0016 ,2446 .30 
sdd 0.00 0.00 165.90 20.20 1327.20 161.6016.00 1.568. 


问题 : 


(1) 为 什么 4 块 盘 第 一 次 测试 负载 相同 ， 而 第 二 次 负载 不 同 ? 负 
载 相同 时 TPS 值 较 高 ， 而 负载 不 同时 TPS 很 低 ? 脚本 相同 。 


(2) 请 问 如 何 解决 这 种 问题 ?在 其 他 客户 那里 也 见 过 这 种 情况 ， 
造成 服务 器 整体 性 能 很 低 。 后 又 建立 两 个 vdisk， 添 加 到 服务 器 中 ， 发 
现 同样 会 出 现 上 述 情况 ，1 个 负载 100%，1 个 百 分 之 六 七 十 。 


4 个 盘 一 起 IO 么 ?这 样 的 话 会 造成 所 有 磁盘 全 部 忙于 寻 道 ， 而 且 根 
据 控制 器 内 部 的 相关 策略 ，4 个 虚拟 盘 之 间 平 衡 可 能 会 被 打破 ， 所 以 有 
些 高 有 些 低 。 先 单独 测试 每 个 盘 看 看 结果 ， 再 一 起 测试 。 一 条 定律 ， 如 
条 在 一 组 物理 磁盘 上 生成 了 多 个 虚拟 磁盘 ， 而 你 又 想 同时 对 这 多 个 虚拟 
磁盘 进行 并 发 的 IO 操作 并 且 想 达到 较 高 的 IO 和 带宽 ， 那 么 重要 条 件 葡 是 
提高 Stripe Depth 或 者 类 似 定义 ， 越 高 越 好 。 














补充 一 下 ， 尽 可 能 多 的 盘 在 一 个 Disk Group 中 ， 适 合 于 上 层 单 IO、 
连续 大 块 IO 的 情况 ， 非 常 适合 于 提高 单 IO 的 整体 吞吐 量 。 如 果 是 多 个 虚 
拟 磁盘 并 发 上 层 IO， 在 一 个 Disk ”Group 中 加 再 多 的 盘 ， 效 果 也 提升 不 


了 ， 但 是 有 一 个 例外 ，Stripe Dept 如 果 增 大 到 可 观 的 程度 ， 盘 越 多 当然 
越 好 。 总 之 ，Stripe Depth 关 系 痢 上 层 并 发 IO 的 并 发 度 ， 在 并 发 IO 环境 中 
起 独 决 定性 作用 。 





88. 关于 CDP 厂 商 


现在 做 CDP 的 有 多 少 家 ? 


连续 数据 保护 ， 记 录 每 一 个 写 IO 并 附 以 时 间 惟 ， 在 一 段 时 间 内 可 以 
恢复 到 任意 指定 的 时 间 点 ， 粒 度 不 同 ， 厂 家 不 同 ， 楼 上 说 的 是 一 分 钟 的 
力度 ， 也 有 秒 级 ， 坚 秒 级 ， 坚 秒 级 一 般 也 就 够 用 了 ， 因 为 你 根本 不 知道 
哪个 时 间 点 的 镜像 是 一 致 的 。CDP 相 对 于 Snapshot 的 一 个 缺点 就 是 很 难 
保证 一 致 性 ， 只 能 通过 牺牲 RPO 来 保证 一 致 性 。 目 前 飞 康 、EMC、 
IBM、Symantec 都 有 人 做， 其 中 飞 康 和 EMC 功 能 较 强 。 








89. Snapshot 与 CDP 在 一 致 性 保证 方面 的 区 别 


请 教 冬瓜 兄 : 〈1) Snapshot 是 如 何 保证 一 致 性 的 ? (2) CDP 为 
何不 能 保证 一 致 性 ?原理 是 啥 ? 


Snapshot 在 主机 端 有 各 种 文件 系统 甚至 应 用 程序 级 的 Agent 来 强制 将 
一 致 性 的 缓存 数据 写 入 硬盘 之 后 立即 做 一 次 Snapshot。CDP 是 记录 很 细 
粒度 的 写 IO， 你 总 不 能 每 秒 强 制 应 用 或 者 文件 系统 将 缓存 刷 到 硬盘 吧 ? 
CDP 只 能 通过 牺牲 RPO 来 达到 一 致 性 ， 随 便 找 个 时 间 点 恢复 除非 碰巧 ， 
一 般 是 不 一 致 的 。 所 以 需要 一 些 回 深 手 段 ， 如 EMC RecoverPoint 就 是 利 
用 日 志 来 回 滚 到 上 一 个 Commitpoint 处 。 





古 不 是 可 以 说 是 以 镜像 的 方式 进行 数据 保护 的 ? 








因为 CDP 底 层 实现 起 来 比较 复杂 ， 在 Online 存 储 上 直接 实现 对 性 能 
有 影响 ， 所 以 飞 康 等 都 是 使 用 镜像 的 方式 先 将 Online 数 据 镜像 之 后 再 在 
镜像 上 实现 各 种 功能 。 三 种 镜像 方式 : 主机 端 Agent《〈 比 如 LVM 等 卷 镜 
像 软 件 ) ，Fabric API 比 如 SANtap Service (FC 交 换 机 端口 镜像 ) ， 存 储 
设备 处 对 着 镜像 。 


对 于 CDP 对 数据 保护 的 一 致 性 方面 有 什么 见解 ? 











CDP 的 RPO 在 底层 看 似 是 0， 但 是 对 于 上 层 一 定 是 大 于 等 于 0， 因 为 
需要 回 滚 ， 靠 CDP 自 己 的 日 志 回 滚 也 好 ， 或 者 干脆 靠 应 用 层 回 滚 也 好 。 
另外 ， 关 于 Snapshot 一 致 性 是 分 层 的 ， 文 件 系统 及 其 下 层 ， 还 有 应 用 
层 ， 前 者 做 的 Snapshot 至 少 在 文件 系统 层 是 一 致 的 ， 但 是 不 一 定 应 用 层 
一 致 ， 后 者 则 可 以 保证 应 用 层 一 致 。 还 有 ，CDP 得 根据 实现 方式 来 判断 
是 否 是 “真实 的 数据 复制 ”。 对 于 EMC RP 或 者 Ipstor CDP 这 种 镜像 数据 之 
后 在 镜像 中 做 CDP， 当 然 是 复制 了 。 如 果 其 他 实现 方式 比如 直接 在 线 实 
现 或 者 使 用 附加 的 Block 仓 库 方式 ， 那 也 需要 指针 。 











“所 以 基于 磁盘 Block 设 备 的 CDP， 包 括 飞 康 的 、EMC 的 ， 都 是 扯 


淡 ! ” 





底层 只 能 是 移 保 持 在 线 存 储 的 同步 镜像 ， 至 于 是 人 否 一 致 ， 这 个 又 经 
回来 了 了， 两 个 一 致 性 层次 : 文件 系统 及 其 下 层 ， 应 用 上 自身 的 Buffer 一 致 
性 和 逻辑 一 致 性 ， 只 有 应 用 的 逻辑 一 致 性 才 是 端 到 端的 一 致 性 ， 也 是 奶 
求 的 最 终 目 标 。 通 过 底层 实现 的 CDP 可 以 靠 上 层 回 滚 来 实现 一 致 性 ， 而 
如 果 从 应 用 层 来 实现 CDP， 比 如 Oracle Dataguard， 可 以 看 做 是 一 种 
CDP， 它 也 一 样 需要 应 用 replay。 所 以 底层 CDP 和 上 层 CDP， 本 质 是 一 
样 的 ， 不 是 扯淡 。 


90. 关于 LAN、WAN、SAN、FC、 iSCSI、NAS、LAN-Free、 


Frontend-Free 


请 解释 一 下 : LAN、WAN、SAN、FC.、 iSCSI、NAS、LAN- 


Free、 Frontend-Free 


LAN: Local Area Network 





这 个 都 知道 ， 局 域 网。 但 是 好 像 大 家 都 叫 习惯 了 ， 有 反而 有 人 不 理解 
LAN 的 本 质 意 思 了 。 好 好 看 看 这 三 个 字 , “局 域 网 ”， 你 在 你 的 本 地 站 点 
看 得 见 摸 得 着 的 所 有 网 络 ， 任 何 形 式 的 网 络 ， 都 属于 LAN。 比 如 : 本 地 
电话 交换 网 络 ， 本 地 以 太 网 络 ， 本 地 存储 网 络 。 有 人 质疑 ， 本 地 存储 网 
络 也 属于 LAN? 存储 网 络 不 是 SAN 么 ? 这 就 是 一 种 概念 不 清 并 且 不 统 
一 。 将 本 地 SAN 归 纳 到 LAN 中 将 会 很 好 地 统一 这 些 概念 ， 随 着 本 文 的 继 
续 读 者 将 会 体会 到 。 














WAN: WIDE Area Network， 广 域 网 





泛 指 跨越 远 距 离 的 链 路 ， 或 者 地 理 上 相隔 很 远 的 两 个 网 络 互 联 起 来 
形成 了 广域网 。 广 域 网 这 个 词 在 应 用 的 时 候 大 部 分 时 候 指 代 长 距离 传输 
链 路 ， 即 WAN 常 用 于 指 代 长 距离 链 路 而 不 是 网 络 。 比 如 在 说 “将 本 地 站 
点 通过 WAN 连 接 到 远程 ”， 这 里 的 WAN 就 是 指 长 距离 传输 链 路 。 为 何 
WAN 一 词 会 被 赋予 这 种 指 代 ， 原 因 古 因为 长 距离 链 路 普 训 都 是 点 对 点 
链 路 而 不 是 多 点 互 访 型 链 路 ， 所 以 一 个 广域网 ， 其 具有 广域网 意义 的 也 
就 是 局 域 网 之 间 的 这 条 链 路 了 。 你 说 以 太 网 链 路 是 人 否 可 以 作为 广域网 链 
路 ， 当 然 可 以 ，FC 链 路 也 同样 可 以 路 长 距离 ， 所 以 此 时 也 属于 WAN 链 
路 。 














SAN: Storage Area Network， 存 储 区 域 网 络 


即 专用 于 传输 对 存储 设备 IO 数据 的 网 络 。 可 以 是 任何 形式 的 网 络 ， 
比如 FC 网 络 、 以 太 网 络 、SAS 网 络 、Infiniband 网 络 ， 或 者 ， 任 何 形 式 
的 IP 网 络 。 使 用 FC 网 进行 1O 传 输 的 叫做 FC-SAN， 同 理 ， 使 用 IP 网 络 的 
叫做 了 -SAN。 基 于 SAS 网 络 的 呢 ? 当然 叫 SAS-SAN 了 ， 以 此 类 推 。 那 
么 ， 有 人 推出 来 个 Ethernet-SAN， 是 不 是 也 可 以 昵 ? 上 文 说 SAN 也 可 以 
基于 以 太 网 络 。 没 错 ， 你 可 以 这 么 说 。 你 可 以 把 ECOE 称 为 一 种 
Ethernet-SAN。 那 么 IP-SAN 是 否 也 属于 Ethernet-SAN 呢 ? 部 分 属于 ， 
为 IP-SAN 的 底层 链 路 一 般 情况 下 都 是 使 用 以 太 网 的 ， 但 是 绝对 不 能 说 IP 
就 是 以 太 网 。 比 如 你 使 用 ADSL 通 过 Internet 一 样 可 以 连接 到 iSCSI 
Target， 那 此 时 就 不 能 称 其 为 EthernetrSAN 了 ， 只 能 叫 IP-SAN。 以 上 列 
举 的 这 些 访 问 方式 ， 或 者 说 协议 ， 目 前 都 是 基于 Block 形 式 的 SCSI 协 议 
十 底层 传输 协议 。 还 有 另外 的 BlockO 访 问 方式 协议 集 将 在 下 文 描述 。 





NAS: CIFS 和 NEFS 以 及 其 他 第 三 方 厂商 自行 开发 的 基于 文件 偏 移 量 
IO 的 文件 型 IO 协议 


业界 将 能 够 提供 文件 型 IO 访问 而 存储 数据 的 存储 设备 称 为 NAS， 即 
Network Attached Storage。NAS 设 备 在 局 域 网 内 部 目前 都 是 使 用 以 太 网 
来 作为 底层 传输 链 路 的 ， 寻 址 路 由 和 传输 保障 协议 分 别 使 用 PP 和 TCP 这 
两 种 目前 最 为 广泛 的 协议 。 在 这 之 上 便 是 CIFS、NFS 等 上 层 协议 了 。 
NAS 是 一 种 设备 ， 而 不 是 一 个 网 络 。 但 是 可 以 用 NAS 来 指 代 文件 型 IO 的 
访问 方式 ， 比 如 描述 某 个 设备 的 IO 方式 是 Block 方 式 还 是 NAS 方 式 。 注 


意 ， 避 免 用 这 种 描述 Block 备 使 用 SAN 方 式 还 是 NAS 方 式 ， 原 因 下 文 再 
SAN 所 包含 的 元 素 





关于 SAN 这 个 词 有 几 个 误区 或 者 不 成 文 的 资 法， 比如 只 把 将 基于 


FC 的 数据 传输 方式 叫做 SAN， 或 者 反 过 来 ， 当 说 SAN 的 时 候 只 表示 FC- 
SAN 而 忽略 了 IP-SAN， 这 样 容易 对 阅读 方 造成 不 便 、 混 乱 和 误解 。 比 
如 在 描述 某 款 产品 的 时 候 , “前端 支持 SAN 方 式 访问 *， 其 实 这 个 设备 只 
文 持 FC-SAN， 但 是 他 没有 明确 指出 是 否 文 持 IP-SAN， 这 样 就 给 阅读 者 
带 来 了 不 便 。 


男 外 ，SAN 是 一 个 网 络 ， 但 叉 不 仅仅 只 表示 由 交换 机 组 成 的 底层 网 
络 ， 而 它 包 含 更 加 丰富 的 元 素 ， 比 如 人 磁 副 阵列 、 人 磁带 库 、 虚 拟 化 设备 、 
备份 服务 器 等 。 可 以 说 SAN 这 个 词 与 A (Storage Area) 近乎 同 义 了 ， 
或 者 说 SAI (Storage Area Imfrastructure) 。 比 如 可 以 这 样 说 :“ 某 SAN 中 
包含 两 台 XxX 人 磁盘 阵列 ， 一 全 备份 服务 器 ， 一 台 磁 市 库 。?” 


建议 : ”今后 在 描述 具体 技术 参数 时 杜绝 单独 使 用 SAN 一 词 ， 
代 之 以 FC-SAN、IP-SAN、NAS-SAN 等 ， 或 者 干脆 直接 只 用 协 
议 来 描述 ， 比 如 FC、ISCSI、CIFS、NFS。 比 如 “前 端 支 持 
FC、ISCSI 访 问 方式 ”， 这 样 就 没有 任何 卜 义 了 。 








各 种 关系 论 


LAN 与 WAN 的 关系 : LAN 与 VAN 就 是 本 地 和 远程 的 对 应 关系 ， 本 
地 的 就 是 LAN， 远 距离 的 就 是 WAN。 





以 太 网 与 LAN 的 关系 : 绝对 不 要 把 LAN 等 同 于 以 太 网 。LAN 是 一 个 
大 涵盖 ， 不 仅仅 包括 本 地 以 太 网 络 。 如 果 某 人 描述 “客户 端 与 服务 器 通 
过 LAN 连 接 ， 服 务 器 与 磁盘 阵列 通过 SAN 连 接 ”， 这 人 句 话 不 是 不 对 ， 但 
是 描述 太 含糊 , “通过 LAN 连 接 ”， 哪 种 底层 链 路 ? 没 说 。 虽 然 大 部 分 人 
还 是 理解 其 意思 ， 但 是 终究 不 严谨 。 不 如 直接 说 “通过 以 太 网 连接 *。 另 
外 ， 本 地 SAN 也 属于 LAN， 上 所 以 这 句 话 追究 起 来 ， 就 是 个 病句 了 。 





SAN 与 LAN 和 WAN 的 关系 : 如 果 一 个 SAN， 或 者 说 SA， 完 全 在 本 
地 ， 则 可 以 把 这 个 SAN 归 属于 LAN。 如 果 某 个 SAN 是 跨 长 距离 链 路 部 署 
的 ， 则 可 以 说 这 个 SAN 跨 越 了 WAN 或 者 WAN 链 路 。 


SAN 与 FC 和 ISCSI 的 关系 : FC 泛 指 一 种 传输 协议 ， 即 Fibre 
Channel。 用 FC 协议 来 承载 SCSI 之 后 产生 的 协议 叫做 FCP。ISCSI 指 用 IP 
网 络 来 承载 SCSI 之 后 产生 的 协议 。SAN 与 ECP 和 ISCSI 的 关系 ， 就 是 网 
络 与 协议 的 关系 。 数 据 在 SAN 网 络 内 传输 时 使 用 的 多 种 协议 中 包含 了 
FCP 和 ISCSI 协 议 。 


SAN 与 NAS 的 关系 : NAS 指 一 种 设备 ，SAN 或 者 说 SA 指 的 是 一 种 
网 络 和 这 个 网 络 区 域内 的 各 种 元 素 。NAS 当 然 也 属于 存储 区 域 中 的 元 
素 ， 所 以 NAS 属 于 SAN。 


乱七八糟 的 Free 


LAN-Free: 这 个 词根 本 不 应 该 存在 。 关 于 它 的 由 来 ， 是 起 源 于 备份 
领域 的 一 种 技术 。 一 般 在 某 个 企业 网 络 系 统 内 ， 客 户 病 与 服务 器 是 使 用 
以 太 网 络 进行 数据 通信 的 ， 而 传统 的 备份 系统 中 ， 备 份 服务 器 和 介质 服 
务 吉 也 需要 使 用 以 太 网 络 与 需要 备份 的 服务 顺 进 行 通 信 ， 将 服务 器 上 需 
要 备份 的 数据 通过 同一 个 以 太 网 络 传输 到 介质 服务 器 上 从 而 写 入 介质 保 
存 。 由 于 客户 端 与 服务 器 通信 的 以 太 网 络 的 繁忙 程度 直接 关系 到 客户 端 
的 啊 应 速度 ， 本 来 对 延迟 就 比较 敏感 ， 而 备份 数据 流 也 通过 同一 个 以 太 
网 进行 传输 ， 只 能 是 火 上 浇 油 。 那 位 说 了 ， 以 太 网 交换 机 目前 这 么 便 
宜 ， 再 买 一 个 ， 服 务 器 上 再 加 个 网 卡 ， 专 门 用 于 备份 数据 流 的 传输 ， 井 
水 不 犯 河水 ， 客 户 端 以 太 网 不 就 是 Free 了 么 ， 不 就 行 了 么 ? 是 啊 ， 所 以 
襄 <LAN-EFree” 这 个 词 真 的 让 人 措 不 着 头脑 了 。 为 什么 这 么 说 昵 ? 上 文 询 
过 ， 很 多 人 都 直接 用 LAN 来 指 代 客 户 端 与 服务 圳 通信 的 前 端 以 太 网 ， 或 








者 不 管 前 端 还 是 后 端 ， 束 指 以 太 网 。 这 样 的 话 ， 刚 才 那 个 例子 ， 再 用 一 
个 单独 出 来 的 以 太 网 专用 作 备份 数据 流 的 话 ， 这 样 到 底 叫 不 LAN-Free 
了 了 呢 ? 如 果 说 ，LAN-Free 中 的 LAN 仅 指 代 前 端 以 太 网 而 不 是 备份 专用 
以 太 网 的 话 ， 那 么 上 面 的 方法 束 是 LAN-free; 但 是 如 果 这 个 LAN 指 的 是 
以 太 网 的 话 ， 那 么 上 面 的 方法 依然 用 到 了 以 太 网 ， 束 不 是 LAN-Free。 到 | 
底 是 不 是 昵 ? 乱 了 。 再 说 了 ，LAN 本 来 的 意思 是 局 域 网 ， 即 本 地 网 络 ， 
不 管 你 再 怎么 折腾 ， 只 要 还 在 本 地 备份 ， 那 么 都 属于 LAN 之 内 ， 就 不 是 
所 谓 LAN-Free。 彻 底 乱 了。 上 所 以 说 ， 这 个 词根 本 不 应 该 存在 。 哪 个 词 更 
能 表达 这 种 不 消耗 前 端 客户 端 网 络 的 备份 方式 呢 ? 地 人 发 明 的 一 个 词 叫 
做 “Frontend-Free”。 





Frontend-Free: 前 端 网 络 Free， 即 不 管 你 怎么 折腾 ， 只 要 不 耗费 前 
端 网 络 资源 ， 管 你 再 用 一 人 台 以 太 网 交换 机 也 好 ， 或 者 直接 使 用 FC 网 络 
来 存 取 备份 的 数据 也 好 ， 都 是 Frontend-Free。 这 不 就 解决 了 人 么 ? 


笔者 在 做 一 些 方案 或 者 写 一 些 文章 的 时 候 ， 孝 会 时 刻 注 意 这 些 词 的 
应 用 ， 力 求 清晰 严 旅 。 





91. RAID Stripe 问 题 


我 的 疑惑 ， 比 如 3 个 盘 组 成 的 RAID， 条 带 64KB， 如 果 我 刚好 有 
64KBx3 的 数据 要 写 入 ， 那 正好 一 次 搞 完 ， 是 这 样 吗 ? 





条 带 是 横 跨 3 个 盘 的 ，64KBx3 的 话 ， 是 一 次 写 完 ， 控 制 器 对 每 个 盘 
一 个 IO 就 能 写 完 这 些 数据 。 








如 果 我 的 数据 只 有 64KB 呢 ， 写 还 是 不 写 ? 还 是 按 4 说 的 写 到 其 中 
某 块 盘 的 1 个 条 带 中 ? 


看 来 你 没 理解 条 带 ， 你 说 了 条 带 二 64KB， 你 要 写 64 KB， 那 么 当然 
是 一 次 写 入 三 个 盘 了 。 这 里 不 考虑 64 除 不 尽 的 问题 ， 最 好 乔 成 4 块 盘 来 
举例 。 








如 果 再 小 点 ， 只 有 32KB 呢 ? 写 还 是 不 写 ? 怎么 写 ? 也 是 写 到 其 中 
某 块 盘 的 1 个 条 带 中 吗 ? 那 该 条 带 剩 下 的 空间 意味 着 浪费 了 是 吗 ? 








“ 某 块 盘 的 一 个 条 带 ”， 这 说 法 不 对 。 条 带 由 Segment 组 成 ， 条 带 在 
每 个 盘 上 占用 一 个 Segment。32KB 就 会 占用 两 个 盘 《〈 共 4 盘 ) ， 控 制 器 
对 每 个 盘 一 个 IO。 剩 下 怎么 浪费 了 ? 


我 一 下 也 有 这 样 的 疑虑 : 如 果 是 存储 的 话 ， 会 被 先 Cache， 然 后 竣 
中 条 带 的 数据 再 写 入 ? 


Cache 当 然 要 Cache 了， 理想 情况 下 控制 器 尽量 整 条 写 ， 也 束 是 组 合 
合适 的 IO 。 要 是 想 研 究 这 些 底层 东西 的 话 ， 得 从 头 梳 理 一 下 这 些 细节 概 


sy 路 


92. 关于 IO 证 突 问 题 


小 第 有 一 个 疑问 ， 一 个 主机 系统 对 应 一 个 Array 还 是 一 个 Array 能 
对 应 多 个 主机 系统 (只 要 控制 好 Storage Partition) ? 有 这 个 疑问 主要 
出 于 IOPS 性 能 的 考虑 ， 厦 一 个 DS 4700 有 16 块 盘 ， 知 我 建 两 个 
Array (除了 hotspare) ， 每 个 Array 对 应 一 个 主机 系统 〈 不 同 OS) ， 
那么 每 个 Array 中 的 磁盘 数 就 会 减少 ， 相 应 的 IOPS 就 会 降低 ， 知 我 只 
建 一 个 Array， 将 这 个 Array 对 应 到 两 个 主机 系统 ， 那 么 IOPS 就 能 得 到 
提升 。 但 我 不 知道 我 的 想法 是 否 可 行 ， 请 DX 们 指点 。 


最 好 是 两 个 RAID 组 ， 每 个 组 根据 需求 提供 相应 的 磁盘 数 。 同 一 个 


RAID 组 提供 多 个 LUN 给 多 个 主机 ， 存 在 争 用 冲突 ， 如 果实 在 必须 这 
样 ， 建 议 将 Stripe Depth 调 到 最 大 以 最 大 程度 避免 10 冲突。 


93. 关于 LUN 分 布 方式 的 问题 


我 这 里 有 个 DS4800， 只 连接 了 一 个 扩展 柜 。 共 16 个 磁盘 。 我 在 这 
个 DS4800 划 了 两 个 RAID 5， 每 个 Array 里 面 建立 一 个 LUN， 名 字 分 别 
为 LUN1、LUN2， 将 这 两 个 LUN mapping 至 同一 台 主 机 ， 磁 盘 分 别 为 
hdisk1、hdisk2。 然 后 Aix 里 面 在 hdisk1、hdisk2 上 建立 一 个 LV， 这 个 
LV 通过 LVM 实 现 条 市 化 。 这 样 就 实现 了 DS4800 的 纵横 回 条 市 化 。 我 
划分 的 LV 是 供给 OLTP 数 据 库 以 裸 设备 形式 使 用 的 。 但 是 具体 这 两 个 
层面 条 融化 的 大 小 应 该 怎么 设置 才 合 理 呢 ?是 不 是 这 层面 的 两 个 条 带 
化 大 小 相同 效果 才 最 理想 ， 那 具体 设置 多 大 ? 请 高 手 们 指教 。 谢 谢 ! 








建议 做 成 累加 模式 而 不 是 Stirpe。 不 过 也 要 根据 实际 来 看 ， 如 果 两 
个 hdisk 的 负载 均 会 比较 高 ， 而 且 并 有 性 比较 高 ， 那 不 推荐 再 次 做 
Stripe。 如 果 你 非 要 做 的 话 ， 那 就 将 Stripe Depth 调 到 最 大 以 提供 最 大 的 


94. 测试 的 伪 结 果 


怎么 判断 Total IOs per Second 和 Total MBs per Second 读 数 高 了 或 
低 了 ， 分 别 义 是 由 什么 原因 引起 的 ? 








读数 高 低 主 要 由 两 个 因素 决定 ， 一 个 是 目标 存储 的 性 能 ， 性 能 高 的 
当然 高 ， 低 的 当然 低 。 但 是 还 有 一 个 最 容易 被 忽略 的 因素 ， 束 是 缓存， 
包括 IJOmeter 所 处 的 主机 端 缓存 和 存储 端 缓存 ， 尤 其 是 测试 顺序 读 的 时 
候 更 容易 受到 缓存 的 影响 。 比 如 第 一 次 测试 ， 读 数 可 能 较 低 ， 但 是 第 二 








次 测试 读数 显著 增 局 ， 就 是 由 于 缓存 的 影 啊 。 





选择 1 个 worker 和 选择 多 个 worker 去 测 一 个 RAID 分 区 或 HDD 分 
区 有 什么 不 同 ? 我 用 4 核 CPU 选 一 个 worker，100%read 去 测 一 个 5400 
转 的 HDD 时 ，Total MBs per Second 的 读数 会 有 110 多 ， 比 较 正常 。 但 
当 我 加 到 3 个 或 4 个 worker 时 ， 读 数 就 只 有 50 左 右 了 。 








不 知道 你 多 个 worker 测 试 的 是 同一 块 物理 硬盘 的 不 同 分 区 (地址 
段 )， 还 是 多 个 硬盘 。 对 于 一 个 物理 硬盘 ， 或 者 一 个 物理 RAID 组 ， 主 
机 端的 IO 个 数 最 好 为 1， 如 果 同 时 多 路 主机 端 IO， 会 造成 物力 资源 争 
用 ， 导 致 磁盘 不 停 寻 道 ， 从 而 显 音 降低 IOPS 和 春 宽 吞吐 量 。 当 然 如 果 多 
个 worker 对 同一 段 地 址 进行 读 取 ， 由 于 先 读 出 的 数据 在 缓存 中 ， 后 来 的 
worker 读 取 同 一 段 地 址 时 ， 人 性 能 就 会 大 大 提升 。 如 果 就 如 我 开始 说 的 ， 
多 个 worker 对 不 同 分 区 或 者 地 址 段 进行 测试 ， 那 么 整体 性 能 不 升 反 降 。 
有 很 多 人 反映 过 类 似 问 题 ， 我 也 都 回答 过 ， 在 一 些 论 坛 ， 可 以 搜索 一 
Ts 


如 果 同 时 选 4 个 worker 去 测 4 个 不 同 的 分 区 ， 这 种 做 法 有 问题 么 ? 

如 上 个 问题 一 样 ， 不 能 说 是 问题 ， 只 要 是 机 械 人 硬盘 存储 ， 都 会 这 
样 。 

传输 数据 块 大 小 的 选择 对 测试 结果 会 有 什么 影响 ? 力 外 为 什么 一 


般 都 选 4KB、16KB、64KB、256KB、512KB、1MB 等 ， 而 不 是 3KB、 
5KB、20KB、100KB、200KB 等 ? 


这 里 数据 块 大 小 就 是 每 个 10 的 Size。 从 你 的 问题 我 推断 你 还 没有 深 
刻 理 解 IO 的 概念 和 属性 。 在 《大 话 存储 》 中 我 用 了 尽 可 能 详尽 甚至 吵 咏 
的 篇 幅 来 讲述 ID， 如 果 你 还 没有 阅读 这 本 书 ， 请 尽快 阅读 。 这 里 我 还 是 


再 重复 的 简要 描述 一 下 IO。IO 的 三 大 件 : 目标 /地 址 段 / 读 写 的 长 度 。 关 
于 IO Size 和 IOPS 的 关系 ， 请 同样 阅读 《大 话 存 储 》。 不 同 IO Size 和 IO 
属性 (顺序 、 并 发 、 连 续 、 随 机 〉 对 结果 有 不 同 影响 ， 同 样 ， 阅 读 《 大 
话 存储 》。 为 何 IO Size 都 是 2 的 圭 次 ， 因 为 计算 机 领域 普遍 习惯 用 2 的 过 
次 ， 而 且 每 磁盘 扇 区 一 般 都 是 512B， 为 了 扇 区 对 齐 。 每 个 IO 中 的 * 读 写 
长 度 ” 都 是 扇 区 的 2 的 肾 次 倍 。 














95.RAID 级 别 问题 


最 近 看 了 一 下 大 话 存储 RAID 级 别 ， 有 几 个 问题 不 明白 : (1) 就 
RAID 5， 条 带 大 小 为 128KB， 如 果 写 入 的 文件 很 小 如 2KB， 那 存放 的 
方式 和 占有 容量 是 怎么 确定 的 ? 剩余 条 带 怎么 处 理 ? (2) 磁盘 在 格式 
化 的 时 候 有 个 单元 分 配 大 小 ， 这 个 好 像 就 是 文件 存放 的 最 小 单位 ， 和 
RAID 里 面 的 块 有 什么 区 别 ? 








要 彻底 理解 这 个 问题 ， 我 建议 楼 主 在 文字 的 基础 上 勒 画 图 。 





首先 你 要 与 入 2KB 的 “文件 ”， 既 然 牵 扯 到 文件 ， 就 要 牵扯 到 文件 系 
统 的 分 配 单 元 ， 也 惑 是 你 第 二 个 问题 。RAID 癌 操作 系统 提供 的 是 卷 ， 
是 连续 的 扇 区 〈 或 者 叫 LBA) 空间 地 址 ， 而 卷 向 文件 系统 所 展示 的 是 分 
区 ， 相 对 于 卷 ， 分 区 区 是 将 大 片 连续 地 址 再 次 切 开 。 


文件 系统 用 局 区 组 成 所 谓 “ 艇 ”"， 或 者 叫 cluster， 或 者 叫 分 配 单元 ， 
FS 存放 数据 只 以 簇 为 单位 ， 而 不 会 出 现 “ 读 入 或 者 写 出 半 个 艇 ”这 种 IO 命 
令 。 而 卷 之 下 的 各 层 都 可 以 以 单个 而 区 为 单位 了 ， 司 区 是 存储 系统 最 小 
的 IO 单 位 。 





明白 了 底层 这 些 映 射 关系 ， 就 可 以 大 手 研究 10 行 为 7 了。 再 说 回来 ， 


你 说 要 写 入 2KB 的 “文件 ”， 当 然 是 要 调用 文件 系统 进行 号 入 了 ， 如 果 文 
件 系 统 的 簇 大 小 被 设 定 为 2KB， 则 文件 系统 会 在 分 区 内 分 配 2KB 的 空间 
来 存放 文件 实体 数据 ， 也 就 是 4 个 局 区 的 连续 地 址 。 此 外 ， 还 需要 更 新 
inode (unix) 或 者 MFT 表 (Win) 等 所 谓 “ 元 数据 /MetaData”， 也 需要 占 
用 额外 的 空间 。 





值得 一 提 的 是 ，inode 或 者 MFT 对 应 某 个 文件 的 metaData 本 身 是 可 以 
存放 一 定数 量 的 文件 实体 数据 的 ， 一 般 是 64B， 小 于 这 个 数值 ， 文 件 直 
接 存 放 在 inode 中 ; 大 于 这 个 数据 ，inode 中 会 被 加 入 二 级 和 三 级 扩充 映 
射 指针 指向 文件 实体 数据 被 存放 的 鹿 区 地 址 用 于 寻 址 操作 。 再 来 看 看 
RAID 所 提供 的 角色 ， 刚 说 了 RAID 提 供 一 片 连续 扇 区 地 址 ， 假 如 文件 系 
统 选择 了 局 区 1024 一 1027 号 这 4 个 连续 的 扇 区 作为 这 个 2KB 文 件 的 存放 
空间 ， 则 文件 系统 写 入 这 个 文件 的 时 候 ， 卷 接收 到 这 个 指令 之 后 ， 会 将 
这 段 扇 区 号 码 传 送 给 RAID 驱 动 ，RAID 驱 动 接受 之 后 会 将 号 码 传送 给 
RAID 心 片 进行 地 址 翻译 〈 硬 RAID 卡 ) 或 者 直接 在 驱动 层面 进行 地 址 翻 
译 〈 软 RAID 卡 ) 。 地 址 翻译 这 里 的 意思 是 将 这 段 连续 的 地 址 映射 到 实 
际 的 物理 硬盘 地 址 ， 因 为 RAID 提 供给 上 层 的 是 虚拟 磁盘 /LUN， 一 个 
LUN 可 以 分 布 在 多 个 物理 硬盘 上 。 


























地 址 翻译 的 过 程 一 定 要 查询 Stripe 也 就 是 条 带 映 射 表 ， 当 初 你 怎么 
分 的 ， 此 时 束 会 影响 翻译 之 后 实际 的 硬盘 局 区 地 址 。 再 回来 说 你 的 
RAID 5 的 128KB 条 市 ，128KB 条 币 二 磁盘 数量 乘 以 每 个 磁盘 上 组 成 这 个 
条 带 的 Segment 大 小 ， 也 就 是 说 一 个 条 珊 把 排列 的 多 个 磁盘 横 癌 切 成 了 
一 条 一 条 的 ， 人 硬盘 本 喘 相 当 于 竖 条 ， 而 横 条 和 竖 条 切 开 之 后 形成 的 小 格 
子 就 是 Segment， 也 叫 条 珊 深 度 ，Stripe Depth。 














比如 8 个 盘 的 RAID 5 系统 ， 其 中 一 块 用 于 存放 parity，128KB 条 带 除 
以 8 等 于 16KB， 也 就 是 说 Segment 二 条 囊 深 上 度 二 16KB 二 每 个 人 磁盘 上 页 献 


一 个 条 带 所 使 用 的 空间 。 再 回来 说 2KB 的 文件 写 入 ， 这 个 情况 下 ， 地 址 
翻译 会 将 2KB 的 地 址 翻译 为 “磁盘 m 上 的 n 到 磁盘 1 上 的 n 十 3 号 扇 区 ”， 当 
然 也 可 能 是 “磁盘 x 上 的 y 到 磁盘 a 上 的 b*"， 总 之 地 址 落 在 物理 硬盘 上 的 哪 
个 区 域 ， 如 条 带 中 央 / 条 带 边 缘 ， 单 个 物理 硬盘 /多 个 物理 硬盘 ， 文 件 系 
统 是 不 知道 的 ， 由 RAID 层 面 决定 。 这 种 不 知道 称 为 “ 盲 "， 现 在 大 多 文 
件 系统 都 言 ， 但 是 也 有 不 言 或 者 半 到 的 。 














我 们 在 RAID 层 面 来 设计 条 带 ， 分 步 等 ， 实 际 上 都 是 育 操 作 ， 效 果 
不 会 很 大 ， 包 括 RAID ”5 本 喘 的 并 发 IO 特点 ， 也 是 育 并 有 发。 所谓 并 发 ， 
拿 你 刚才 的 例子 ， 某 个 IO 需要 写 入 2KB 的 数据 ， 如 果 地 址 翻译 结果 为 这 
4 个 忆 区 沙 在 一 个 Segment 里 ， 则 这 个 IO 只 会 占用 一 个 数据 入 ， 外 加 需要 
占用 parity 区 域 。 如 果 此 时 还 有 一 个 IO 需要 写 入 2KB 数 据 ， 而 这 次 的 4 个 
而 区 沙 在 了 另 一 块 数据 盘 上 ， 而 它 需 要 的 parity 数 据 恰 好 与 前 一 个 IO 及 
其 所 需要 的 parity 区 域 不 在 同一 个 盘 上 ， 则 这 两 个 IO 可 以 并 行 操作 ，4 块 
磁盘 同时 读 写 。 由 于 这 种 并 发 是 基于 “恰好 ”的 ， 所 以 RAID 5 提供 的 是 育 
并 发 ， 要 实现 不 育 的 并 发 只 能 靠 上 层 文 件 系统 。 说 了 这 么 多 ， 等 于 给 
《大 话 存储 》 做 了 一 个 注释 吧 。 楼 主要 是 想 彻底 把 这 些 基 础 知识 扎实 打 
牢靠 ， 请 阅读 《大 话 存储 》。 





96. AIX 中 磁盘 的 Queue Depth 问 题 


对 于 AIX 系 统 ， 磁 盘 的 属性 里 有 一 项 是 Depth， 默 认 值 是 10， 对 于 
裸 设备 应 用 ， 调 大 Depth 性 能 会 有 所 提高 ， 请 问 Depth 是 什么 意思 ? 证 
不 是 调 的 越 大 越 好 啊 。 








IO 队列 深度 ， 即 Queue ”Depth。 与 hdisk 展 层 对 应 的 存储 所 提供 的 
LUN 所 对 应 的 队列 深度 对 应 起 来 即 可 。 





97. RAID 10 和 磁盘 数量 与 性 能 的 关系 


想 请 教 一 下 大 家 RAID 10 磁盘 数量 跟 性 能 的 关系 。 如 果 从 原理 上 
分 机， 证 磁盘 越 多 性 能 越 好 ， 但 实际 是 这 样 么 ?” RAID ”10 最 多 能 做 多 
少 块 盘 呢 ? 经 验 值 一 般 都 是 多 少 呢 ? 





只 要 控制 器 允许 ， 盘 越 多 性 能 越 好 ， 但 是 多 LUN 并 发 环境 下 ， 整 体 
性 能 提升 有 限 ， 不 如 单 LUN 环 境 。 据 我 所 知 IBM DS4 新 固件 以 及 DS5 可 
以 达到 30 盘 的 RAID 10。 


98. VMware ESX 是 如 何 使 用 SAN 存 储 资源 的 ? 


本 人 对 VMware ESX 不 是 很 熟 ， 请 问 它 是 如 何 使 用 SAN 存 储 资 源 
的 ? 


(1) 是 在 磁盘 阵列 上 分 配 一 个 大 矿 才 的 LUN 给 esx 服 务 器 ， 然 后 
通过 虚拟 磁盘 的 方式 再 分 给 各 个 虚拟 机 (vm) 吗 ? 





(2) 还 是 在 磁盘 阵列 上 配置 一 个 个 的 LUN， 再 直接 分 配给 每 一 个 
虚拟 机 〈vm) 呢 ? 


你 说 的 两 种 方式 都 支持 ， 前 者 是 VMFS 方 式 ， 后 者 Raw Disk Map 方 
式 。 前 者 在 一 个 LUN 上 创建 多 个 vmdk 文 件 给 多 个 虚拟 机 使 用 ， 后 者 一 
个 LUN 只 能 给 一 个 虚拟 机 。 


99. 如 何 快速 备份 大 量 小 文件 ? 


东 个 项 目 中 遇 到 的 问题 : 几 十 个 TB 的 数据 ， 都 是 电子 文件 ， 大 部 
分 大 小 在 几 百 KB 到 几 MB 之 间 ， 一 经 写 入 ， 很 少 改动 。 目 前 有 磁带 





机 ， 一 盘 磁 带 大 概 能 写 800GB 一 1.5 TB。 这 样 的 数据 ， 怎 么 设计 备份 
机 制 比较 合适 ? 请 大 家 指点 。 


可 以 先 直 接 及 用 持续 复制 方式 镜像 到 外 部 存储 D2D 即 可 ，Snapshot 
等 在 镜像 中 来 做 。 大 量 小 文件 备份 恢复 ， 这 种 d2d 持 续 复 制 方 式 是 最 佳 
的 。 或 者 直接 备份 整个 LUN 空 间 也 是 可 以 的 。 








100. 如 何 理解 IO 惩罚 ? 


之 前 看 《大 话 存储 》， 有 些 疑 问 。 





(1) 我 理解 的 写 惩罚 ， 是 该 模式 下 茶 些 情况 写 数 据 因为 校 验 盘 等 
因素 导致 IO 次 数 相 比 正 常 增加， 不 知道 这 么 理解 对 不 对 ? 像 RAID 5 的 
写 每 天 高 ， 主 要 是 因为 针对 小 数据 的 写 操 作 ? 


(2) 据说 RAID 5 的 读 改写 模式 效率 低 ， 是 因为 它 要 多 出 两 次 
IO， 一 次 是 读 出 校 验 盘 数 据 ， 一 次 是 写 回 校 验 盘 数 据 ， 加 上 它 读 出 和 
写 回 需要 改写 的 数据 ， 一 共 是 4 次 。 为 什么 校 验 盘 不 能 和 数据 盘 一 同 读 
出 和 写 入 呢 ? 它们 本 身 在 两 个 磁盘 ， 应 该 可 以 并 发 的 ? 





这 里 当然 是 可 以 并 发 IO 的 ， 但 是 为 什么 你 非 要 将 这 两 个 并 发 的 IO 理 
解 为 “一 次 IO” 呢 ? 


我 的 意思 是 既然 可 以 同时 读 出 或 瑟 入 数据 盘 和 校 验 盘 ， 那 么 读 取 
写 的 overhead 体 现在 那里 ? 


如 果 将 这 个 “同时 ”用 于 处 理 其 他 上 层 IO 请 求 ， 而 不 是 用 来 读 写 
Parity 或 者 其 他 segment 上 的 数据 呢 ? 


101. 如 何 分 布 LUN 的 问题 


讨论 下 ，HDS 的 存储 ， 现在 给 数据 库 划 8GB 大 小 的 ly， 是 单独 在 
一 个 pv 上 划 lv， 性 能 好 ， 还 是 在 多 个 pv 上 划 lv 的 性 能 好 ? 《前 提 是 不 
做 条 带 化 ) 


这 个 问题 的 大 方向 是 : 不 要 管 lvm， 这 些 都 是 虚 的 ， 也 不 要 管 存 储 
层 什么 这 个 ldev， 那 个 vol， 这 个 LUN 的 。 我 们 最 终 束 看 它 用 了 多 少 块 物 
理 人 磁盘 ， 也 就 是 你 能 看 得 见 的 磁盘 。 划 了 几 个 RAID 组 ， 你 的 应 用 是 否 
是 多 进程 并 发 访问 同一 组 磁盘 ， 而 且 这 多 个 进程 又 不 相关 ， 比 如 就 是 两 
个 完全 独立 的 系统 ， 那 么 知道 了 这 一 点 ， 你 再 对 应 自己 的 需求 ， 一 组 磁 
盘 提供 的 性 能 是 恒定 的 ， 多 人 来 抢 就 不 如 一 个 人 用 的 碍 ， 就 这 样 。 任 何 
问题 ， 不 管 哪个 层面 的 ， 用 这 个 方 回来 判断 ， 屡 试 不 爽 。 











102. 磁盘 内 部 传输 率 、 外 部 传输 率 、 传 输 带宽 、 接 口 速度 之 间 的 
关系 





在 本 书 第 3 章 说 道 磁 盘 的 内 部 传输 速率 、 外 部 传输 速率 、 传 输 带 
、 接 口 速 度 之 间 有 什么 关系 ? 另外 Ultra 320 SCSI 传 输 速 率 可 以 达到 
320MB/s， 这 个 320MB/s 指 的 是 上 述 的 哪个 速度 ? 





内 部 是 最 大 理论 速率 ， 外 部 是 最 大 实际 理论 速率 ， 也 惑 是 被 寻 道 打 
断 之 后 的 速率 ， 接 口 速 度 是 出 口 速度 ， 可 能 会 卡 住 外 部 速率 。 理 论 传输 
带宽 三 接口 速度 。 0 短 贷 在 哪 束 等 于 哪 。U320 指 接口 速 








当 


103. RAID 5 对 小 文件 的 性 能 提升 问题 





多 块 SSD 磁 盘 做 RAID 0/5， 在 小 文件 方面 ， 对 性 能 提升 的 作用 是 
正面 的 还 是 负面 的 ? 以 我 的 理解 ，RAID 0/5 对 小 文件 的 性 能 提升 是 负 
面 作 用 。 





多 块 SSD 做 RAID， 与 机 械 硬 盘 RAID 无 二 致 。 提 高 并 发 ， 不 管 什 么 
介质 ， 都 有 益 。 不 知道 为 何 理解 RAID 0/5 小 文件 的 负面 作用 。 





对 于 大 量 小 文件 ， 比 如 10KB 左 右 的 。RAID 条 带 大 小 一 般 4、16、 
32、64、128 和 256KB， 多 数 情况 下 64KB， 小 文件 基本 上 不 分 片 ， 
RAID 0 没有 优势 ，RAID 5 还 得 计算 校 验 值 。 因 此 ， 我 觉得 还 不 如 单 块 
SSD 性 能 好 。 不 知道 这 样 理解 对 不 对 ? 





谁 说 一 定 要 分 片 才 有 优势 的 ? 8 个 盘 RAID 0， 每 个 盘 服 务 一 个 文件 
IO， 并 发 8 个 ， 这 样 很 好 。 有 时 候 分 片 反而 性 能 差 得 一 场 糊涂 。 另 外 ， 
用 SSD 做 RAID 别 老 想 着 分 片 ， 没 一 点 好 处 ， 除 非 是 大 块 连续 IO。 对 
10KB 也 分 成 1KB 的 片 ? 不 怕 影 响 SSD 寿 命 么 ? 分 片 以 后 ， 所 有 SSD 寿 命 
都 被 挫 残 了 ， 还 不 如 就 着 一 块 弄 。SSD 组 RAID 最 怕 就 是 因为 Parity 分 布 
太平 均 而 造成 多 块 SSD 在 短 时 间 内 全 坏 ， 所 以 针对 SSD 的 RAID 需 要 一 定 
的 Parity 分 布 算 法 ， 不 能 太平 均 ， 得 一 个 一 个 坏 ， 一 个 一 个 的 换 上 ， 换 
上 新 盘 之 后 还 要 重新 分 布 Parity。 因 为 如 果 不 重 新 分 布 Parity， 新 盘 的 损 
耗 可 能 会 追赶 上 其 他 盘 的 损耗 而 达到 同一 段 时 间 内 损坏 。 这 种 SSD 的 
RAID 算 法 目前 国内 高 校 有 些 谍 题 在 乔 的 。 


RAID 内 部 ， 数 据 分 片 应 该 是 目 动 的 ， 超 过 条 带 大 小 束 分 吧 。 还 是 
说 ， 分 不 分 片 是 可 以 通过 设置 来 控制 的 ? 


10KB， 可 以 明确 告诉 你 ， 除 了 RAID 3 之 外 任何 RAID 都 不 会 分 。 
不 分 可 以 设置 Stripe Depth， 不 过 Stripe Detph 自 身 也 有 限 ， 分 不 分 得 看 


ny 


y 


和 


体 情 况 了 。 


104. 集群 NAS 与 并 行文 件 系统 的 区 别 





集群 NAS 与 并 行文 件 系 统 的 区 别 是 什么 ? 都 是 在 集群 方式 下 实现 
的 ， 有 什么 不 同 呢 ? 


现在 集群 NAS 和 并 行文 件 系 统 有 融合 的 趋势 。 包 括 Ibrix、 
Stornext、Panasas 等 ， 它 们 都 是 在 并 行文 件 系 统 之 上 提供 NAS 抽 象 层 
的 ， 所 以 你 说 它 是 并 行 FS 也 可 以 ， 说 它 是 集群 NAS， 也 可 以 。 


105. 快照 、 容 灾 如 何 保证 数据 一 致 性 的 问题 
存储 的 快照 、 复 制 技 术 如 何 保障 数据 库 的 一 致 性 ? 据说 实测 时 ， 


Oracle 不 一 定 能 Open。 但 又 有 很 多 容 灾 的 和 案例， 不 知 用 的 什么 机 制 保 
障 数据 库 的 一 致 性 ? 








快照 如 果 需 要 保证 一 致 性 ， 那 么 第 一 层 可 以 在 FS 层 进行 Flush 之 后 
做 快照 ， 这 样 可 以 保证 FS 一 致 性 ， 但 是 不 能 保证 应 用 程序 层 的 一 致 性 ， 
要 做 到 后 者 ， 那 么 需要 在 应 用 层 进行 ceanup， 然 后 做 快照 。 实 现 着 两 层 
的 一 致 性 需要 在 主机 端 安装 一 个 Agent 来 与 FS 或 者 应 用 通信 协调 ， 在 用 
户 决定 执行 快照 时 ， 通 知 FS 或 者 APP 来 执行 Cleanup 。Microsoft 提 供 了 
VSS 服 务 ， 所 有 不 同 厂 商 的 应 用 、 存 储 、Agent 都 可 以 基于 这 个 服务 平 
台 来 实现 APP 层 面 的 一 致 性 。 至 于 容 灾 ， 容 灾 时 只 要 保证 完全 同步 ， 那 
么 就 不 会 有 问题 ， 但 是 代价 也 是 巨大 的 。 在 异步 时 ， 只 能 够 通过 一 致 性 
组 的 方式 来 保证 时 序 一 致 性 ， 但 是 却 不 能 保证 上 层 逻 辑 一 致 性 ， 如 果 连 
时 序 一 致 性 都 无 法 保证 ， 那 么 Open 成 功 的 几率 会 很 低 。 











保证 了 时 序 一 致 性 的 前 提 下 ， 能 不 能 Open， 也 要 看 造化 ， 能 
Open， 则 通过 Replay 来 恢复 一 致 性 但 是 却 圭 失 了 数据 ， 如 果 还 不 能 
Open， 那 么 只 能 是 恢复 到 容 灾 端 最 后 一 个 绝对 一 致 的 快照 了 。 





106. 网 络 IO 问 题 


我 今天 再 次 测试 了 我 的 服务 器 ， 发 现 了 一 个 现象 我 1.5TB 便 盘 里 
有 10 个 20GB 的 图 纸 ， 首 先 我 把 这 个 硬盘 连接 在 服务 器 上 ， 通 过 我 本 地 
的 电脑 将 这 10 个 图 纸 中 的 两 个 同时 分 别 用 光驱 进行 刻录 。 当 只 开局 一 
个 的 时 候 ， 速 度 正常 ， 当 为 一 个 光驱 开始 刻录 的 时 候 ， 两 个 光驱 的 速 
度 立 刻下 降 甚 至 到 了 0 速 的 状态 。 于 是 我 把 硬盘 从 服务 器 上 全 了 下 来 ， 
直接 连接 到 我 自己 的 电脑 上 ， 再 次 用 同样 的 方法 对 文件 进行 刻录 ， 这 
个 时 候 效果 立刻 不 一 样 了 : 同时 刻录 的 两 个 光驱 都 可 以 按 正 向 速 度 进 
行 工 作 ， 没 有 出 现 速度 下 降 问 题 。 特 别 说 明 一 下 ， 我 与 服务 器 之 间 的 
连接 是 通过 干 光 网 卡 连接 ， 用 FTP 测 试 过 速度 ， 基 本 上 都 在 80MB/s 左 
右 ， 所 以 应 该 网 络 不 是 瓶 贷 。 请 大 家 帮忙 分 析 下 问题 所 在 。 个 人 想 
法 ， 我 想 会 不 会 和 服务 器 上 的 主 版 或 者 服务 器 的 设置 有 关 呢 ?我 用 的 
是 Win2003 数 据 中 心 版 ， 没 有 进行 多 余 的 设置 ， 基 本 上 就 是 安 闭 好 后 
给 目录 做 下 共享 ， 是 不 是 有 什么 需要 设置 或 者 遗漏 的 呢 ? 




















刻录 对 数据 流 波 动 是 很 敏感 的 ，1G 的 速率 不 能 和 本 地 总 线 以 及 硬 
盘 接 口 速率 相 比 。 加 之 cifs 的 开销 很 大 ， 当 另 一 个 进程 也 连接 cifs 目 录 打 
开 文 件 时 会 产生 大 量 数据 包 ， 严 重 堵塞 网 络 ， 刻 录 程 序 感知 到 数据 的 这 
个 波动 ， 当 然 就 降 速 了 。 用 SMB 2.0 协 议会 有 所 改善 。Windows Server 
2008 和 Vista/ 7 已 经 使 用 SMB 2.0 了 。 


107. Lustre 与 pNFS 之 间 的 异同 


哪 位 高 人 能 讲解 一 下 lustre 和 pnfs 之 间 的 异同 ? 


lustre 和 pnfs 都 使 用 OSD 的 概念 。 传 统 nfsv3 和 cifs 做 不 到 并 行 集群 访 
问 的 要 求 。 所 以 nfs 4.1 也 就 是 pnfs 意 识 到 了 这 一 点 ， 将 架构 改 成 与 lustre 
等 类 似 以 获得 并 行 访问 。 这 就 是 osd 与 传统 nas 最 大 的 不 同 之 处 ， 类 似 的 
还 有 PanFS、Ibrix 的 FusionClient 等 。 








Lustre 是 一 个 并 行文 件 系统 的 名 字 ， 而 DNFS 则 古 用 于 并 行 访 问 的 一 
种 协议 。 一 个 是 文件 系统 ， 一 个 是 协议 。 





108. 阵列 之 间 的 远程 容 灾 复 制 ， 其 底层 到 展 是 怎么 样 的 ? 
通用 做 法 以 及 操 出 几 个 我 所 知道 的 厂商 的 做 法 ， 供 参考 。 


(1) 远程 复制 可 以 通过 多 种 链 路 进行 ， 如 果 通 过 fc 进行 ， 则 一 定 
都 是 使 用 ILT 模 式 的 ， 也 就 是 initiator-target-LUN。 但 是 有 一 种 除外 ， 下 
面 会 讲 。 


(2) 本 地 阵列 是 个 会 直接 挂 远程 阵列 的 LUN 上 来 比如 当做 /dev/sda 
这 类 东西 来 做 ， 不 一 定 ， 一 般 都 不 会 ， 都 是 直接 与 IO 设备 驱动 层 区 互 直 
接 对 LUN 进 行 操作 以 绕 过 块 设备 层 以 及 其 他 各 层 ， 提 融 效 紊 。 








(3) 推 和 拉 模 式 。 一 般 选 择 拉 模式 ， 及 远程 主动 回 本 地 要 数据 ， 
表现 为 读 过 程 。 为 何 这 样 考 虑 ， 是 因为 scsi write 过 程 交 互 的 数据 帧 比 读 
要 多 ， 浪 费 链 路 资源 。 

(4) 传输 方式 : 标准 scsi read/write cdb 模 式 。 


(5) 控制 模式 : 将 控制 数据 封装 到 scsi cdb 中 传输 ， 对 端 提取 对 应 


数据 进行 定 界 、 分 析 、 处 理 从 而 控制 数据 传输 。 


(6) 如 果 通 过 了 P 进 行 ， 对 于 一 些 大 阵列 来 讲 一 般 做 法 是 将 fc 再 封装 
到 耻 ， 比 如 乔 成 fcip， 加 fcip 交 换 机 之 类 。 另 外 一 种 则 是 使 用 私有 协议 接 
口 来 完成 镜像 操作 。 





(7) 使 用 私有 协议 完成 镜像 操作 ， 这 个 束 多 了 ， 很 多 基于 IP 复 制 
的 。 


(8) 厂商 举例 : emc、hds、ibm 这 类 使 用 fc 链 路 进行 镜像 的 ， 都 是 
使 用 ITL 模 式 。netapp 使 用 卫 复 制 ， 使 用 私有 接口 ， 先 将 待 传输 的 数据 块 
进行 措 述 、 封 装 ， 传 输 到 对 问 ， 对 庙 提 取 分 析 之 后 发 起 拉 取 数据 的 操 
作 。 其 协议 并 不 是 scsyiscsi， 私 有 协议 ，netapp 也 可 以 使 用 fc 链 路 复制 ， 
但 是 由 于 采用 私有 协议 ，fc 并 不 提供 私有 协议 的 接口 文 持 ， 所 以 引入 了 
FC virtual interface， 及 FCVI 卡 。 这 种 卡 可 以 提供 FC 上 层 的 VI 接 口 ， 从 
而 方便 地 将 私有 协议 转换 成 VI 协议 。 其 他 也 有 厂商 使 用 iscsi 进 行 复制 
的 ， 与 fc 复制 的 区 别 束 是 链 路 不 同 而 已 ， 束 不 列举 了 。 


(9) 至 于 阵列 可 以 做 initiator 模 式 ， 当 然 可 以 ， 其 中 netapp 的 产品 
可 以 对 所 有 口 的 模式 进行 翻转 ， 翻 转 之 后 重启 即 可 。 这 一 点 做 的 很 方 
便 ， 和 希望 国内 广 丙 借鉴 和 学 习 其 技术 。 








109. 请 问 两 侣 存储 设备 可 以 像 交 换 机 路 由 器 一 样 做 热 备 么 ? 


我 记得 某 路 由 器 上 面 的 主 控 模 块 ， 是 叫 Supervisor Engine 吧 ， 是 可 
以 插 两 个 来 做 热 备 的 。 存 储 设 备 一 般 都 配 有 双 控 制 器 ， 它 们 之 间 是 可 以 
热 备 的 。 但 是 对 于 两 台独 立 的 存储 设备 ， 即 便 是 同一 厂商 型 号 的 设备 
(每 台 设 备 都 有 两 个 控制 器 互 为 热 备 ) ， 它 们 之 间 也 不 能 做 热 备 ， 除 非 





是 集群 存储 系统 ， 多 台独 立 节 点 之 间 是 可 以 热 备 的 。 如 果 你 非 要 让 它 热 
备 起 来 ， 唯 一 办 法 是 通过 主机 端的 某 种 镜像 软件 ， 比 如 LVM， 软 RAID 
1， 或 者 一 些 厂商 提供 的 专门 在 主机 端 对 两 个 卷 进行 数据 复制 (远程 或 
者 本 地 ) 的 软件 ， 这 样 一 台 阵 列 宕 掉 之 后 ， 相 当 于 主机 端 找 不 着 其 中 一 
个 着 了 ， 主 机 会 切换 到 另 一 个 镜像 卷 继 续 工 作 ， 做 得 好 的 话 透 明度 很 

高 ， 做 的 不 好 的 话 ， 也 得 等 比较 长 时 间 切 换 。 比 如 有 些 人 测试 过 LVM 

的 镜像 ， 结 果 发 现 一 分 多 钟 没 切换 过 来 的 情况 。 








110. 请 问 iSCSI 与 FCoE 究 竟 谁 会 成 为 主流 ? 





这 个 问题 很 好 。 目 前 的 现状 是 ，iSCSI 硬 卡 只 有 Emulex 和 
Broadcom (尚未 发 布 只 是 公开 〉 的 CNA 卡 支持 ， 后 续 可 能 会 有 更 多 的 
厂商 推出 万 兆 iSCSI 硬 卡 。 如 果 用 软 iSCSI initiator 的 话 ， 一 个 10G 口 子 会 
耗 掉 30% 左 右 甚 至 更 高 的 CPU， 就 算 用 最 新 的 Intel CPU 也 是 这 样 ， 所 以 
基本 上 4 个 10G 口 束 会 耗 死 一 台 阵 列 。 但 是 FC 卡 就 不 会 有 这 种 情况 ， 
FCoE 同 样 也 不 会 。 退 一 步 讲 ， 如 果 10G 的 FCoE 与 硬 10G iSCSI 比 的 话 ， 
卡 件 与 协议 本 喘 来 讲 都 差不多 ， 成 本 也 差不多 ， 所 以 就 要 看 外 围 辅 助 设 
备 的 成 本 ， 一 台 FCoE 交 换 机 目前 来 讲 还 是 远 贵 于 10G 以 太 交 换 机 ， 所 以 
要 是 小 规模 部 署 ， 甚 至 不 如 用 8G ”FC 交换 机 划算 。 其 次 是 看 看 场景 ， 
FCoE 更 适合 想 融 合 之 前 已 经 部 署 的 FC 与 新 部 署 的 以 太 网 的 场景 ， 也 就 
是 大 型 久 建 的 数据 中 心 ， 对 于 新 建 数 据 中 心 ， 这 个 趋势 还 不 明朗 ， 笔 者 
之 前 和 Emulex 的 一 名 员工 交流 过 ， 他 的 意思 是 新 建 数据 中 心 他 们 推荐 使 
用 iSCSI 硬 卡 ， 但 是 我 估计 这 种 说 法 是 含有 很 大 水 分 的 ， 毕 竟 Emulex 是 
目前 仅 有 的 一 家 提供 便 iSCSI 卡 成 品 的 公司 ， 他 们 推荐 iSCSI 可 能 有 一 定 
市 场 目的 。 但 是 我 个 人 看 法 ，FCoE 目 前 Qlogic、Brocade 和 Emulex 都 有 
产品 了 ， 为 何 10G 的 iSCSI 硬 卡 只 有 Emulex 一 家 产品 ， 证 明 FCoE 今 后 可 
能 会 有 一 波 行情 。FCoE 和 iSCSI， 谁 O 不 是 0? 区 别 就 是 一 个 是 FC， 一 

















个 是 TCPIP， 抛 开 以 太 网 ， 单 看 FC 和 TCPIP， 前 者 高 效 但 是 扩展 性 差 ， 

后 者 效率 稍 低 但 是 扩展 性 很 好 ， 其 实 这 已 经 与 以 太 网 无 天 了 ， 还 是 最 后 
到 底 是 认同 FC 还 是 认同 TCPIP 的 问题 。 我 的 看 法 是 ，FCoE 会 弄 出 一 波 

行情 ， 但 是 FC Fabric 这 个 协议 很 邪门 ， 它 要 求 交 换 机 也 要 参与 Fabric 的 
建立 ， 而 且 交 换 机 起 到 至 关 重 要 的 作用 ， 这 增加 了 复杂 度 并 且 降 低 了 兼 
容 性 ; 而 iSCSI 却 不 要 求 交 换 机 有 什么 上 层 协 议 智 能 。 最 后 1SCSI 很 有 可 
能 会 茶 代 FCoE。FCoE 与 iSCSI， 广 商 也 尚未 看 清 ， 谁 也 不 敢 冒 然 选 路 。 
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111. 所 谓 计算 与 存储 合体 ， 其 产品 形态 是 什么 ? 





冬瓜 头 ， 快 来 … 存 储 和 计算 结合 之 后 ， 是 什么 样 的 产品 形态 啊 ? 
计算 ， 存 储 ， 都 很 牛 又 的 机 器 ?” JIM GRAY， 有 一 篇 论文 谈 到 ， 真 正 
成 本 最 高 的 地 方 在 网 络 .… 我 们 也 确实 可 以 感觉 到 ， 在 同步 数据 ， 或 者 
做 灾 备 的 时 候 ， 最 头疼 的 还 是 两 个 节点 之 间 的 通道 有 多 大 。 





这 种 统一 之 后 到 底 是 个 什么 机 喜 ? 答案 是 不 是 单独 的 机 器 ， 就 是 
一 群 机 器 ， 通 过 软件 模块 联系 起 来 ， 对 于 计算 机 来 讲 ， 硬 件 属于 物质 
本 源 ， 属 于 阴 ， 属 于 形 ; 软件 则 属于 精神 本 源 ， 属 于 阳 ， 属 于 神 。 用 
软件 模块 将 计算 和 存储 颗粒 汇总 起 来 发 挥 作用 ， 并 且 将 原本 的 以 计算 
为 中 心 的 计算 方法 变 为 以 存储 为 中 心 的 计算 方法 ， 把 计算 颗粒 分 配 到 
存储 了 计算 所 需要 的 数据 的 节点 上 ， 在 哪 存储 就 在 哪 计算 ， 大幅 提高 
效率 和 速度 ， 避 人 免 了 频繁 大 量 数据 传输 ， 这 也 回答 了 你 的 力 外 一 个 问 
题 “ 成 本 最 高 的 是 在 网 络 上 ”， 其 实 这 句 话 瞳 指 ， 数 据 移 动 起 来 成 本 太 
高 了 。 网 络 本 身 成 本 不 高 。 但 是 如 果 要 容 灾 ， 依 然 可 以 使 用 这 个 思 
想 ， 即 在 哪 存储 就 在 哪 计算 ， 可 以 在 业务 层面 进行 双 份 ， 而 不 是 数据 
层面 ， 比 如 一 笔 交 易 ， 可 以 在 业务 层面 将 其 同步 到 远 端 ， 远 站 针对 这 
笔 交 易 生 成 自己 的 数据 然后 下 盘 。 一 个 实际 例子 是 ， 比 如 数据 库 日 志 






































同步 方式 的 容 灾 ， 同 步 量 相 比 直接 底层 数据 同步 来 的 少 很 多 。 





你 次 的 那 种 “计算 与 存储 都 很 牛 的 机 融 ”， 也 不 是 没有 ， 但 是 还 不 到 
时 候 ， 到 了 量子 计算 和 分 子 存储 时 代 ， 那 时 候 计 算 机 形态 又 会 轮回 到 初 
始 原点 状态 ， 单 台 机 器 ， 确 实 很 牛 ， 大 家 都 拿 高 速 网 络 来 连接 到 这 人 台 超 
级 计算 机 上 获取 资源 。 


112. 大 量 小 文件 的 存储 场景 ， 有 什么 优化 办 法 ? 


其 实 很 简单 ， 可 以 参考 Google 的 GFS 以 及 变种 HDFS、 淘 宝 TFS 以 及 
腾讯 Tencent FS 的 设计 。 这 些 都 是 处 理 大 量 小 文件 的 典范 。 大 家 知道 传 
统 的 文件 系统 下 ， 每 个 文件 都 要 被 创建 对 应 的 ipode 之 类 元 数据 ， 但 是 
在 海量 文件 场景 下 ， 传 统 FS 已 经 无 法 承载 如 此 多 的 元 数据 IO 量 以 及 如 此 
庞大 的 元 数据 搜索 计算 量 了 ， 唯 一 的 做 法 就 是 降低 元 数据 量 ， 那 么 势必 
就 要 降低 文件 实体 的 数量 ， 所 以 这 些 文件 系统 无 一 例外 的 都 是 用 了 这 样 
一 种 变通 的 方法 ， 即 在 文件 中 再 创建 文件 ， 比 如 一 个 64MB 的 大 文件 ， 
比如 其 中 可 以 包含 16384 个 4KB 的 小 文件 ， 但 是 这 个 64MB 的 大 文件 只 占 
用 了 1 个 inode， 而 如 果 存 放 4KB 的 文件 的 话 ， 就 需要 16384 个 inode 了 。 
那么 如 何 寻 址 这 个 大 文件 中 的 小 文件 呢 ? 方法 就 是 利用 一 个 劳 路 数据 库 
来 记录 每 个 小 文件 在 这 个 大 文件 中 的 起 始 位 置 和 长 度 等 信息 ， 也 就 是 说 
将 传统 文件 系统 的 大 部 分 元 数据 剥离 了 开 来 ， 拿 到 了 单独 的 数据 库 中 存 
放 ， 这 样 通过 查询 外 部 数据 库 先 找到 小 文件 具体 对 应 在 哪个 大 文件 中 的 
从 哪 开始 的 多 长 ， 然 后 直接 发 起 对 这 个 大 文件 的 对 应 地 址 段 的 读 写 操作 
即 可 。 男 外 还 可 以 创建 索引 以 加 速 文件 查找 动作 。 























在 一 个 海量 分 布 式 文件 系统 中 ， 元 数据 就 像 上 面 的 思想 一 样 是 分 级 
的 ， 中 探 市 皮 ， 也 束 是 MDS， 和 存储 一 级 元 数据 ， 也 就 是 大 文件 与 底层 块 
的 对 应 关系 ， 而 数据 和 节点 则 存放 二 级 元 数据 ， 也 就 是 最 终 的 用 户 文件 在 














这 些 一 级 大 块 中 的 存储 位 置 对 应 关系 ， 经 过 两 级 寻 址 从 而 读 写 数据 。 其 
实 这 些 一 级 大 文件 ， 束 可 以 认为 它们 是 卷 了 ， 也 就 是 在 卷 管理 层 之 上 再 
存放 文件 ， 这 样 就 降低 了 单一 空间 下 的 文件 总 数量 从 而 提高 性 能 。 


113. 能 否 列举 一 下 存储 系统 中 所 使 用 的 芯片 ? 





好 的 ， 知 无 不 言 ， 言 无 不 尽 ! 我 就 从 涉 讲 起 吧 。 首 先 人 硬盘 上 的 芯片 
就 不 说 了 ， 大 家 都 知道 ，Micro Controller、dsp 等 。 一 个 硬盘 扩展 柜 中 的 
所 有 磁盘 都 被 连接 到 一 个 蕊 片 中 ， 这 个 蕊 片 位 于 扩展 柜 的 控制 板 中 ， 早 
期 产品 用 PBC 尺 片 ， 最 经 典 的 束 是 Lattice 的 7147。PBC 也 就 是 Port 
Bypass Circuit， 完 全 的 FCAL 环 逻辑 ， 后 来 发 展 为 SBOD，Switched Box 
of Disks， 其 实 就 是 芯片 变 了 ， 也 就 是 底层 变 为 点 对 点 直达 物理 布线 ， 
而 上 层 协议 逻辑 依然 还 是 FCAL， 只 不 过 仲裁 的 时 候 再 也 不 用 手 拉 手 传 
递 了 ， 直 接 由 控制 右 独 裁 ， 指 哪 打 哪 ! 这 类 心 片 包括 PMC8738、LSI 
等 ，PMC 公 司 称 这 种 SBOD 芯 片 为 Cut Through Switch (CTS) ， 有 些 方 
案 则 混用 PBC 和 CTS，CTS 接 磁盘 ， 扩 展柜 之 间 则 使 用 PBC 串 联 ， 以 上 
是 FC 方 案 。SAS 方 案 就 痛快 了 ， 全 是 SAS Expander，SAS 交 换 蕊 片 ， 没 
啥 好 说 的 ， 芯 片 之 间 采 用 4PHY 宽 端口 一 般 。 另 外 扩展 柜 控 制 板 上 还 有 
其 他 ASIC， 比 如 用 来 控制 整个 扩展 柜 的 中 控 蕊 片 ， 包 括 SES (Scsi 
Enclosure ”Service) 逻辑 处 理 ， 探 测 各 路 Sensor 并 用 SES 上 报 ， 再 束 是 
ROM 和 RAM 忌 片 了 ， 一 般 中 控 ASIC 里 就 集成 了 ROM。RAM 则 一 般 外 
置 ， 比 如 128MB 单 片 。 控 制 板 上 还 有 PHY， 这 个 就 不 说 了 。 再 往 上 就 是 
HBA 上 的 蕊 片 了 ，PHY， 不 说 了 了。 再 就 是 IOP (IO Processor) 或 者 
SOC (System On Chip) 等 ， 负责 处 理 核心 协议 逻辑 ， 比 如 FCP、SAS 
等 ， 带 RAID 功 能 的 卡 ， 这 些 IOC 或 者 SOC 就 更 复杂 了 。 再 往 上 ， 就 是 控 
制 器 主板 上 的 特殊 芯片 了 ，CPU 等 不 说 了 。 往 往 一 些 广 商 为 了 体现 差异 
化 ， 搞 一 块 ASIC 那 是 倍 有 面子 ! 比如 3PAR 的 号 称 Thin ”Built-in 的 Gen3 











ASIC，HDS 在 AMS2k 上 使 用 的 ASIC，IBM 的 DS5k (O 的 LSI 的 ) 上 所 用 
的 ASIC，HDS 高 端 存储 中 的 ASIC。 无 非 就 是 加 速 数据 处 理 。 





114. 可 否 把 数据 库 中 数据 在 磁盘 的 分 布 讲 一 下 ? 





数据 库 方 面 我 不 行 ， 只 能 讲 一 讲 肤 浅 理解 。 


(1) 传统 关系 型 数据 库 。 两 种 方式 : 数据 库 自 己 管理 裸 磁盘 从 而 
直接 存放 数据 文件 〈 比 如 Oracle 的 ASM) ，Oracle 甚 至 有 自己 的 OCFS 集 
群 文件 系统 〈 为 何不 叫 它 分 布 式 而 叫 集群 ? 因为 它 底层 是 共享 存储 的 ) 
用 来 支撑 其 RAC 和 集群 。 再 有 一 种 就 是 数据 库 利用 操作 系统 提供 的 文件 系 
统 〔( 关 掉 缓 存 ， 也 就 是 调用 时 采用 Direct ” IO 模式，AIX 下 还 提供 一 种 
CIO， 也 就 是 Concurrent IO 模 式 从 而 不 让 文件 系统 底层 对 文件 加 锁 ，DB 
自己 有 锁 ) 来 存储 数据 文件 。 











(2) Nosql 系 统 。 比 如 Cassandra 的 实体 数据 ， 就 是 sstable、commit 
log 和 bloom filter 以 及 index file。 这 些 文件 底层 一 般 就 是 Linux 下 的 EXT3 
文件 系统 。 这 些 文件 都 是 连续 地 址 写 入 的 ， 避 人 免 随 机 写 入 ， 所 以 提高 
性 能 。 谷 歌 的 Bigtable 底 层 使 用 GFS 分 布 式 文件 系统 。 淘 宝 的 TFS 在 1.0 版 
本 时 使 用 EXT3 结 果 发 现 性 能 不 行 所 以 1.3 版 本 时 使 用 自己 研发 的 本 地 文 
件 系 统 ， 猜 测 一 定 是 个 轻 量 级 的 ， 因 为 TFS 层 已 经 考虑 很 多 格式 了 。 
Windows Azure 后 台数 据 库 则 使 用 普通 的 SQL Server 组 成 集群 切片 ， 各 
个 节点 之 间 使 用 日 志 进 行 同步 ， 保 证 了 分 布 式 事务 一 致 性 ， 其 底层 就 是 
NTFS 文 件 系统 了 。 

说 点 题 外 话 ，Oracle RAC 这 种 方式 类 似 于 CPU 的 SMP; Nosql 分 布 


式 集群 类 似 于 MPP。 对 于 商用 存储 ， 像 各 种 集群 文件 系统 比如 Veritas 
Cluster Filesystem、Stornext、 中 科 蓝 鲸 BWFS 以 及 基于 类 似 架构 的 集群 





FS 所 构建 的 集群 NAS， 就 类 似 于 SMP; 像 EMC 的 V-Max 存 储 ， 则 类 似 
cc-NUMA 数据 分 布 但 是 内 存 共享 ); IBM 的 XIV、Inftortrend ESVA、 
Dell ” P6000 等 多 数 Scale-Out 的 存储 ， 则 类 似 MPP。 从 趋势 来 看 ，SMP- 
>NUMA->MPP， 和 存储 也 是 一 样 的 趋势 。 








至 于 数据 文件 中 的 亚 一 级 的 数据 分 布 ， 我 仅 了 解 Oracle 是 用 extent 来 
分 配 。 几 年 前 弄 过 DB2， 可 惜 都 态 了。 所 以 这 方面 还 得 DBA 来 解答 。 


115. 为 何 灾 备 端的 1O 时 序 必须 保证 ? 
数据 容 灾 的 灾 备 端 为 什么 要 在 多 流 TCP 传 输 时 保证 IO 时 序 ， 你 指 


的 是 同一 个 应 用 的 10 写 入 通过 TCP 后 变 成 乱 序 了 ? 问题 是 这 是 文件 系 
统 和 块 设备 驱 动 保 证 的 问题 蚜 。 





如 琳 把 一 批 数 据 用 一 个 TCP 连 接 友 送 到 对 方 ， 古 不 会 乱 序 的 ，TCP 
不 会 对 数据 流 进行 定 界 ， 但 是 绝对 不 会 乱 序 ， 本 来 是 1234， 传 到 对 面 依 
然 是 1234， 对 方 只 需要 从 头 将 数据 流 解析 定 界 出 一 个 个 IO 然后 刷 入 灾 备 
端的 存储 介质 就 可 以 了 。 但 是 多 流 TCP 的 话 ， 一 批 数据 ， 并 行 切 分 由 多 
个 TCP 连 接 帮 过去， 此 时 多 流 之 间 的 数据 就 乱 挥 了 。 


文件 系统 和 块 设备 驱动 不 会 保证 IO 的 时 序 性 ， 典 型 的 比如 Linux 下 
的 io shceduler， 他 就 是 可 以 乱 序 IO， 为 了 优化 ， 同 样 ， 底 层 人 磁盘 的 
NCQ、TCQ， 也 是 乱 序 IO 的 。 解 决 乱 序 IO 是 上 层 应 用 需要 考虑 的 ， 比 
如 绝对 不 会 在 发 起 写 请 求 而 没收 到 OS 内 核 返回 信号 之 前 再 对 同一 个 地 
址 发 起 读 请 求 ， 因 为 会 造成 过 期 读 。 但 是 这 种 由 应 用 保障 的 方法 是 强 实 
时 性 有 状态 的 ， 而 对 于 灾 备 端 来 讲 ， 它 的 应 用 程序 就 是 主 站 点 的 存储 系 
统 ， 而 主 站 点 存储 系统 是 无 法 感知 应 用 逻辑 的 ， 所 以 灾 备 端 只 能 乖 午 的 
按照 顺序 执行 ， 和 否则 恢复 的 时 候 会 造成 严重 不 一 致 ， 可 能 导致 应 用 无 法 








启动 ， 甚 至 连 卷 、 文 件 系统 都 无 法 被 Mount。 


116. 一 个 文件 系统 问题 





NTSE 文 件 系统 对 数据 的 管理 是 基于 一 个 叫 METI 的 主 文件 表 ， 我 
想 问 的 是 ， 这 个 表 在 磁盘 的 什么 位 置 是 在 C 盘 么 ? 如 果 我 分 了 4 个 区 ， 
那么 要 有 4 个 MFS 么 还 是 一 个 MEFS 对 应 4 个 卷 ? 我 可 不 可 以 把 文件 系统 
认为 是 一 个 应 用 程序 ， 如 果 有 FAT32，NTEFS 等 多 个 文件 系统 ， 那 么 开 
机 后 是 不 是 这 几 个 应 用 程序 一 直 在 运行 ? 对 于 Windows 和 Linux 等 操作 
系统 没有 虚拟 文件 系统 吧 ， 之 前 我 发 过 一 个 帖子 说 过 虚拟 文件 系统 ， 
但 是 好 像 说 错 了 ， 只 有 分 布 式 文件 系统 才 有 虚拟 文件 系统 之 说 ， 没 有 
分 布 式 文件 系统 的 应 用 就 没有 虚拟 文件 系统 之 说 。 








每 个 盘 的 固定 位 置 ， 有 一 个 根 入 口 ， 而 且 会 备份 多 份 ， 这 也 是 一 些 
数据 恢复 工具 扫描 的 时 读 取 的 ， 如 果 备 份 的 mft 都 损坏 ， 那 么 扫 朱 工具 
会 扫 摘 残缺 的 元 数据 tree 或 者 叫 链 也 行 ， 来 重组 数据 。 每 个 分 区 是 一 个 
独立 的 文件 系统 。 可 以 认为 是 一 个 程序 ， 记 得 以 前 就 回答 过 ，ntfs 和 
fat32 可 以 同时 存在 ， 处 于 os 的 内 核 区 ， 两 套 代码 共同 运行 ， 你 挂 什么 他 
就 起 什么 代码 。Linux 下 的 目录 表现 方式 ， 一 切 皆 目录 和 文件 ， 就 是 
vfs， 这 也 束 所 谓 的 虚拟 文件 系统 ， 可 以 将 虚拟 文件 系统 理解 为 目录 ， 

而 实际 文件 系统 理解 为 文件 - 块 映射 层 ，vfs 是 再 往 上 封装 的 一 层 。win 的 
表现 方式 和 Linux 有 些 不 同 ，win 是 以 分 区 为 入 口 ， 而 Linux 是 以 /为 入 
口 ， 下 面 挂 的 可 以 是 任何 地 方 的 任何 文件 系统 ， 但 是 win 下 也 可 以 将 某 
个 实际 文件 系统 挂 到 某 个 目录 下 ， 这 也 属于 vfs。vfs 与 是 耕 分 布 式 没有 
任何 关系 。 

















那么 所 有 的 MET 都 要 放 在 C 盘 里 面 么 ? 另外 对 于 某 个 分 区 格式 化 
后 比如 D 妈 ， 建 立 的 位 图 、 索 引 等 各 种 表 都 在 C 盘 里 或 者 MEFT 里 ， 具 体 





D 盘 里 面 其 实 什 么 都 没有 是 么 ? 


每 个 分 区 都 有 一 套 完 整 的 元 数据 ，C 和 D 是 独立 的 。 分 区 表 用 来 区 
分 C 和 D 的 地 址 空间 ， 这 两 个 空间 上 的 FS 是 完全 独立 的 元 数据 ， 但 是 OS 
内 的 文件 系统 代码 是 一 套 ， 挂 起 多 个 分 区 上 的 文件 系统 。 


117. 关于 LUN 与 文件 


NetApp 除 了 做 NAS 以 外 ， 还 有 SAN 存 储 ， 但 是 好 像 其 实现 方式 是 
在 NAS 的 基础 上 模拟 出 来 的 SAN。 不 知道 谁 清楚 这 个 ， 能 人 否 给 简单 讲 
讲 。 力 外 ， 有 些 存储 产品 在 底层 使 用 了 五 花 八 门 的 技术 ， 比 如 一 些 
LUN 的 技术 ， 我 妃 有 个 疑问 ， 这 些 LUN 技 术 好 像 是 在 某 种 文件 系统 之 
上 做 的 ， 人 否则 不 可 能 有 那么 大 的 伸缩 性 和 灵活 性 ， 明 白人 请 讲 讲 ! 











NetApp 就 是 把 文件 当成 LUN。 而 且 他 的 Volume 也 是 一 个 文件 。 所 
以 了 ， 不 知道 VNXe 底 层 是 怎么 搞 的 ， 据 NetApp 说 底层 也 是 个 文件 ， 但 
是 EMC 不 承认 ， 还 专门 出 了 官方 FAQ。 











对 文件 系统 又 有 点 新 认识 ， 文 件 系统 不 仅 是 组 织 数 据 的 规则 ， 而 
且 是 一 种 权利 。 只 有 文件 系统 才能 有 组 织 的 调动 数据 ， 现 在 想 想 有 的 
LUN 功 能 可 以 智能 的 让 数据 分 层 这 里 确实 有 值得 怀疑 的 地 方 ， 也 就 是 
说 确 层 数据 越权 造反 了 了! 


其 实 运 今 为 止 最 灵活 的 底层 数据 空间 管理 技术 就 是 文件 系统 。 其 实 
文件 和 块 本 身 的 意义 是 相同 的 ， 两 者 都 是 将 大 空间 再 次 分 割 为 上 层 容易 
理解 的 ， 灵 活 的 小 空间 。 上 所 以 说 ， 当 LUN 从 树 上 下 来 开始 直立 行走 的 时 
候 ， 才 肥 现 其 实 文件 系统 早 就 变 成 人 了。 








118. 磁盘 阵列 中 包含 哪些 协议 控制 器 


请 问 磁 盘 阵 列 控制 器 里 面 是 否 内 置 了 SCSI ATA 控 制 器 ?我 想 磁 盘 
阵列 控制 器 里 面 内 置 RAID 控 制 器 、FC 适 配器 、igSCSI 适 配器 、SCSI 控 
制 器 、ATA 控 制 器 。 控 制 器 和 Enclosuer 里 面 的 磁盘 之 间 是 通过 FC-AL 
架构 连接 的 ，FC 只 是 网 络 传输 协议 ，EC 包 的 有 效 载荷 部 分 都 是 SCSI 
指令 和 数据 请 问 是 这 样 吗 ? 


其 他 都 没 问 题 。 但 是 ATA 控 制 器 的 说 法 不 对 ， 一 般 没 有 ATA 控 制 
器 ， 也 没有 SATA 控 制 器 。SATA 盘 一 般 是 通过 SAS 转 接 板 或 者 FC- 
SATA 转 接 板 连 到 扩展 柜 的 。SATA 转 SAS 的 话 ，SAS 控 制 器 会 原生 支持 
SATA 协 议 。 而 用 FC-SATA 转 接 板 的 方案 的 话 ， 控 制 器 不 变 ， 扩 展柜 中 
使 用 FC 转 SATA 的 协议 转换 芯片 。 


附录 2 TIP 硬 盘 
的 ? 


很 久之 前 ， 我 记得 大 概 是 在 2005 年 ， 听 说 过 国外 一 家 初创 公司 做 了 
一 种 以 太 网 口 的 硬盘 ， 当 然 硬 盘 本 身 不 是 他 们 做 的 ， 他 们 只 是 在 硬盘 上 
加 上 一 个 转 接 板 ， 专 业 说 法 叫做 Dongle， 实 现 基于 以 太 网 的 SCSI 协 议 传 
输 ， 至 于 协议 是 否 使 用 的 就 是 iSCSI 无 从 而 知 ， 对 其 具体 细节 也 很 不 了 
解 。 


玩 玩 还 是 来 中 














当时 存储 技术 在 国内 还 没有 怎么 得 到 重视 ， 所 以 感觉 这 种 东西 非常 
新 鲜 ， 竟 然 可 以 这 么 玩 ! 当然 ， 这 东西 终究 没 成 气候 ， 逐 渐 淡 出 了 业 
界 。 那 时 候 ，ATAoE、SCSIoE 这 种 类 似 协 议 也 一 直 有 人 在 做 ， 其 目的 
就 是 抛弃 TCP/IP 这 种 厚重 的 传输 协议 而 转 为 一 种 轻 量 级 的 适 配 到 以 太 网 
的 协议 。 但 是 目前 来 看 ， 这 类 协议 最 终 也 没 得 到 推广 。 


固态 存储 一 凯 起 ! 


9 年 过 去 了 ， 这 9 年 里 发 生 了 很 多 事情 。 首 移 ， 企 业 级 存储 系统 在 国 
内 得 到 了 铺 天 兹 地 的 应 用 ， 从 一 开始 曲 高 和 蹇 到 现在 的 衣 地 开花 ， 各 三 
商 的 企业 级 存储 系统 产品 在 这 期 间 至 少 经 历 了 4 次 升级 换代 ， 局 端 产 品 
则 经 历 了 两 次 。 

















其 次 ， 在 业务 层面 ， 主 机 虚拟 化 的 崛起 、 基 于 虚拟 化 之 上 的 云 计 算 
架构 的 崛起 ， 互 联网 后 端 架 构 的 变迁 ， 海 量 存储 和 大 数据 分 析 挖 据 系 统 
的 广泛 应 用 ， 这 三 大 变革 性 事件 对 很 多 存储 技术 、 产 品 、 厂 商 及 生态 产 
生 了 重大 影响 。 





再 次 ， 底 层 技术 不 断 革 新 ， 固 态 存 储 技术 凯 起 ，2012 年 应 该 算是 
SSD 元 年 。 业 务 和 底层 技术 的 变革 ， 驱 动 着 企业 级 存储 做 出 一 轮 义 一 轮 
的 变化 ， 一 开始 是 内 部 架构 的 变化 ， 比 如 Scale-Up 到 Scale-Out， 然 后 就 
是 访问 协议 的 变化 ， 除 了 块 和 文件 ， 对 象 接口 越 来 越 被 广泛 使 用 ， 再 吏 
是 数据 管理 上 的 变化 ， 企 业 级 存储 其 实 对 固态 存储 介质 是 爱 恨 交 织 ， 明 
知道 这 小 东西 一 定 会 其 履 自 己 兰 心 建立 的 基于 机 械 盘 的 生态 系统 ， 但 又 
不 能 不 迎合 潮流 ， 出 现 了 各 种 数据 分 层 分 级 方案 和 技术 ， 以 及 所 谓 全 固 
态 存 储 系统 。 

















如 果 说 在 这 9 年 里 的 前 4 年 ， 企 业 级 存储 算是 慢 慢 悠悠 地 目 我 欣 黄 式 
发 展 ， 那 么 后 5 年 基本 是 在 小 步 快 跑 了 。 一 下 子 爆发 的 众多 变化 ， 痢 发 
生 在 后 5 年 里 ， 企 业 级 存储 显得 应 接 不 上 暇 、 不 知 所 措 。 云 计算 、 大 数 
据 、 国 态 存 储 、 开 源 、 软 件 定 义 等 各 方 围 着， 使 得 商用 企业 存储 好 像 找 
不 到 出 路 ， 各 个 三 两 绞 尽 脑 汗 规划 下 一 代 严 品 到 后 应 该 是 个 什么 样子 ， 
以 及 整体 战略 需要 怎么 调整 。 











就 在 两 年 前 ， 国 内 某 存储 三 商 为 应 对 海量 低 成 本 存储 场景 ， 设 计 了 
一 套 与 2005 年 国外 那个 广 商 类 似 的 方案 ， 也 就 是 在 每 块 磁 盘 驱 动 器 上 前 
置 一 个 Dongle， 基 于 ARM 处 理 器 ， 这 个 Dongle 相 当 于 一 个 Mini ”Storage 
Controller， 功 能 方面 ， 其 在 硬件 层 后 端 通过 集成 的 SAS/SATA 控 制 器 访 
问 并 管理 这 块 盘 ， 前 端 则 通过 以 太 网 口 来 传输 封装 之 后 的 访问 协议 〈 比 
如 Object 对 象 访问 协议 ) ， 核 心软 件 层 是 一 个 精简 的 Linux 内 核 ， 包 含 
SAS/SATA Host 驱 动 、 以 太 网 设备 驱动 、 块 设备 驱动 、 卷 管理 层 、 对 象 / 
文件 管理 层 、 对 象 访问 协议 、TCP/AP 协 议 层 以 及 管理 监控 Agent 等 。 也 
就 是 说 ， 将 一 块 传统 的 以 Block 形 式 访 问 的 磁盘 通过 加 一 个 转 接 板 ， 变 
为 了 一 块 以 对 象 Object 形式 访问 的 磁盘 ， 如 果 向 其 软件 层 加 入 更 多 协 
议 ， 那 么 还 可 以 变 为 iSCSI Target、NFS/CIFS Export， 当 然 实 际 上 一 切 
都 受 限 于 ARM 的 性 能 。 人 再 通过 一 个 或 者 
多 个 元 余 /AA 的 总 控 服 务 器 来 管理 这 些 磁 盘 ， 并 通过 这 个 总 控 服 务 器 集 
群 铝 外 提供 空间 和 服务 。 








IP 便 盘 一 一 玩 玩 ? 


也 就 在 最 近 ， 和 希捷 与 这 家 存储 三 商 联合 推出 了 被 命名 为 Kinetic 的 便 
盘 ， 宣 称 其 直接 提供 对 象 访问 接口 ， 并 向 应 用 提供 API 以 进行 数据 访问 
和 监控 管理 。 这 个 产品 相当 于 把 之 前 的 转 接 板 去 掉 ， 把 核心 软件 直接 运 
行 在 硬盘 背面 的 控制 芯片 里 。 处 理 芯 片 的 一 般 架 构 是 一 个 或 者 多 个 
ARMVMIPS core 与 一 堆 外 围 电 路 〈 比 如 XOR、ECC/CRC、 加 密 、 压 缩 、 
PHY 等 ) 组 成 ， 而 ARM/MIPS Core 平 时 不 参与 数据 的 传输 ， 只 是 控制 数 
据 的 传输 ， 否 则 会 由 于 过 多 的 内 存 拷贝 而 性 能 根本 达 不 到 要 求 ， 所 以 一 
般 来 讲 一 款 处 理 芯 片 中 的 通用 CPU 模块 ， 绝 大 多 数 时 间 负 载 并 不 高 ， 这 
也 就 为 在 处 理 忌 片 中 集成 更 多 的 软件 功能 提供 了 技术 空间 。 


但 是 别 指望 这 种 低 功 耗 CPU 能 胜任 事务 级 在 线 处 理 ， 跑 跑 一 般 的 数 
据 收 发 、 简 单 的 协议 处 理 还 是 可 以 的 ; 也 别 指望 其 能 胜任 高 IJOPS 的 场 
景 ， 每 一 个 IO 处 理 耗费 的 CPU 资源 是 不 容 小 鹿 的 ， 包 括 中 断 、 协 议 处 
理 、 内 存 拷贝 等 在 内 的 流程 对 CPU 耗 费 很 大 。 但 是 低 人 负载 、 以 带宽 否 吐 
量 大 块 连续 IO 为 主 的 场景 下 ， 这 类 处 理 需 能 够 很 好 地 胜任 ， 尤 其 是 在 只 
市 一 块 磁 盘 的 情况 下 ， 那 就 更 是 小 沫 一 碟 了 。 所 以 这 种 产品 的 基因 决定 
了 它 的 应 用 场景 ， 也 就 是 比如 冷 数 据 存储 场景 或 者 备份 等 海量 低 成 本 存 
储 场景 。 








综 上 ， 我 们 暂且 简称 这 种 硬盘 为 “IP 硬 盘 ” 或 者 “对 象 硬 盘 ”"。 其 与 传 
统 的 存储 架构 本 质 区 别 在 于 ， 传 统 存 储 控制 器 属于 集中 式 控 制 器 ， 用 一 
人 台 或 者 多 台 集 中 式 的 高 性 能 控制 器 ， 通 过 SAS/SATA 适 配器 接 入 数量 有 
限 的 磁盘 ， 最 小 的 比如 Raid 卡 ， 比 如 Adaptec by PMC 最 新 的 产品 可 直 连 
24 盘 或 者 通过 扩展 柜 连接 256 盘 ， 最 大 的 比如 高 端 商 用 企业 存储 ， 可 以 
管理 多 达 3000 多 块 盘 ， 前 端 终结 了 SAS 协 议 ， 转 为 使 用 FC 或 者 iSCSI、 








NAS 或 者 对 象 等 协议 ， 通 过 集中 的 、 单 一 的 访问 点 来 访问 所 有 磁盘 经 过 
虚拟 之 后 的 空间 。 而 Kinetic 的 杂 构 则 属于 分 布 式微 型 控制 路， 有 多 少 磁 
税 就 有 多 少 个 访问 后 。 





说 到 这 里 我 们 就 要 仔细 地 去 分 析 一 下 ， 这 种 新 染 构 帝 来 的 优点 和 挑 
战 在 哪里 。 旺 庸 置疑 ， 其 优点 是 支持 大 规模 并 行 访问 ， 因 为 访问 点 是 分 
布 式 的 ， 有 多 少 人 磁盘 就 有 多 少 访 问 点 ， 那 么 应 用 或 者 客户 端 程序 可 以 直 
接 并 行 地 访问 所 有 连接 到 以 太 网 上 的 磁盘 ， 体 系 效率 较 高 。 当 然 ， 其 代 
价 就 是 访问 节点 的 管理 上 ， 需 要 被 软件 定义 。 对 于 集中 式 的 磁盘 控制 
器 ， 对 磁盘 的 管理 ， 比 如 监控 、 容 错 、 性 能 优化 、 空 间 管 理 等 ， 都 由 集 
中 控制 负责 ， 上 层 不 需要 关心 ， 而 新 架构 下 ， 直 接 暴 露 了 底层 的 磁盘 ， 
那么 这 些 逻 辑 就 需要 被 挪 到 上 层 软件 层 中 去 执行 ， 也 就 是 所 谓 软件 定 
义 ， 那 就 需要 用 户 具 有 一 定 的 技术 开发 能 力 去 驾驭 这 个 新 架构 ， 或 者 由 
厂商 做 这 一 层 的 开发 ， 但 是 相对 于 在 外 部 设备 里 开发 这 一 层 来 讲 ， 在 用 
户 的 OS 里 做 这 个 管理 层 ， 其 主要 难度 在 于 兼容 性 ， 用 户 的 OS 干 变 万 
化 、 环 境 千 变 万 化 ， 兼 容 性 很 难保 证 。 所 以 这 类 产品 应 用 到 互联 网 后 端 
的 可 能 性 较 大 ， 一 般 企 业 会 吃不消 对 其 日 常 维护 的 开销 。 


























那么 再 看 一 下 互联 网 企业 ， 假 设 如 果 依 然 利用 现 有 架构 ， 比 如 1U 
通用 服务 器 ， 加 一 个 SAS/SATA Raid/HBA 适 配器 ， 接 入 12/16/24 盘 ， 然 
后 在 服务 器 上 进行 空间 管理 、 协 议 转换 ， 底 层 Raid 控 制 器 实现 数据 的 小 
范围 元 余 容 错 及 性 能 优化 ， 在 所 有 服务 器 上 运行 分 布 式 文件 系统 来 执行 
数据 的 大 范围 容错 和 均衡 ， 这 样 做 的 好 处 是 对 上 层 来 讲 复杂 度 降 低 。 同 
样 是 1U 服 务 器 ， 如 果 访 问 Kinetic 架 构 ，SAS/SATA ”Raid/HBA 就 不 需要 
了 ， 直 接 通过 以 太 网 ， 那 么 原本 由 SAS Raid 卡 做 的 工作 ， 就 需要 用 软件 
去 做 ， 需 要 用 户 自己 或 者 厂商 开发 一 层 逻 辑 ， 而 且 这 层 逻 辑 要 么 是 分 布 
式 部 团 的 ， 要 么 是 非 对 称 集中 式 部 蜀 在 一 个 帝 外 控制 管理 节点 上 的 ， 这 














种 做 法 基本 上 束 是 将 磁盘 进行 非 对 称 的 外 集群 化 ， 供 上 层 的 服务 咒 集 群 
访问 。 如 果 使 用 1GB 以 太 网 连接 每 块 磁盘 ， 其 带宽 相对 目前 主流 的 6GB 
SAS/SATA 来 讲 会 降低 ， 时 延 也 会 增加 。 








结论 ， 不 管 是 对 于 互联 网 企业 还 是 传统 企业 ， 一 个 集中 控制 设备 或 
者 软件 层 都 是 需要 的 。Kinetic 架 构 的 优势 在 于 ， 降 低 了 访问 粒度 ， 提 升 
了 大 范围 内 的 访问 并 行 度 ， 其 劣势 在 于 ， 人 性 能 域 扩大 ， 管 理 域 也 随 之 扩 
大 ， 故 障 域 也 随 之 增 大 ， 传 统 1GB 以 太 网 带宽 和 响应 速度 有 限 ， 对 于 冷 
数据 这 类 场景 ， 传 统 架 构 在 性 能 、 成 本 、 管 理 上 是 否 已 经 真 的 无 法 满足 
需求 ? 是 售 有 必要 去 这 样 折腾 ， 还 是 个 需要 考虑 的 问题 。 

















附录 3 ”新 技术 将 如 何 影响 数据 中 
心 存储 系统 


目 记 为 一 个 可 以 见证 中 国 存储 发 展 的 存储 界 老 泥 子 ， 不 得 不 承认 ， 
存储 的 发 展 真 的 是 太 快 了 ， 以 至 于 很 多 技术 还 没 大 展 宏图 ， 整 太 现 眼前 
的 这 片 森林 已 经 今 非 昔 比 。 我 想 这 也 是 当前 很 多 存储 广 商 、 集 成 商 所 面 
临 的 困惑 之 一 。 














有 很 多 人 曾经 和 我 讨论 过 诸如 "我们 下 一 步 到 诬 该 做 什么 ”的 话题 。 
有 些 广 商 做 法 很 简单 ， 一 线 品 牌 三 商 做 什么 ， 惑 跟 独 做 什么 ， 这 样 最 保 
险 ， 但 是 没有 一 定 实力 的 厂商 也 玩 不 起 。 对 于 二 三 线 广 商 ， 事 态 尤 为 严 
重 。 换 在 几 年 前 ， 我 想 很 多 广 商 目标 都 比较 明确 。 但 是 ， 近 几 年 新 扩 术 
和 新 概念 爆发 式 的 产生 ， 而 存储 领域 的 产品 集成 开发 周期 义 相 对 较 长 ， 
这 是 导致 目前 众多 三 商 迷茫 的 原因 之 一 。 等 你 的 产品 出 来 了 ， 却 发 现 走 
错 了 路 ， 或 者 窗口 期 已 经 过 去 。 




















本 文 试图 对 当前 多 个 存储 子 层 里 的 多 项 技术 做 简要 分 析 来 获知 它们 
对 传统 体系 的 影响 。 


1. 存储 介质 一 闪存 和 SMR 和 磁盘 


机 械 磁 盘 作 为 在 线 主 存储 介质 的 角色 ， 可 以 说 几 十 年 来 没 变 过 ， 是 
各 种 存储 技术 里 最 稳定 的 一 个 了 。 然 而 内 存 的 出 现 ， 将 要 改变 的 不 仅 是 
存储 介质 ， 更 将 会 改变 整个 存储 生态 链 。 





内 存 作为 新 一 代 存 储 介质 相对 于 机 械 磁 盘 的 优点 不 必 多 说 ， 一 个 更 
加 值得 思考 的 问题 是 ， 由 于 内 存 并 不 像 机 械 盘 一 样 需要 高 精 尖 的 扩 术 ， 
其 入 门 门槛 较 低 ， 尤 其 是 内 存 控制 絮 的 设计 生产 ， 目 前 可 以 说 是 抽 地 开 
化 ， 国 内 已 经 有 多 家 自主 产权 的 内 存 控制 器 及 外 围 产 品 。 








希捷 和 西数 这 两 家 机 械 磁 盘 的 巨头 如 今 也 开始 居安思危 了 ， 一 方面 
积极 研究 和 融入 闪存 技术 ， 另 一 方面 也 在 积极 彰 着 产业 链 下 游 友 展 ， 从 
希捷 收购 Xyratex 的 动作 就 能 略 感 一 二 。 在 未 发 生 颠 履 性 变革 之 前 ， 产 
业 链 上 游 是 既 安全 又 稳妥 的 地 方 ， 但 是 当即 将 发 生 题 履 性 变革 的 时 候 ， 
整个 产业 链 都 会 受到 影响 ， 此 时 便 会 出 现 群 魔 乱舞 的 壮观 景象 。 比 如 与 
云 计 算 看 似 无 关 的 和 希捷， 联合 下 游 广 商 推 出 适用 于 云 计 算 大 数据 的 新 型 
磁盘 Kinetic， 同 样 ，Intel 也 在 积极 参与 云 计 算 大 数据 领域 。 包 括 一 向 低 
调 的 PMC-Sierra 也 在 收购 了 板 卡 广 商 Adaptec 之 后 又 收购 了 闪存 和 PCIE 
控制 器 广 商 IDT 并 开始 厚积薄发 。 

















闪存 对 传统 的 下 游 存储 厂商 的 影响 也 将 会 是 巨大 的 。 


首先 ， 基 于 机 械 磁 副 介质 所 积 系 的 成 熟 的 传统 架构 基础 面临 崩塌 ， 
包括 硬件 设计 (比如 尺寸 、 散 热 、 承 重 和 空间 布局 等 ， 也 包括 软件 设 
计 《 比 如 数据 布局 、IO 性 能 优化 和 故障 预测 及 恢复 等 ) 。 这 也 是 为 何 仅 
仅 把 传统 存储 系统 中 的 机 械 盘 葵 换 为 SSD 之 后 却 发 现 根本 无 法 发 挥 出 





SSD 性 能 的 原因 (当然 制约 SSD 性 能 发 挥 的 本 质 因 素 还 有 一 个 ， 会 在 下 
一 节 讨 论 [DW5]) 。 


其 次 ， 传 统 存 储 高 大 上 的 形象 也 会 被 闪存 彻底 摧 驶 ， 原 本 松 耦 合 的 
各 种 大 部 件 搭配 起 来 的 “巨型 机 器 人 ?将 变 得 非常 小 巧 。 最 极 闪 的 情况 其 
至 可 以 直接 用 一 块 PCIE Flash 卡 苦 代 ， 连 影子 都 消失 在 了 服务 器 机 箱 外 
面 。 磁 盘存 储 将 退 居 二 线 ， 成 为 真正 的 备份 用 二 线 存 储 ， 使 用 步骤 或 许 
会 是 “开机 -~ 备份 ~ 关机 ”。 和 磁盘 存储 将 会 成 为 下 一 代 人 有 眼 里 彻底 的 淘汰 
产品 ， 束 像 卡带 机 一 样 。 





再 次 ， 拖 累 传统 磁盘 存储 的 男 一 个 包容 ， 就 是 那些 华而不实 的 软件 
功能 ， 包 括 目 动 精简 配置 、 重 删 、 快 照 、 分 层 / 缓 在 和 复制 等 。 这 些 软 
件 功 能 除了 其 中 几 个 较为 常用 之 外 ， 其 他 可 以 说 是 鸡肋 ， 但 为 了 商务 苋 
争 又 不 能 没有 ， 陷 入 恶性 循环 。 上 述 软 件 功能 中 的 每 一 项 ， 坚 不 客气 的 
说 ， 者 是 影响 性 能 的 。 分 层 和 缓存 实际 上 是 增加 了 相对 性 能 ， 而 降低 了 
绝对 性 能 。 除 了 快照 、 分 层 和 远程 复制 之 外 ， 其 他 软件 功能 多 数 时 候 都 
不 为 人 所 用 。 








用 户 似乎 越 来 越 追 求 傻 快 的 存储 。 这 一 点 在 面 对 “ 软 件 定 义 ” 概 念 时 
更 有 说 服 力 了 ， 硬 的 更 便 ， 软 的 更 软 ， 这 更 进一步 拉 低 了 存储 系统 的 门 
槛 。 抛 开 了 这 些 包 容 ， 利 用 闪存， 越 来 越 多 的 全 内 存 存储 三 丙 出 现 了 ， 
而 这 些 全 闪存 存储 为 何 基本 都 没有 出 目 传统 一 线 存储 三 丙 [DW6]， 原 因 
显而易见 了 。 











磁 存 储 领 域 的 一 项 新 技术 是 SMR (对 瓦 式 磁 记录 ) 技术 ， 这 项 技术 
提升 了 存储 密度 ， 却 不 能 保证 随机 写 的 性 能 ， 这 一 点 从 原理 上 讲 更 类 似 
于 回 态 介质 的 Page 与 Block 之 间 的 塌 傣 。 和 希捷 等 磁 存 储 广 商 也 正在 研究 
是 否 要 在 SMR 磁 盘 内 实现 类 似 Flash 的 管理 方式 。SMR 磁 盘面 向 一 写 多 





读 场 景 ， 适 用 于 大 数据 、 备 份 等 特定 领域 。 下 一 步 还 有 热 辅 助 磁 记 录 技 
术 ， 但 是 迟 迟 未 能 商用 。 看 来 磁 存 储 在 性 能 瓶颈 之 后 ， 可 商用 的 容量 瓶 
颈 也 即将 到 达 。 破 存储 淡出 舞 合 是 大 势 所 趋 。 





2. 底层 框架 一 一 芯片、 底 软 和 通道 

闪存 的 出 现 ， 会 影响 生态 链 上 的 所 有 事物 ， 这 其 中 也 包括 了 最 底层 
的 芯片 、 底 层 软 件 和 数据 通道 。 

芯片 


芯片 要 有 足够 强 的 处 理 能 力 来 承载 起 闪存 强悍 的 IOPS 性 能 ， 包 括 
Flash 控 制 蕊 片 、 外 围 协议 控制 芯片 (SAS、FC、 以 太 网 ) 以 及 主机 
CPU。 








心 片 的 提速 手段 有 三 种 ， 第 一 是 提高 内部 数据 带宽， 增加 通道 数量 
和 带宽 ， 第 二 是 提升 器 件 频率 ， 第 三 是 将 各 个 子 器 件 进行 拆 分 ， 增 加 并 
行 度 ， 在 相同 电路 周期 内 可 并 发 执行 更 多 的 指令 。 然 而 ， 没 有 免费 的 午 
餐 ， 上 述 任何 一 个 动作 ， 要 么 会 增加 心 片 的 功 耗 ， 要 么 会 增加 面积 ， 这 
些 都 是 浆 端 。 











目前 一 线 三 商 PMC 的 主流 存储 控制 世 片 实际 功 耗 都 控制 在 15W 上 
下 ， 即 便 是 最 新 的 SAS 12GB 主 控 芯 片 ， 由 于 制造 工艺 的 提升 ， 功 耗 反 
而 比 6GB 产 品 有 所 降低 。 到 目前 为 止 ， 主 流 存 储 芯 片 都 是 基于 MIPS 核 
心 十 外 围 加 速 电 路 ，MIPS 是 被 公认 的 RISC 通 用 处 理 器 领域 最 经 典 的 代 
表 ， 然 而 ARM 的 猛攻 也 渗透 到 了 存储 芯片 领域 ， 在 低 端 市 场 占据 了 席 
位 ， 包 括 4 端 口 SATA 控 制 器 、 低 端 SoC 等 等 ，ARM 和 MIPS 也 会 在 存储 
心 片 领域 持久 对 峙 下 去 。Intel 则 由 于 功 耗 问题 ， 颇 有 绑 死 zx86 平 台 走 到 
底 的 趋势 ， 移 动 终端 失策 ， 卖 掉 电 视 部 门 ， 靠 Atom 在 大 型 数据 中 心 领 
域 与 ARM 抗 衡 ， 不 知道 格局 能 维持 多 久 。 


底层 软件 


底层 软件 方面 也 是 制约 存储 性 能 提升 的 一 大 屏障 。 拿 Linux 为 例 ， 
Block 层 、SCSI 中 间 层 这 两 大 制约 IO 性 能 发 挥 的 重量 级 软件 屋 ， 在 机 械 
盘 时 代 发 挥 了 重要 作用 ， 然 而 在 闪存 时 代 ， 其 变 成 了 严重 拖累 性 能 的 罪 
魁 祸首 。 繁 元 的 扫描 机 制 ， 低 效 的 互 斥 队列 和 捉襟见肘 的 队列 数量 ， 陈 
旧 不 堪 的 SCSI 协 议 ， 这 些 对 闪存 来 讲 都 是 头疼 的 事情 ， 目 前 内 存 产品 不 
得 不 选择 越过 SCSI 层 而 直接 注册 到 Block 层 ， 然 而 却 丢 失 了 SCSI 层 提供 
的 兼容 性 优势 ， 导 致 各 家 在 Block 下 层 的 协议 实现 不 统一 ， 增 加 了 开发 
成 本 和 管理 开销 。 而 业界 关于 这 方面 的 两 大 协议 阵营 一 一 NVMe 以 及 
SCSIe 也 在 飘忽 不 定 ， 导 致 厂商 不 得 不 两 手 准 备 ， 痛 苗 不 堪 。 目 前 似乎 
VNMe 更 胜 一 筹 ， 这 也 是 存储 底层 部 件 巨 头 PMC-Sierra 收 购 IDT 的 原因 
之 一 ，IDT 的 Flash 控 制 器 是 业界 第 一 家 完整 支持 NVMe 的 成 品 控制 右 ， 
目前 已 经 在 多 家 固态 存储 产品 中 被 应 用 。 

















数据 通道 





协议 接口 方面 ， 基 于 SCSI 体 系 衍生 而 来 的 势力 有 三 股 ， 一 个 是 
FC， 另 一 个 是 SAS， 还 有 一 个 是 iSCSI 纯 软 件 方案 。 然 而 NVMe 与 SCSI 
从 头 到 脚 都 是 两 套 完全 不 同 的 协议 ， 虽 然 它们 的 目的 是 一 样 的 ， 就 是 把 
数据 从 介质 里 传 到 内 存 里 ， 但 是 NVMe 除 了 相对 SCSI 协 议 做 了 很 多 精简 
之 外 ， 还 在 数据 结构 方面 做 了 很 多 优化 ， 充 分 发 挥 底层 介质 的 并 发 访问 
性 能 。Linux 开 源 社区 最 近 也 在 研究 如 何 优化 SCSI 层 的 问题 ， 看 来 SCSI 
是 去 是 留 已 经 是 个 问题 了 。FC 通 道 前 端 目前 正在 逐渐 被 万 兆 以 太 网 看 
食 ， 而 后 端 则 在 几 年 前 就 已 经 被 SAS 全 盘 端 掉 。 








SAS 之 所 以 没有 端 挥 FC 前 端 有 两 个 原因 : 其 一 是 因为 FC 前 端 体系 








并 非 只 存在 于 存储 设备 内 部 ， 而 还 涉及 到 交换 机 ， 其 存量 市 场 并 不 是 仅 
仅 通 过 答 代 摊 存 储 设备 的 前 端 通道 卡 就 可 以 占领 的 ， 其 二 ，SAS 在 光 传 
输 方面 略 显 迟 钝 ， 究 其 原因 在 于 SAS 光 协议 对 于 链 路 协商 方面 的 一 项 技 
术 实 现 争 议 了 民 久 ， 直 到 很 晚 才 确 定 。 





FC 也 必 将 淡出 舞台 。 然 而 ， 其 接 蔡 者 并 非 只 有 以 太 网 或 者 SAS。 还 
有 另外 一 项 更 为 前 瞻 的 通道 技术 ， 那 就 是 PCIE。 目 前 我 们 所 熟知 的 以 太 
网 、FC、SAS、Infiniband 等 通道 协议 ， 在 主机 层面 无 一 不 通过 PCIE 接 
入 系统 IO 总 线 。 之 前 的 “ 远 距离 ”传输 概念 ， 正 在 变 得 模糊 ， 多 “ 远 ” 算 
是 “ 远 ”， 如 果 PCIE 能 够 “ 远 ? 到 一 定 距 离 ， 还 要 以 太 网 作 甚 ? 这 个 问题 问 
得 好 ， 但 是 PCIE 并 不 是 万 能 的 ，PCIE 目 前 缺失 很 多 交换 网 络 特性 ， 毕 
竟 之 前 一 直 是 在 系统 总 线 领域 ， 出 了 总 线 ， 就 得 长 距离 交换 和 路 由 ， 这 
方面 就 得 靠 以 太 网 和 TCPAIP 了 。 然 而 ， 同 样 的 理论 ， 在 目前 和 将 来 的 数 
据 中 心 领 域 可 不 见得 能 套用 。 目 前 的 数据 中 心 有 苗 头 正在 朝 着 紧 耦 合 方 
向 发 展 ， 也 就 是 之 前 一 个 机 架 内 的 服务 器 之 间 是 松 耦 合 的 ， 现 在 要 变 得 
以 机 架 为 单位 ， 机 架 内 部 紧 耦 合 ， 机 架 外 部 松 耦 合 ， 此 时 PCIE 就 有 用 武 
之 地 了 ， 机 架 内 部 完全 基于 PCIE 和 矩阵 。 针 对 这 个 前 治 方向 ， 目 前 Intel 以 
及 PMC-Sierra 都 有 研究 并 且 有 了 DEMO。 当 然 ， 对 SAS 和 SATA 的 兼容 
一 定 是 要 考虑 的 ，SFF8639 接 口 标准 其 实 是 一 个 三 模式 〈Tri-mode) 的 
接口 ， 把 SATA、SAS 和 PCIE 打 包 到 一 起 ， 后 端 则 根据 前 端 接 入 设备 类 
型 路 由 到 SAS ExpandevController 或 者 PCIE Switch 上去。 目前 看 来 这 个 
接口 已 成 定局 。 




















3. 数据 结构 
及 开 汤 


RAID 2.0 


RAID 2.0、ErasureCode、 分 布 式 





硬件 平台 之 上 的 软件 ， 也 在 风起云涌 地 变化 着 。 传 统 存储 领域 可 炒 
作 的 概念 已 经 没有 了 ， 然 而 创新 又 迟 迟 未 见 。RAID 2.0 被 几 家 厂商 在 炒 
作 ， 但 终归 也 是 RaidEE 技 术 的 升级 版 。 男 外 ，RAID 2.0 与 现在 多 数 技术 
一 样 ， 只 是 提升 了 相对 性 能 ， 而 没有 提升 绝对 性 能 ， 也 就 是 当 磁 盘 达 到 
一 定数 量 的 时 候 ， 这 项 技术 才 会 显示 出 优势 ， 但 是 依然 赶不上 相等 数量 
的 磁盘 在 传统 模式 下 的 绝对 性 能 。RAID 2.0 对 数据 的 处 理 ， 已 经 不 亚 于 
一 个 文件 系统 了 ， 过 多 的 数据 碎片 影响 了 绝对 性 能 ， 但 是 大 量 的 磁盘 推 
砌 又 可 以 掩盖 这 一 事实 。 其 所 获得 的 唯一 一 个 绝对 好 处 是 重 构 时 间 的 大 
幅 降 低 ， 然 而 却 牺 牲 了 平时 的 绝对 性 能 。 





ErasureCode 


ErasureCode 技 术 也 不 是 什么 新 鲜 事 。RAID 6 以 及 RAID DP 技术 很 
早 就 出 现 了 ， 那 时 候 人 们 已 经 发 明了 可 以 容 妨 更 多 磁盘 同时 损坏 的 技 
术 ， 只 不 过 受 限 于 随机 写 性 能 而 没有 将 其 商用 。 但 是 时 过 境 迁 ， 大 数据 
时 代 读 多 写 少 ， 再 加 上 数据 量 大 ,RAID DP (Double Parity) 、RAID 
TP (Triple ”Parity)〉 甚 至 允许 更 多 磁盘 同时 损坏 的 算法 ， 就 义 冒 出 头 来 
下 所 


分 布 式 





Scale-Out 是 传统 存储 领域 对 “分 布 式 ”的 一 个 包装 词 ， 然 而 传统 存储 





理解 的 分 布 式 和 互联 网 及 开源 领域 所 认识 的 分 布 式 骨子里 还 是 不 同 的 。 
传统 存储 厂商 的 分 布 式 不 是 廉价 的 分 布 式 ， 它 们 的 分 布 式 完全 是 为 了 解 
决 Scale-Up 模 式 的 天 花 板 ， 而 互联 网 和 开源 的 分 布 式 骨 子 里 为 的 就 是 康 
价 。 表 现形 态 也 不 同 ， 前 者 虽然 实质 上 也 是 x86 服 务 串 十 分 布 式 软件 管 


理 层 ， 但 是 依然 略 显 高 大 上 。 


开源 





开源 的 风潮 体现 在 最 近 的 一 个 新 概念 里 ， 那 就 是 所 谓 “ 软 件 定 
义 ” 了 。 软 件 定 义 让 二 三 线 厂商 出 师 有 名 ， 直 接 挑战 传统 一 线 大 厂 的 权 
威 地 位 ， 这 一 点 从 近期 一 些 二 三 线 厂商 直截了当 的 露骨 演讲 即 可 知道 ， 
玫 头 直 指 一 线 榴 断 大 三 ， 似 乎 在 当头 棒 喝 “和 凭 什么 你 们 就 是 高 大 上 ?”。 





4. 用 户 体验 一 一 接口 、 访 问 方式 及 展现 


在 对 存储 的 访问 接口 方面 ， 新 的 访问 接口 近 几 年 在 互联 网 的 带动 下 
也 发 生 了 爆发 式 增 长 。 传 统领 域 一 直 在 鼓吹 所 谓 “ 统 一 存储 ”， 鼓 吹 了 近 
十 多 年 ， 早 就 炒 烂 了 。 对 象 、key-value、 文 件 、 块 是 目前 来 讲 主流 的 4 
种 访问 形式 ， 其 中 文件 又 包含 多 种 子 类 型 〈 比 如 NFS、CIFS 以 及 各 种 分 
布 式 文件 系统 访问 协议 ) ， 块 又 分 为 FC、SAS、iSCSI。 不 管 访问 形式 
如 何 ， 它 们 本 质 都 是 一 样 的 ， 都 是 对 一 串 字 节 的 请 求 和 回复 ， 只 不 过 这 
串 字 节 在 不 同 应 用 场景 下 的 归 类 不 同 哎 了 。 


























在 用 户 体验 方面 ， 传 统 存储 做 得 较 关 。 但 是 随 痢 互联 网 风潮 来 玫 ， 
重视 用 户 体验 、 应 用 感知 、QoS 等 更 加 接近 用 户 层面 的 功能 越 来 越 受到 
重视 。 


提示 : ”笔者 之 前 所 设计 的 存储 软件 套件 SmartX Insight 就 是 从 
用 户 体验 方面 来 入 手 ， 增 强 存 储 系 统 在 整个 系统 内 的 “存在 
感 "， 改 变 传统 存储 一 副 道 貌 悍 然 的 样子 。 我 想 这 样 更 有 利于 
么 住 用 户 ， 从 而 扩大 及 延长 存储 系统 的 生存 空间 和 时 间 。 





5. 闪存 与 数据 中 心 一 SATA/PCIE 及 应 用 场景 


目前 来 看 ， 数 据 中 心 对 Flash 的 淘 求 主要 集中 在 儿 个 固定 的 应 用 场 
景 ， 前 并 来 讲 ， 比 如 CDN，ISP 的 市 交 是 非常 贵 的 ， 必 须 充 分 利用 ， 所 
以 人 硬 副 必须 不 是 憩 贷 。 后 端 则 是 各 级 缓存 场景 ， 包 括 各 类 分 布 式 数据 库 
系统 、 分 布 式 文件 系统 的 前 端 基 本 上 都 是 放 了 一 级 或 者 两 级 甚至 更 多 级 
的 缓存，RAM 毕 竟 还 是 很 贵 的 ， 而 且 容 量 有 限 ， 主 要 用 于 第 一 级 缓存 
直接 应 对 前 端的 压力 ，EFlash 则 可 趁机 占领 一 部 分 后 置 缓存 空间 。 














数据 中 心 对 SATA 接 口 SSD 的 应 用 占据 了 总 体形 态 的 大 概 90% ， 剩 
下 的 10% 主 要 是 PCIE 接 口 的 Flash， 前 者 基本 被 Intel 独 占 ， 后 者 则 是 花 开 
几 条 ， 其 中 也 不 乏 国 内 厂商 。 





PCIE Flash 是 大 势 所 趋 ， 尤 其 是 文 持 NVMe 标 准 的 设备 。 但 是 目前 
的 形态 却 不 被 看 好 ， 别 看 当下 多 人 在 此 领域 角逐 。 当 前 形态 存在 的 问题 
是 维护 困难 、 版 型 太 大 ， 这 些 均 不 符合 数据 中 心 对 硬件 资源 的 要 求 〈 一 
个 是 维护 方便 ， 另 一 个 是 资源 性 能 和 容量 粒度 要 尽 可 能 低 ， 以 便于 灵活 
拼 搭 ) 。 而 基于 SFF8639 接 口 标准 的 设备 相信 马上 就 会 遍地 开花 。 


综 上 上 所 述 ， 各 种 新 技术 对 存储 系统 的 方方面面 产生 了 很 大 影响 ， 如 
今 IT 界 概念 频 出 ， 五 彩 线 纷 ， 众 多 的 存储 广 商 唯 有 分 析 历 史 ， 分 析 当 
前 ， 才 能 看 清 未 来 。 





后 记 
石灰 叭 
于 锤 万 评 出 深山 ， 
庆 火 区 各 丰 等闲 。 
粉 身 雁 骨 浑 不 介 a， 
要 留 清 白 在 人 间 ! 


一 一 于 说 





各 位 朋友 ， 非 常 感谢 您 能 看 完 此 书 。 如 果 您 对 这 本 书 有 何 建议 和 意 
见 。 可 以 发 送 邮件 到 122567712@qq.com， 我 当 万 分 感谢 ! 


另外 ， 还 可 以 到 本 人 博客 留言 或 者 邮件 讨论 本 书 相关 的 内 容 。 





最 后 ， 实 在 想不到 拿 什么 送 给 各 位 以 表 谢 意 ， 就 送 各 位 一 首 诗 ， 也 
送 给 我 目 己 。 


书 湖 掌中 


闭关 数 载 修 此 书 ， 

练 得 秘籍 献 江湖 。 

七 星 降 龙 独孤 掌 ， 

多 少 聚 杰 醇 其 中 ! 
书 中 角色 最 后 归宿 : 


七 星 大 侠 : 开 天 鼻 祖 ， 光 芒 永 照 。 


说 





张 真人 : 百年 求 道 ， 一 生 和 孜孜 不 倦 、 德 高 望 重 、 巧 壹 济世 、 鞠 躺 尽 


、 死 而 后 已 。 


微软 老道 : 承蒙 张 真人 和 时 识 ， 不 负 众望 ， 成 为 武林 盟主 。 
无 忌 : 革命 之 后 ， 到 处 求 仙 访 道 ， 不 知 其 踪 。 
老 T: 把 持 武 林 交 通 系 统 ， 依 然 问 最 后 一 块 阵 地 不 断 进攻 。 





FC 大 侠 : 把 持 看 那 最 后 一 片 领土 ， 与 老 T 对 峙 a 到底。 








